京东启动全球规模最大具身智能数据采集行动 两年内积累千万小时真实场景数据

问题:具身智能从实验室走向规模化应用,核心瓶颈之一在于高质量、可泛化的真实场景数据不足。

相比静态图文数据,机器人要在复杂环境中完成搬运、分拣、护理、清洁等任务,必须学习“看得见、摸得着、走得通”的多模态信息,包含视觉、触觉、空间轨迹以及人机交互过程。

缺少覆盖广泛且连续的真实数据,容易导致模型在新环境中失效,进而制约产品安全性、可靠性与商业化进程。

原因:一是场景复杂、采集成本高。

具身智能对数据的要求不止于“量”,更强调“多样性”和“过程性”,需要长时间记录任务执行的连续链路,并在不同光照、遮挡、噪声、物体差异下反复验证。

二是行业数据割裂。

仓储、制造、医疗、家政等场景分散在不同主体、不同系统中,标准难以统一,导致“可用数据少、可共享数据更少”。

三是产业竞争进入深水区。

当前具身智能技术迭代加快,模型能力提升越来越依赖规模化数据与工程化流水线,企业在数据与场景端的组织能力成为关键变量。

影响:京东提出建设具身智能数据采集中心,并通过“采集—标注—训练—验证”形成流水化闭环,若推进顺利,将带来三方面影响。

其一,有望提高机器人在物流仓储、工业制造、健康医疗、家庭服务、城市运维等场景的任务成功率与适应性,推动从单点演示走向稳定运营。

其二,通过跨场景数据积累,可能促进数据要素在具身智能领域形成更清晰的标准体系与评测方法,带动上下游在传感器、标注工具、仿真平台、算力与模型部署等环节协同。

其三,在更大范围的社会参与下,数据采集的合规边界、隐私保护、数据安全与伦理治理将被更集中地检验,倒逼企业完善制度与技术手段。

对策:针对大规模真实场景采集可能带来的组织与治理挑战,需在“做大规模”与“守住底线”之间建立可操作的路径。

第一,标准先行。

对采集设备、采集格式、标注体系、质量抽检、场景分类等制定统一规范,减少数据冗余与不可用比例,确保“可训练、可复现、可验证”。

第二,合规为本。

企业在公告中强调依法依规开展采集,落地层面应进一步明确告知与授权机制、数据脱敏与去标识化策略、访问权限与留痕审计制度,并对第三方参与采集建立准入与责任追溯体系。

第三,质量优先。

真实数据并非越多越好,需通过自动化清洗、主动学习、难例挖掘与人机协同标注等方法提升有效数据占比,避免“堆数据”带来训练偏差。

第四,闭环验证。

将采集数据与实际业务指标挂钩,把训练效果放到真实作业链条中检验,以持续迭代方式提升在复杂环境下的安全性与稳定性。

前景:京东提出一年积累500万小时、两年突破1000万小时真实场景视频数据,并同步采集机器人本体数据100万小时,叠加其零售与供应链体系的高频作业场景,数据规模化的优势有望在短期内形成“场景—数据—模型—应用”的正反馈。

中长期看,具身智能产业竞争将从单一模型能力比拼,转向数据治理能力、场景运营能力与系统工程能力的综合较量。

谁能在合规框架内持续获得高质量、多场景、可复用的数据,并建立稳定的训练与验证机制,谁就更可能率先推动机器人在仓储搬运、工业协作、社区服务与城市运维等领域实现可规模复制的落地。

京东此次数据采集工程不仅是一次技术布局,更是对智能产业发展路径的积极探索。

在数字经济时代,如何将场景优势转化为技术优势,如何平衡创新发展与数据安全,这一实践或将为行业提供重要参考。

未来,随着数据要素价值的持续释放,中国科技企业有望在全球智能产业格局中扮演更加关键的角色。