具身智能“数据荒”破局，关键在炼制“第一视角数据”- DoNews专栏

文｜唐辰

京东要从物理世界破解具身智能“数据荒”。

“520”当天，京东宣布，其全国首个具身智能数据采集社区落地宿迁，并已正式运行。这是京东“具身智能超级供应链”战略的又一关键落子。

在此之前，它已经迈出两大步：今年3月，京东宣布建设全球最大具身数据采集中心。其将发动最多60万人，在两年内积累1000万小时人类真实场景视频数据。

紧接着4月，京东具身智能生态发布会上，包括全球首个具身数据全链路基础设施、自研采集终端JoyEgoCam、具身大模型JoyAI-RA以及具身智能数据交易平台等系列成果亮相。

这些动作都成为其一个更宏大战略的一部分。即，京东在今年618启动会上再次强调的目标——打造全球最大物理世界运营中心。

京东之所以敢这么果决，在于它看清了具身智能的命门：数据荒。

这也是具身智能目前的真实处境，其正遭遇数据供给与产业需求严重错配的核心瓶颈。数据显示，通用具身大模型的训练，需要数千万小时高质量真实数据。但全球行业数据存量仅有数十万小时，缺口超95%。

为何必须重造“第一视角数据”？

目前，具身智能数据采集大致可以分为三类：一类是机器人遥控操作和UMI（通用操作接口）数据；还有一类是互联网视频数据；第三类便是京东正在重造的人类第一视角数据。

有行业专家介绍，遥控数据数量有限，即使很多头部公司也仅有两三万的遥控数据。其背后反映的是遥控数据获取成本高，采集速度慢的困境。

比如真机采集1小时成本动辄花费数百元，还得搭一套专业动捕环境。在采集速度上，人盯着屏幕遥控机械臂，采集节奏很难跟上真实生产节拍。

甚至有观点指出，机器人遥控操作数据这条路，可能走不下去。这种方式产生的数据，难以同时支撑大规模训练与产业落地。

互联网视频数据倒是不缺，但多是机器人无法使用的无效数据。这类数据提供的是“第三方视角”，能告诉AI发生了什么，但说不清楚“动作为何这样发生”。

比如一道时令的春笋炒肉教学视频。镜头展示了食材、步骤和成品，但机器人学不到配菜下锅时的油温、火候变化、翻炒力度等细节。

这两类数据训练的机器人，实际上都是“演员”。它们可以在可控的场景里复刻标准动作，但面对无序、随机、多变的真实物理世界，就显得“小脑发达、大脑不足”，擅长跑跳等基础动作，却无法完成家务、精细操作等实用任务。

究其根本，机器人被投喂的数据，脱离了真实的物理世界。

具身智能的核心，是动手操作、感知物理、动态决策，需要像人类一样，通过“第一视角”与世界交互：用眼睛看、用手触摸、感知力度、判断环境、积累容错经验，即第一视角数据（Ego-centric Data）。

这类数据完整复刻了人类面对物理世界的感知、判断与操作逻辑，也保留了人类操作时的隐性信息：视线的移动轨迹、手眼协同的微操、对空间关系的判断等，称得上是适配物理AI的“原生语言”。

相较互联网数据和遥控数据，第一视角数据可以告诉机器人“动作为何发生”，以及“动作如何被执行”。要让AI在物理世界发挥真正价值，第一视角数据必须被重新创造。

过去一年，英伟达、Tesla、Figure、1X等公司纷纷大规模采集人类操作视频，用于训练机器人的模仿学习（Imitation Learning）。英伟达今年提出的EgoScale框架，明确将大规模第一视角数据视为机器人训练的核心基础设施。

某种意义上，第一视角数据正在成为全球具身智能领域最稀缺的资源。

更重要的是，这个领域也在出现类似大模型的Scaling Law（缩放定律）：机器人看的视频越多，就越聪明。

这意味着，模型能力上限，取决于真实世界行为数据的规模与质量。具身智能最终竞争的，不只是模型能力，更是谁能持续获得大规模真实场景中的第一视角人类数据。

京东布局具身智能数据采集，以及在618上再次提出“将打造全球最大物理世界运营中心”的核心价值就在于此。它走进真实的普通人生活、产业场景，以人类第一视角，采集实操数据，也在补齐遥控数据、互联网视频数据的短板。

宿迁，是京东具身智能数据基建量产化、规模化、生态化核心承载地。京东已经在此建立全球最大具身智能数据采集中心。

我在宿迁看到，家庭、医疗、养老院护工、服装厂工人、果农作业等场景，市民采集员将日常生活、工作的对应数据，采集上传。

比如，宝妈边做家务，将生活化的擦桌子、叠衣服、整理收纳、地面清洁等劳动中的上肢轨迹、力度分布、人与家居环境的交互关系等关键参数，通过自研采集终端获取。

这些数据经过上传、质检、标注等流程，成为优质的“数据燃料”，输入具身智能模型，让模型更加理解真实的物理世界。

目前，这场被视为“人类历史上规模最大的数据采集行动”，已经覆盖家庭、办公室、工厂到物流、商店、环卫等超百个细分场景。

京东也在数据采集项目落地中，将人类操作经验从“物理动作”向“数字资产”的升维，并成为机器人的“人类行为样本”。

“3+1”底座，撑起“全球最大物理世界运营中心”

换句话说，京东正在为具身智能炼制第一视角数据“金丹”。

这绝对是一个苦活、累活。巨头都在争抢第一视角数据时，京东是国内AI大厂里最先入局的一家。

为什么是京东？它为什么能够率先完成物理世界数据体系的重构？在我看来，这得益于京东构建了一套“3+1”核心壁垒。

首先AI基建。这是纯算法厂商、硬件厂商、单一场景玩家无法复刻的场景优势。其由京东”硬商业实力+AI基础设施“两大根基支撑。

前者得益于京东深耕实体经济，搭建起覆盖全国的线下基建网络，比如3600多个遍布全国的仓库、京东Mall等一万多家线下门店、二十多万家合作药房、五万余名专业家政服务人员等实体场景，都是天然的物理AI数据宝库，使得它在数据采集过程中，无需像实验室”造景“，就能在日常经营、运营中获得高质量数据。

后者是京东愿意砸钱做技术研发，为AI与实体经济的融合趟出一条可复制的实践路径。京东2026年一季度财报显示，该季度研发投入增速同比再超59%。

这是京东版“大力出奇迹”，京东AI已在“模型层-技术底层-产业生态”上多维度突破，为其聚焦“解决实际问题”提供了技术保障。

值得一提的是，京东在打造“具身智能超级供应链”的过程中，搭建起行业唯一覆盖“采、存、标、训、评、仿、测”的全链路具身智能数据基础设施。

其次是产业厚度。这是京东AI区别于纯实验室创新的核心差异。目前，京东超级供应链已经深度嵌入零售、物流、健康、工业等数千个细分场景，自身就有供应链及业务场景优势。在仓库分拣、快递配送、家居服务、工厂运维等业务场景，快递员分拣包裹的力度、仓库工人搬运货物的角度、家政人员擦玻璃的动作等数据，都是遥控、互联网视频数据给不到，但又是机器人训练所需的真实数据。

我看到一个更大的价值是，京东AI在供应链嵌入产业中也在进行能力迁移，进一步挖深产业。比如，京东物流超脑大模型推动狼族机器人持续迭代。

这是一个动态、或者说在进化的产业厚度，让京东的数据采集天然带着行业Know-how（解决方案），每条数据都贴合产业需求、贴合真实场景，精度和实用性远超实验室标准化数据，从根源上保证了模型训练后的落地能力。

第三是用户体验。一个行业共识是，大模型已经告别参数内卷，其最终目的是要落地，创造价值。京东AI战略的重要支柱便是用户体验，坚持“技术可用、体验可感”。这正推动AI从“技术炫技”到“落地实用”的跨越。

比如，在具身智能领域，京东零售2026年将助推机器人品牌伙伴累计销售破100亿元；京东JoyInside“附身智能”与近200个家电家居、机器人、玩具等品牌深度合作等，为智能家电、机器人等植入“高情商大脑”，让消费者体验AI，用上AI。

串联起AI基建、产业厚度、用户体验三大优势，构成京东终极壁垒的，是独一无二的超级供应链思维。

这是京东区别于所有AI玩家的底牌。供应链的本质，是对物理空间、信息流、物流、人工操作等环节的高效把控和统筹。这与具身智能“感知物理世界、适配物理规则、完成实操任务”的核心需求高度契合。

也正是这套思维，让京东在具身智能赛道上，找到了别人无法替代的生态位：具身智能时代的“基础设施提供商”和“超级供应链服务商”。其通过搭建全链路数据基建、开放具身智能数据交易平台、共建具身数据“朋友圈”，把自身下沉为具身智能时代“水电煤”。

简单来说，当大模型还在数字世界里“纸上谈兵”时，京东已经率先杀入物理世界，并炼制出“第一视角数据”金丹，重新定义具身智能的落地逻辑。

这也是京东敢于官宣打造“全球最大物理世界运营中心”的真正底气。可以预见，未来所有的机器人企业、模型厂商、产业伙伴，都可以依托这套“水电煤”，快速完成模型迭代、产品落地、场景适配。

在京东炼制的数据燃料支持下，将物理操作转化为可计算、可复用的数字资产，具身智能的价值也在外溢，加速迎来属于物理AI的“ChatGPT时刻”。

2026年，已经被权威媒体与行业共识定义为具身智能数据元年。或许，物理世界的“ChatGPT时刻”，也会从这1000万小时数据燃料的炼制开始。

特别声明：本文为合作媒体授权DoNews专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表DoNews专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)