文|唐辰
京东要从物理世界破解具身智能“数据荒”。
“520”当天,京东宣布,其全国首个具身智能数据采集社区落地宿迁,并已正式运行。这是京东“具身智能超级供应链”战略的又一关键落子。
在此之前,它已经迈出两大步:今年3月,京东宣布建设全球最大具身数据采集中心。其将发动最多60万人,在两年内积累1000万小时人类真实场景视频数据。
紧接着4月,京东具身智能生态发布会上,包括全球首个具身数据全链路基础设施、自研采集终端JoyEgoCam、具身大模型JoyAI-RA以及具身智能数据交易平台等系列成果亮相。
这些动作都成为其一个更宏大战略的一部分。即,京东在今年618启动会上再次强调的目标——打造全球最大物理世界运营中心。
京东之所以敢这么果决,在于它看清了具身智能的命门:数据荒。
这也是具身智能目前的真实处境,其正遭遇数据供给与产业需求严重错配的核心瓶颈。数据显示,通用具身大模型的训练,需要数千万小时高质量真实数据。但全球行业数据存量仅有数十万小时,缺口超95%。
为何必须重造“第一视角数据”?
目前,具身智能数据采集大致可以分为三类:一类是机器人遥控操作和UMI(通用操作接口)数据;还有一类是互联网视频数据;第三类便是京东正在重造的人类第一视角数据。
有行业专家介绍,遥控数据数量有限,即使很多头部公司也仅有两三万的遥控数据。其背后反映的是遥控数据获取成本高,采集速度慢的困境。
比如真机采集1小时成本动辄花费数百元,还得搭一套专业动捕环境。在采集速度上,人盯着屏幕遥控机械臂,采集节奏很难跟上真实生产节拍。
甚至有观点指出,机器人遥控操作数据这条路,可能走不下去。这种方式产生的数据,难以同时支撑大规模训练与产业落地。
互联网视频数据倒是不缺,但多是机器人无法使用的无效数据。这类数据提供的是“第三方视角”,能告诉AI发生了什么,但说不清楚“动作为何这样发生”。
比如一道时令的春笋炒肉教学视频。镜头展示了食材、步骤和成品,但机器人学不到配菜下锅时的油温、火候变化、翻炒力度等细节。
这两类数据训练的机器人,实际上都是“演员”。它们可以在可控的场景里复刻标准动作,但面对无序、随机、多变的真实物理世界,就显得“小脑发达、大脑不足”,擅长跑跳等基础动作,却无法完成家务、精细操作等实用任务。
究其根本,机器人被投喂的数据,脱离了真实的物理世界。
具身智能的核心,是动手操作、感知物理、动态决策,需要像人类一样,通过“第一视角”与世界交互:用眼睛看、用手触摸、感知力度、判断环境、积累容错经验,即第一视角数据(Ego-centric Data)。
这类数据完整复刻了人类面对物理世界的感知、判断与操作逻辑,也保留了人类操作时的隐性信息:视线的移动轨迹、手眼协同的微操、对空间关系的判断等,称得上是适配物理AI的“原生语言”。
相较互联网数据和遥控数据,第一视角数据可以告诉机器人“动作为何发生”,以及“动作如何被执行”。要让AI在物理世界发挥真正价值,第一视角数据必须被重新创造。
过去一年,英伟达、Tesla、Figure、1X等公司纷纷大规模采集人类操作视频,用于训练机器人的模仿学习(Imitation Learning)。英伟达今年提出的EgoScale框架,明确将大规模第一视角数据视为机器人训练的核心基础设施。
某种意义上,第一视角数据正在成为全球具身智能领域最稀缺的资源。
更重要的是,这个领域也在出现类似大模型的Scaling Law(缩放定律):机器人看的视频越多,就越聪明。
这意味着,模型能力上限,取决于真实世界行为数据的规模与质量。具身智能最终竞争的,不只是模型能力,更是谁能持续获得大规模真实场景中的第一视角人类数据。
京东布局具身智能数据采集,以及在618上再次提出“将打造全球最大物理世界运营中心”的核心价值就在于此。它走进真实的普通人生活、产业场景,以人类第一视角,采集实操数据,也在补齐遥控数据、互联网视频数据的短板。
宿迁,是京东具身智能数据基建量产化、规模化、生态化核心承载地。京东已经在此建立全球最大具身智能数据采集中心。
我在宿迁看到,家庭、医疗、养老院护工、服装厂工人、果农作业等场景,市民采集员将日常生活、工作的对应数据,采集上传。
比如,宝妈边做家务,将生活化的擦桌子、叠衣服、整理收纳、地面清洁等劳动中的上肢轨迹、力度分布、人与家居环境的交互关系等关键参数,通过自研采集终端获取。
这些数据经过上传、质检、标注等流程,成为优质的“数据燃料”,输入具身智能模型,让模型更加理解真实的物理世界。
目前,这场被视为“人类历史上规模最大的数据采集行动”,已经覆盖家庭、办公室、工厂到物流、商店、环卫等超百个细分场景。
京东也在数据采集项目落地中,将人类操作经验从“物理动作”向“数字资产”的升维,并成为机器人的“人类行为样本”。
“3+1”底座,撑起“全球最大物理世界运营中心”
换句话说,京东正在为具身智能炼制第一视角数据“金丹”。
这绝对是一个苦活、累活。巨头都在争抢第一视角数据时,京东是国内AI大厂里最先入局的一家。
为什么是京东?它为什么能够率先完成物理世界数据体系的重构?在我看来,这得益于京东构建了一套“3+1”核心壁垒。
首先AI基建。这是纯算法厂商、硬件厂商、单一场景玩家无法复刻的场景优势。其由京东”硬商业实力+AI基础设施“两大根基支撑。
前者得益于京东深耕实体经济,搭建起覆盖全国的线下基建网络,比如3600多个遍布全国的仓库、京东Mall等一万多家线下门店、二十多万家合作药房、五万余名专业家政服务人员等实体场景,都是天然的物理AI数据宝库,使得它在数据采集过程中,无需像实验室”造景“,就能在日常经营、运营中获得高质量数据。
后者是京东愿意砸钱做技术研发,为AI与实体经济的融合趟出一条可复制的实践路径。京东2026年一季度财报显示,该季度研发投入增速同比再超59%。
这是京东版“大力出奇迹”,京东AI已在“模型层-技术底层-产业生态”上多维度突破,为其聚焦“解决实际问题”提供了技术保障。
值得一提的是,京东在打造“具身智能超级供应链”的过程中,搭建起行业唯一覆盖“采、存、标、训、评、仿、测”的全链路具身智能数据基础设施。
其次是产业厚度。这是京东AI区别于纯实验室创新的核心差异。目前,京东超级供应链已经深度嵌入零售、物流、健康、工业等数千个细分场景,自身就有供应链及业务场景优势。 在仓库分拣、快递配送、家居服务、工厂运维等业务场景,快递员分拣包裹的力度、仓库工人搬运货物的角度、家政人员擦玻璃的动作等数据,都是遥控、互联网视频数据给不到,但又是机器人训练所需的真实数据。
我看到一个更大的价值是,京东AI在供应链嵌入产业中也在进行能力迁移,进一步挖深产业。比如,京东物流超脑大模型推动狼族机器人持续迭代。
这是一个动态、或者说在进化的产业厚度,让京东的数据采集天然带着行业Know-how(解决方案),每条数据都贴合产业需求、贴合真实场景,精度和实用性远超实验室标准化数据,从根源上保证了模型训练后的落地能力。
第三是用户体验。一个行业共识是,大模型已经告别参数内卷,其最终目的是要落地,创造价值。京东AI战略的重要支柱便是用户体验,坚持“技术可用、体验可感”。这正推动AI从“技术炫技”到“落地实用”的跨越。
比如,在具身智能领域,京东零售2026年将助推机器人品牌伙伴累计销售破100亿元;京东JoyInside“附身智能”与近200个家电家居、机器人、玩具等品牌深度合作等,为智能家电、机器人等植入“高情商大脑”,让消费者体验AI,用上AI。
串联起AI基建、产业厚度、用户体验三大优势,构成京东终极壁垒的,是独一无二的超级供应链思维。
这是京东区别于所有AI玩家的底牌。供应链的本质,是对物理空间、信息流、物流、人工操作等环节的高效把控和统筹。这与具身智能“感知物理世界、适配物理规则、完成实操任务”的核心需求高度契合。
也正是这套思维,让京东在具身智能赛道上,找到了别人无法替代的生态位:具身智能时代的“基础设施提供商”和“超级供应链服务商”。其通过搭建全链路数据基建、开放具身智能数据交易平台、共建具身数据“朋友圈”,把自身下沉为具身智能时代“水电煤”。
简单来说,当大模型还在数字世界里“纸上谈兵”时,京东已经率先杀入物理世界,并炼制出“第一视角数据”金丹,重新定义具身智能的落地逻辑。
这也是京东敢于官宣打造“全球最大物理世界运营中心”的真正底气。可以预见,未来所有的机器人企业、模型厂商、产业伙伴,都可以依托这套“水电煤”,快速完成模型迭代、产品落地、场景适配。
在京东炼制的数据燃料支持下,将物理操作转化为可计算、可复用的数字资产,具身智能的价值也在外溢,加速迎来属于物理AI的“ChatGPT时刻”。
2026年,已经被权威媒体与行业共识定义为具身智能数据元年。或许,物理世界的“ChatGPT时刻”,也会从这1000万小时数据燃料的炼制开始。
特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)



