今日上午7点30分,2026北京亦庄半程马拉松暨人形机器人半程马拉松正式鸣枪开跑。参赛阵容较去年增长近5倍,天工Ultra、松延动力“小顽童”N2、宇树H1、荣耀“闪电”和“元气仔”等热门机型同场竞速。赛事既是速度比拼,亦为具身智能产业成熟度的综合检验。
2026年被业内普遍定义为具身智能“数据元年”。多位业内人士指出,数据已成为模型落地与机器人量产的核心瓶颈,取代算法与硬件成为未来竞争的关键壁垒。上海库帕思科技语料运营总监邓思文表示,行业正从“算法驱动”全面转向“数据驱动”;帕西尼感知科技创始人许晋诚强调,今年企业对数据的渴求程度达前所未有的高度;有鹿机器人联合创始人谷祖林指出,“数据元年”标志新方法开启,但终极解法仍需多年收敛。
当前具身智能面临巨大真实世界数据缺口。高工人形机器人统计显示,全国已有至少15家数据采集和训练工厂。帕西尼宣布在江苏宿迁、湖北武汉、四川自贡、江西赣州新建4座超级数据采集工厂,叠加天津已投运工厂,将形成全球规模最大、模态最全的数据采集工厂集群,具备年产近百亿条高质量全模态数据能力。许晋诚称后续将持续扩大规模并增强采集能力。谷祖林认为数采中心实现数据难题“0-1突破”,且政府将其作为新型基建推进,有望形成社会公共资产。邓思文指出,头部企业自建工厂可满足个性化与高保密需求,而行业数据标准建设将推动生产规范化;企业与专业数据服务商之间系分工协作关系,非直接竞争。
云厂商加速入局。百度智能云联合零次方、灵生科技、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等发布具身智能数据超市(Beta版),首创层级化、可扩展数据标签体系。库帕思在具身智能领域业务增速显著提升,客户覆盖机器人厂商、模型企业及场景应用方,需求已从零散采集转向全场景、标准化解决方案。邓思文归纳今年三大趋势变化:客户需求由“要数据”升级为“真实场景、长程任务、多样性、大样本”数据;真实世界数据取代纯互联网数据成为核心采购方向;数据服务由单一供给转向“采集+标注+合成+治理+应用”一体化交付。深圳数据交易所通过生态对接仿真厂商与数采服务商,依托可信数据空间提供高质量实采及仿真数据。
邓思文总结行业主流应对路径:一是多元数据融合供给,整合真机数据、仿真数据与人类行为数据;二是标准化数据工厂建设,统一采集产线、标注规范与质量体系;三是行业数据平台化共建,联合企业、科研机构与数据商打造语料基座平台;四是AI辅助数据生产,利用大模型自动化完成采集、清洗与标注,提升效率并降低成本。
具身智能数据呈金字塔结构:底层为互联网数据,中层为人类行为与合成数据,顶层为真实世界交互数据。该顶层目前尤为单薄。邓思文指出,最稀缺的是三类真实场景数据:复杂动态环境(家庭、商超、工厂)中机器人与物体及人类的实时交互数据;毫米级精细操作(抓取、装配、柔性操作)的视觉与力控多模态数据;极端容错场景(突发障碍、非常规物体、环境突变)下的应急处理数据。智元联合创始人彭志辉表示,相较大型语言模型所用互联网全量数据,具身智能数据尚差3至5个数量级,且需包含物理世界中的接触力、摩擦力、重力、粘滞力等高维数据。越疆创始人刘培超称,去年业内沉淀的有价值数据时长不足3万小时,大量数据仅适用于预训练,难以支撑泛化与操作准确率提升。谷祖林认为数据缺口难以量化,取决于目标:若面向通用产品则缺口极大;若聚焦细分原子化任务则缺口较小,但动态博弈场景数据仍严重不足。许晋诚强调多模态能力重要性,指出触觉、视觉、关节角度、动作轨迹、语音等完整拼合才构成高质量数据集,并指出当前数据与模型间工具链尚不完善。
对比自动驾驶领域百万公里级成熟数据集,具身智能真实场景数据不足其十分之一,且标准化、标注完善的高质量数据占比低于30%,导致模型泛化能力弱、落地周期长。一位机器人本体厂商创始人指出,自动驾驶可通过实体车辆规模化路测获取数据,而机器人缺乏同等数据采集通路;同时存在数据通用性不足问题。深圳数据交易所相关负责人指出,制造业产线等具体场景数据采集成本高、难度大、效率低,因每条产线数据均具唯一性且必须在真实环境中取得。
破题关键在于构建数据闭环。谷祖林提出“数据飞轮”概念,称有鹿机器人AI130巡扫机器人已登顶2025年中国室外清扫机器人出货量榜首,销量提升带动数据量增长、问题暴露、解决迭代与客户满意度提升,形成正向循环。其遵循“先进园区门、再进单元门、最后进入户门”的“数据三重门”逻辑,坚持真实数据为主、仿真数据为辅,在重庆园区投放机器人后,已实现对“晒辣椒”等生活资产的识别更新。星动纪元构建从数据采集到模型闭环的飞轮模式,支持机器人在真实环境中自主处理corner case,并探索人机协同采集。帕西尼构建“底层感知硬件—全模态数据—上层决策大模型”闭环,以传感器为起点布局数采工厂与云数据商城,推动软硬件与数据相互反哺。该公司联合京东云、腾讯云、百度智能云推出全球首个百亿级全模态具身智能数据云商城,独家提供自由度达82的人类手部五指毫秒级动作数据,融合30个六维触觉模组,首次实现“视觉-触觉-语言-动作”全模态闭环;其OmniSharing DB数据集为国内首个系统性聚焦人类物理交互行为的高维数据集,已在北数所、腾讯云等平台上线。
仿真合成数据仍存争议。邓思文认为其具规模化扩增价值,但无法独立解困;真机数据规模化采集与标准化建设,以及场景驱动、数据反哺、模型迭代闭环,才是当前核心抓手。英伟达Isaac GR00T Blueprint可在11小时内基于少量人类示范生成78万条合成轨迹,结合真机数据后模型性能提升约40%,但仍受限于sim-to-real gap,在触觉力反馈、长程任务链与corner case泛化方面能力有限。前述创始人强调,具身智能依赖实体动作数据训练,否则将导致关节尺寸偏差、力矩效率下降及机械磨损。邓思文指出,遥操作、仿真、生产伴随、视频学习等方案应并存,本质是成本、精度、规模三者平衡;科学配比(如真机与仿真1:1)为行业探索重点。谷祖林指出数采中心人为构造场景,所产数据本质仍属仿真,存在分布集中问题。许晋诚介绍,公司采用“无本体依赖”采集范式,摆脱对特定机器人本体依赖,使采集效率达“有本体”方式的3至4倍;重定向技术可提升人类数据跨任务泛化能力。另据一家机器人厂商透露,受存储价格上涨影响,数采工厂运营成本同步上升。帕西尼已将多维触觉传感器价格从“十万元级”压降至“百元级”,技术自研率超90%,单条数据采集成本仅为行业均值十分之一。高工人形机器人指出,多数数采中心投入使用与产出情况不明朗,规模化交付案例尚未显现,凸显重资产压力与数据珍稀性。深圳数据交易所方面指出,部分数采厂规模小或仅服务单一厂商,难形成规模效应与高质量数据集。
多位受访者确认,数据已成为具身智能企业核心壁垒,甚至可能是唯一壁垒。谷祖林提出以“数据量×分布广度”衡量厂商数据价值;许晋诚指出全模态能力构成真正差异化;邓思文强调头部企业凭借资金、量产能力与客户资源更易获取优质稀缺数据,进而转化为模型精度、产品落地速度与商业化能力,形成“数据-算法-产品-市场”正向循环。财联社此前报道显示,具身智能赛道融资呈现“两头热、中间冷”特征,资金加速向具备量产、交付与商业化能力的头部企业集中;而数据获取的高成本将进一步拉大厂商间差距。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



