2026北京人形机器人半马开跑，具身智能步入数据元年- DoNews

今日上午7点30分，2026北京亦庄半程马拉松暨人形机器人半程马拉松正式鸣枪开跑。参赛阵容较去年增长近5倍，天工Ultra、松延动力“小顽童”N2、宇树H1、荣耀“闪电”和“元气仔”等热门机型同场竞速。赛事既是速度比拼，亦为具身智能产业成熟度的综合检验。

2026年被业内普遍定义为具身智能“数据元年”。多位业内人士指出，数据已成为模型落地与机器人量产的核心瓶颈，取代算法与硬件成为未来竞争的关键壁垒。上海库帕思科技语料运营总监邓思文表示，行业正从“算法驱动”全面转向“数据驱动”；帕西尼感知科技创始人许晋诚强调，今年企业对数据的渴求程度达前所未有的高度；有鹿机器人联合创始人谷祖林指出，“数据元年”标志新方法开启，但终极解法仍需多年收敛。

当前具身智能面临巨大真实世界数据缺口。高工人形机器人统计显示，全国已有至少15家数据采集和训练工厂。帕西尼宣布在江苏宿迁、湖北武汉、四川自贡、江西赣州新建4座超级数据采集工厂，叠加天津已投运工厂，将形成全球规模最大、模态最全的数据采集工厂集群，具备年产近百亿条高质量全模态数据能力。许晋诚称后续将持续扩大规模并增强采集能力。谷祖林认为数采中心实现数据难题“0-1突破”，且政府将其作为新型基建推进，有望形成社会公共资产。邓思文指出，头部企业自建工厂可满足个性化与高保密需求，而行业数据标准建设将推动生产规范化；企业与专业数据服务商之间系分工协作关系，非直接竞争。

云厂商加速入局。百度智能云联合零次方、灵生科技、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等发布具身智能数据超市（Beta版），首创层级化、可扩展数据标签体系。库帕思在具身智能领域业务增速显著提升，客户覆盖机器人厂商、模型企业及场景应用方，需求已从零散采集转向全场景、标准化解决方案。邓思文归纳今年三大趋势变化：客户需求由“要数据”升级为“真实场景、长程任务、多样性、大样本”数据；真实世界数据取代纯互联网数据成为核心采购方向；数据服务由单一供给转向“采集+标注+合成+治理+应用”一体化交付。深圳数据交易所通过生态对接仿真厂商与数采服务商，依托可信数据空间提供高质量实采及仿真数据。

邓思文总结行业主流应对路径：一是多元数据融合供给，整合真机数据、仿真数据与人类行为数据；二是标准化数据工厂建设，统一采集产线、标注规范与质量体系；三是行业数据平台化共建，联合企业、科研机构与数据商打造语料基座平台；四是AI辅助数据生产，利用大模型自动化完成采集、清洗与标注，提升效率并降低成本。

具身智能数据呈金字塔结构：底层为互联网数据，中层为人类行为与合成数据，顶层为真实世界交互数据。该顶层目前尤为单薄。邓思文指出，最稀缺的是三类真实场景数据：复杂动态环境（家庭、商超、工厂）中机器人与物体及人类的实时交互数据；毫米级精细操作（抓取、装配、柔性操作）的视觉与力控多模态数据；极端容错场景（突发障碍、非常规物体、环境突变）下的应急处理数据。智元联合创始人彭志辉表示，相较大型语言模型所用互联网全量数据，具身智能数据尚差3至5个数量级，且需包含物理世界中的接触力、摩擦力、重力、粘滞力等高维数据。越疆创始人刘培超称，去年业内沉淀的有价值数据时长不足3万小时，大量数据仅适用于预训练，难以支撑泛化与操作准确率提升。谷祖林认为数据缺口难以量化，取决于目标：若面向通用产品则缺口极大；若聚焦细分原子化任务则缺口较小，但动态博弈场景数据仍严重不足。许晋诚强调多模态能力重要性，指出触觉、视觉、关节角度、动作轨迹、语音等完整拼合才构成高质量数据集，并指出当前数据与模型间工具链尚不完善。

对比自动驾驶领域百万公里级成熟数据集，具身智能真实场景数据不足其十分之一，且标准化、标注完善的高质量数据占比低于30%，导致模型泛化能力弱、落地周期长。一位机器人本体厂商创始人指出，自动驾驶可通过实体车辆规模化路测获取数据，而机器人缺乏同等数据采集通路；同时存在数据通用性不足问题。深圳数据交易所相关负责人指出，制造业产线等具体场景数据采集成本高、难度大、效率低，因每条产线数据均具唯一性且必须在真实环境中取得。

破题关键在于构建数据闭环。谷祖林提出“数据飞轮”概念，称有鹿机器人AI130巡扫机器人已登顶2025年中国室外清扫机器人出货量榜首，销量提升带动数据量增长、问题暴露、解决迭代与客户满意度提升，形成正向循环。其遵循“先进园区门、再进单元门、最后进入户门”的“数据三重门”逻辑，坚持真实数据为主、仿真数据为辅，在重庆园区投放机器人后，已实现对“晒辣椒”等生活资产的识别更新。星动纪元构建从数据采集到模型闭环的飞轮模式，支持机器人在真实环境中自主处理corner case，并探索人机协同采集。帕西尼构建“底层感知硬件—全模态数据—上层决策大模型”闭环，以传感器为起点布局数采工厂与云数据商城，推动软硬件与数据相互反哺。该公司联合京东云、腾讯云、百度智能云推出全球首个百亿级全模态具身智能数据云商城，独家提供自由度达82的人类手部五指毫秒级动作数据，融合30个六维触觉模组，首次实现“视觉-触觉-语言-动作”全模态闭环；其OmniSharing DB数据集为国内首个系统性聚焦人类物理交互行为的高维数据集，已在北数所、腾讯云等平台上线。

仿真合成数据仍存争议。邓思文认为其具规模化扩增价值，但无法独立解困；真机数据规模化采集与标准化建设，以及场景驱动、数据反哺、模型迭代闭环，才是当前核心抓手。英伟达Isaac GR00T Blueprint可在11小时内基于少量人类示范生成78万条合成轨迹，结合真机数据后模型性能提升约40%，但仍受限于sim-to-real gap，在触觉力反馈、长程任务链与corner case泛化方面能力有限。前述创始人强调，具身智能依赖实体动作数据训练，否则将导致关节尺寸偏差、力矩效率下降及机械磨损。邓思文指出，遥操作、仿真、生产伴随、视频学习等方案应并存，本质是成本、精度、规模三者平衡；科学配比（如真机与仿真1:1）为行业探索重点。谷祖林指出数采中心人为构造场景，所产数据本质仍属仿真，存在分布集中问题。许晋诚介绍，公司采用“无本体依赖”采集范式，摆脱对特定机器人本体依赖，使采集效率达“有本体”方式的3至4倍；重定向技术可提升人类数据跨任务泛化能力。另据一家机器人厂商透露，受存储价格上涨影响，数采工厂运营成本同步上升。帕西尼已将多维触觉传感器价格从“十万元级”压降至“百元级”，技术自研率超90%，单条数据采集成本仅为行业均值十分之一。高工人形机器人指出，多数数采中心投入使用与产出情况不明朗，规模化交付案例尚未显现，凸显重资产压力与数据珍稀性。深圳数据交易所方面指出，部分数采厂规模小或仅服务单一厂商，难形成规模效应与高质量数据集。

多位受访者确认，数据已成为具身智能企业核心壁垒，甚至可能是唯一壁垒。谷祖林提出以“数据量×分布广度”衡量厂商数据价值；许晋诚指出全模态能力构成真正差异化；邓思文强调头部企业凭借资金、量产能力与客户资源更易获取优质稀缺数据，进而转化为模型精度、产品落地速度与商业化能力，形成“数据-算法-产品-市场”正向循环。财联社此前报道显示，具身智能赛道融资呈现“两头热、中间冷”特征，资金加速向具备量产、交付与商业化能力的头部企业集中；而数据获取的高成本将进一步拉大厂商间差距。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。