数据被视为具身智能产业发展的关键“燃料”。近日,帕西尼具身智能超级数据工厂在天津空天数字产业园投入使用。帕西尼感知科技创始人兼CEO许晋诚表示,目前具身智能产业面临数据短缺问题,可用数据量仅为大语言模型的几百分之一。
当前,国内多个城市已建立具身智能数据采集工厂,包括帕西尼在天津、智元机器人在上海以及北京具身智能机器人创新中心的工厂。中国证券报记者实地探访了其中两家企业,了解其技术手段及数据赋能方式。行业专家指出,具身智能数据采集工厂尚处于起步阶段,未来需与产业需求结合,统一规范是推动行业发展的重要基础。
在天津空天数字产业园,帕西尼的数据工厂占地12000平方米,核心产品为“数据”。该企业表示,模仿学习是具身智能模型进化的重要途径。相比大语言模型使用的十万亿级数据规模,具身智能大模型目前仅能使用百万量级数据,数据短缺成为发展瓶颈。
在帕西尼天津数据工厂大厅,覆盖整面墙的大屏幕显示着数据采集情况。当天数据显示,数据合格率超过92%。该工厂每天最多可采集55万条数据,预计年产量可达高质量数据2亿条。
高工机器人产业研究所所长卢瀚宸指出,训练具身智能大模型的数据主要分为仿真合成数据和真实数据两类。部分厂商采用互联网数据用于机器学习。“真实数据采集成本最高、难度最大,但质量最好,是目前最具身智能最需要的资源。”
在上海浦东,占地3000平方米的智元数据采集中心于2024年9月启动。记者实地探访看到,百台机器人在不同场景中作业,包括分拣物品、折叠衣物、扫码结算等任务。智元机器人合伙人姚卯青介绍,该中心已累计采集超百万条高质量数据,覆盖家居、餐饮、工业、商超和办公五大类真实场景。
卢瀚宸认为,不同于大语言模型已取得阶段性突破,具身智能领域尚未验证大规模数据训练的成功路径。但要让机器人更“智能”,必须通过大量数据采集和模型训练实现。同时,数据采集需与产业需求结合,形成闭环。
厂商对真实数据的采集方式各有不同。在帕西尼天津工厂,数据采集员进行各类原动作采集,如超市商品扫码、清理枕头、摆放餐具等。一名采集员穿戴设备PMEC,执行摆放瓷盘、瓷筷动作,并查看数据生成情况。
这种方式被称为“人类数据采集”。许晋诚认为,该方法具备效率和经济性优势,且能直接采集稀缺的人类触觉模态数据。帕西尼自主研发了PMEC超采技术,采集员双手穿戴具有全运动自由度和全触觉信号覆盖功能的硬件设备,获取多视角视觉、触觉、接触点位姿等信息。这些原始信息经TacFlow Engine工具处理后,用于VTLA具身智能大模型或HyperCosmos世界模型的预训练。
许晋诚表示,目前机器人掌握的动作以抓取、摆放为主,要应用更多场景,需将任务拆解为细化工序甚至原子动作。目前机器人掌握的原子动作库仍不足。数据采集间内的训练旨在增加机器人掌握的原子技能,实现拧螺丝、折叠、熨烫、舀取、切割等精细复杂任务。目前该工厂已完成上百种任务采集,预计千种任务一年内可完成。
智元机器人则采用机器人遥操作采集方式。在饮品店训练场景下,数据采集员操控机械臂重复抓取饮品杯、放入托盘、装入打包袋、打包吸管等动作。姚卯青介绍,每次物品摆放位置需调整,每完成10次操作更换包装袋和饮品杯样式,每天重复采集约200条数据,直至机器人学会。每个场景采集上百遍数据,提升执行任务的鲁棒性。
此外,智元机器人于2025年3月发布通用具身基座模型——智元启元大模型(GO-1),借助其泛化推理能力,大幅减少机器人学习一项任务所需的数据采集量。
为加快扩充具身智能产业可用数据规模,帕西尼和智元机器人都构建了开放生态。帕西尼的训练数据可应用于多模态、跨本体、跨任务、跨场景的具身智能扩散模型。
2024年12月,智元机器人开源行业首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集AgiBot World。截至目前,该数据集已被全球多家科技企业用于最新具身模型开发。
然而,具身智能数据标准化仍是行业痛点。埃夫特董事长游玮指出,由于缺乏采集规范,当前一些机器人训练数据难以迁移和复用。他强调,只有提升采集规范,使高质量数据可复用,才能构建足够规模和质量的数据资源库,推动机器人产业持续进阶。
卢瀚宸认为,数据标准化和质量提升是关键,但实现过程不易,数据归属、复用、定价等问题仍未解决。
许晋诚表示,帕西尼正参与订立数据采集标准,并将在近期发布相关成果。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。