千寻智能发布VLA/VLM融合模型及轻量化数采方案推进人形机器人工业落地- DoNews

2026年3月17日，千寻智能科研生态总监徐国强在第四届具身智能机器人产业发展论坛指出，具身智能的核心在于赋予机器人物理世界适应能力与决策‘大脑’，而非仅具类人形态。当前模型尚未收敛，泛化能力不足、数据采集成本高仍是主要瓶颈。千寻智能通过自研VLA模型并引入VLM增强语义理解，使机器人可响应‘桌子好脏’‘我口渴了’等自然语言指令完成擦桌、取水递杯等多步操作。团队构建数据金字塔体系，提升端到端模型任务成功率；其开源Spirit 1.5模型于2026年1月12日在全球RoboChallenge榜单上超越PI 0.5。

硬件层面，千寻智能整机配备26个关节，每个关节集成力传感器，支持细腻力控与防倾覆机制；墨子机器人Moz1已实现S弯行走、零空间26关节联动及低时延遥操作。为降低数据采集成本，团队研发UMI系列轻量化手持设备与HRPI外骨骼系统：HRPI-3.0成本降至真机遥采的5%，数据精度达95%；UMI设备支持工人边作业边采集，混合10%真机遥采数据训练后模型效果超预期。此外，uDAS系列已迭代至3.0版本，脱离外骨骼结构，适配全国开放场景。

千寻智能明确汽车零部件领域为率先落地主战场，因其工艺稳定、自动化基础成熟、人才密度高。团队已完成全球首个严肃POC交付的工业场景，并与多家全球Tier 1供应商建立战略合作。当前模型处于L1向L2演进阶段，目标是在无需工艺定制前提下，基础模型快速达成60%–70%操作成功率，再由客户本地采集数据微调，1–2个月内完成部署。团队将手部原子动作划分为四十余种，已采集大量含pick&place、按压、拉链、插拔等组合动作的数据，支撑预训练、模仿学习与强化学习三级优化路径。

在新零售场景中，机器人已实现带玻璃门冰柜的扫码、选饮、开门、取物全流程，依赖关节扭矩传感器规避碰撞风险；办公场景可响应语音指令完成加热饭菜、清理桌面、归位书架、开抽屉等任务。商业化路径分三阶段：首阶段聚焦工业特定环节（如汽车零部件上下料），第二阶段切入商用服务（如连锁餐饮数千台级订单），第三阶段进入家庭场景承担洗衣、叠衣、清理猫砂、制作简餐等任务。千寻提供数采设备平台、开源模型、机器人硬件及数据管理平台全栈能力，合作方需具备模型微调能力以应对型号换产等现场需求。

团队提出‘双十计划’：到2035年，让全球10%人口拥有专属机器人。徐国强强调，模型收敛、低成本高质量数据采集、硬件力控安全与跨场景泛化能力，是通向通用人形机器人的关键支柱。目前，墨子机器人在北京研发中心已可响应‘你好墨子，帮我把最像白菜的那个玩偶拿过来’等复杂指代指令并给予互动反馈。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。