谷歌推Gemini Robotics新模型 实现机器人先思考后行动

谷歌 DeepMind 团队于9月25日发布Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款专为物理世界设计的AI模型,旨在构建具备感知、规划、思考与行动能力的物理智能体。

这两款模型采用“大脑-身体”协作框架,协同解决现实世界中的复杂多步任务。其中,Gemini Robotics-ER 1.5作为“高层大脑”,负责环境理解、规划与决策,具备领先的空间认知能力。

例如,在执行垃圾分类任务时,ER 1.5可主动搜索本地分类规则,并生成详细行动计划,再将自然语言指令传递给Gemini Robotics 1.5。

Gemini Robotics 1.5作为“身体”角色,是一个视觉-语言-行动(VLA)模型,能将高层指令转化为具体机器人动作。

该模型具备“先思考后行动”的能力,在执行前通过自然语言进行内部推理。例如在衣物分类任务中,会先形成“白色衣物入白桶,其他入黑桶”的逻辑判断,再规划具体操作步骤,提升任务成功率与行为可解释性。

新模型展现出跨机器人形态的学习迁移能力,能将在ALOHA 2机器人上学到的技能,直接应用于Apollo人形机器人和Franka双臂机器人等结构不同的平台,无需额外训练。

谷歌表示,Gemini Robotics 1.5集成整体安全策略,包括行动前安全评估、遵守预设政策及触发机器人内置低级安全系统,以确保具身AI的安全与对齐。

Gemini Robotics-ER 1.5已通过Gemini API向开发者开放,Gemini Robotics 1.5目前仅供部分合作伙伴使用。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号