英伟达发布首款自动驾驶视觉语言动作模型Alpamayo- DoNews

英伟达在加利福尼亚州圣地亚哥举行的 NeurIPS 人工智能大会上宣布推出新的基础设施与人工智能模型，旨在构建“具身智能”（Physical AI）的核心技术基础，支持能够感知并与现实世界互动的机器人和自动驾驶车辆。

该公司发布了 Alpamayo-R1，一款面向自动驾驶研究的开源推理型视觉语言模型，称其为业界首个专注于自动驾驶领域的视觉语言动作模型。该模型能同时处理文本与图像信息，使车辆可“看见”周围环境并基于感知内容做出决策。

Alpamayo-R1 基于英伟达此前推出的 Cosmos-Reason 推理模型构建，具备在响应前进行逻辑推演的能力。Cosmos 模型系列最初于 2025 年 1 月发布，并在同年 8 月推出扩展版本。

英伟达指出，此类技术对实现 L4 级自动驾驶至关重要。L4 级指在特定区域和限定条件下实现完全自动驾驶。具备推理能力的模型有望赋予自动驾驶系统类似人类的“常识”，以更好应对复杂驾驶场景中的细微决策。

目前，Alpamayo-R1 已在 GitHub 和 Hugging Face 平台开源发布。同时，英伟达推出了名为“Cosmos Cookbook”的开发资源包，包含分步指南、推理工具及训练后工作流，帮助开发者高效使用和训练 Cosmos 系列模型。

资源包涵盖数据整理、合成数据生成以及模型评估等关键环节。此次发布体现了英伟达将具身智能视为其先进 AI GPU 技术新增长方向的战略布局。

英伟达联合创始人兼首席执行官黄仁勋多次表示，人工智能的下一波浪潮将是具身智能。首席科学家比尔・达利也强调了该技术在机器人领域的应用前景，称目标是打造所有机器人的“大脑”，并强调必须从现在开始研发关键技术。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。