英伟达发布首款自动驾驶视觉语言动作模型Alpamayo

英伟达在加利福尼亚州圣地亚哥举行的 NeurIPS 人工智能大会上宣布推出新的基础设施与人工智能模型,旨在构建“具身智能”(Physical AI)的核心技术基础,支持能够感知并与现实世界互动的机器人和自动驾驶车辆。

该公司发布了 Alpamayo-R1,一款面向自动驾驶研究的开源推理型视觉语言模型,称其为业界首个专注于自动驾驶领域的视觉语言动作模型。该模型能同时处理文本与图像信息,使车辆可“看见”周围环境并基于感知内容做出决策。

Alpamayo-R1 基于英伟达此前推出的 Cosmos-Reason 推理模型构建,具备在响应前进行逻辑推演的能力。Cosmos 模型系列最初于 2025 年 1 月发布,并在同年 8 月推出扩展版本。

英伟达指出,此类技术对实现 L4 级自动驾驶至关重要。L4 级指在特定区域和限定条件下实现完全自动驾驶。具备推理能力的模型有望赋予自动驾驶系统类似人类的“常识”,以更好应对复杂驾驶场景中的细微决策。

目前,Alpamayo-R1 已在 GitHub 和 Hugging Face 平台开源发布。同时,英伟达推出了名为“Cosmos Cookbook”的开发资源包,包含分步指南、推理工具及训练后工作流,帮助开发者高效使用和训练 Cosmos 系列模型。

资源包涵盖数据整理、合成数据生成以及模型评估等关键环节。此次发布体现了英伟达将具身智能视为其先进 AI GPU 技术新增长方向的战略布局。

英伟达联合创始人兼首席执行官黄仁勋多次表示,人工智能的下一波浪潮将是具身智能。首席科学家比尔・达利也强调了该技术在机器人领域的应用前景,称目标是打造所有机器人的“大脑”,并强调必须从现在开始研发关键技术。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1