元戎启行研发VLA模型推动智能驾驶进入语义理解时代

元戎启行研发VLA模型,在智能驾驶无人区开启探索。该模型具备环境语义理解能力,能基于语言指令自主决策,使智能驾驶从“执行”迈向“思考”。

2024年6月的一个炎热下午,周光乘坐测试车经过公司附近的一处红绿灯,一个交通牌提示“车辆左转不受灯控”,测试车依旧停下等待红灯变绿。后视镜里不断鸣笛的车辆让周光意识到,即便是当时最接近人类驾驶能力的端到端模型,也因无法理解文字路牌未能通过。这个问题促使元戎启行在探索通用人工智能路径时,关注VLA模型的发展。

RoadAGI实验室里诞生的VLA原型能完成取放物品、避障行走等任务。在一次Demo演示中,周光发现该模型能根据环境信息和语言指令自主决策动作,与解读复杂路况的智能驾驶模型高度相似。随着ChatGPT等大语言模型爆发,团队更加确信融合语言理解的VLA或许能开辟智能驾驶新航道。

2024年9月,元戎启行将VLA模型提升为公司级研发项目。这是一场早于行业的“技术豪赌”,引领者从不等“风口”,而是提前看见风的方向。

元戎启行始终相信AI技术将重塑生产力关系,引领第四次工业革命。智能驾驶作为突破口,能打破数字与物理世界的壁垒。VLA模型的出现,使智能驾驶从“执行者”迈向“思考者”,开始理解“为什么这样开”,而不仅仅是“怎么开”。

当团队兴奋地着手研发时,才发现重重困难。一方面,VLA在智能驾驶领域应用少,可参考资料匮乏;另一方面,公司面临客户量产压力,主线资源倾向量产项目,VLA研发只能保守推进。

产品经理石杰回忆道,最开始团队被VLA的“语言天赋”吸引,攻克潮汐车道、可变车道、待转区等文字理解场景。当测试车顺利通过当初困扰大家的“车辆左转不受灯控”指示牌,并给出文字解释其驾驶决策过程时,车上的人非常激动。VLA模型通过思维链(CoT)实现透明化推理,极大增强用户信任度。它还能处理很多corner cases,例如识别超载小货车、路面上的轮胎等,并可通过语音交互控车,实时对话驾驭车辆。

一次测试中,测试车在桥洞左转时突然遇到外卖骑手紧急刹车,车上的人都吓了一跳。大家反思,如果是老司机开车,一定会在桥洞盲区提前减速避免风险。安全才是辅助驾驶的生命线,防御性驾驶成为VLA模型的核心进化方向。

技术攻坚过程中,VLA模型研发人员肖毅面对诸多挑战。起初计划采用云端推理,但因时延过大影响安全,最终改为本地部署模型。这对车端有限算力带来挑战,研发团队压缩词表、剪枝和加速模型,并优化推理引擎。

数据是AI模型的基础,人工标注效率低,团队采用大模型自动标注方式,目前数据规模已达千万级Clips。周光强调,真正稀缺的是对驾驶本质的理解,而非加载更多语料库。

今年,将有超5款搭载元戎启行VLA模型的车量产,首款车8月即将上路。周光期待VLA可应用到Robotaxi上,成为真正的AI司机,让用户在安静环境中与之沟通,主动守护安全。

VLA的研发是元戎启行技术信仰的缩影。不做追随者,只做定义者,这条路很难,但值得。元戎启行将不局限于汽车载体,致力于训练更先进的AI模型赋能多种智能体,先达成RoadAGI,最终迈向通用人工智能,点燃人类生产力的质变奇点。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1