何小鹏立约2026年8月实现特斯拉FSD同级智驾

12月11日,小鹏汽车董事长何小鹏宣布,小鹏VLA 2.0(视觉语言动作模型)将于下个季度发布,并透露其自动驾驶团队已立下一项“赌约”:若2026年8月30日前,小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂;反之,自动驾驶负责人需在金门大桥完成裸跑挑战。

此前一天,理想汽车自动驾驶研发高级副总裁郎咸朋在社交平台回应宇树科技创始人王兴兴对VLA模型的质疑。郎咸朋强调,模型的关键在于与具身智能系统的适配性,而数据起决定性作用。他认为VLA是当前自动驾驶最佳模型方案。

近年来,辅助驾驶技术路径经历多次迭代:从激光雷达+高精地图,到BEV+Transformer摆脱地图依赖,再到端到端进入AI时代。进入2025年,行业在发展方向上出现VLA与世界模型的技术分歧,小鹏与理想为代表企业选择VLA路线。

VLA模型中,V代表视觉感知,A代表动作执行,L为大语言模型,充当“中台”角色,将环境信息转化为可执行决策。清华大学车辆与运载学院助理研究员颜宏伟指出,VLA的核心突破在于引入思维链,提升决策可解释性。元戎启行CEO周光认为,VLA具备因果推理能力与强泛化性,能更好应对复杂道路场景。

但王兴兴对此持怀疑态度,认为VLA架构相对“傻瓜式”,在真实交互中面临数据质量与采集量不足问题。郎咸朋则回应称,脱离真实数据谈架构是空中楼阁,理想依托数百万辆车形成的数据闭环,可在现有算力下实现接近人类驾驶水平。

郎咸朋强调,自动驾驶应作为完整具身智能系统构建,各模块需协同配合。他同时指出,在自动驾驶领域建立数据闭环并非难事。然而,华为智能汽车解决方案BU CEO靳玉志表示,华为不会采用VLA路径,认为其看似取巧,实则非通向真正自动驾驶的正途。

华为主推WA(世界行为模型),即World Action,跳过语言环节,直接通过视觉输入控车。其自研WEWA架构包含云端世界引擎(WE)与车端世界行为模型(WA),前者用于训练与场景生成,后者实现拟人化实时决策。

“世界模型”指AI通过感知构建对物理世界的内部模拟,具备预测、推理与生成行为链的能力。例如,不仅能识别自行车,还能预判其是否变道并提前应对。除华为外,蔚来、商汤等企业亦布局该方向。

尽管企业间技术路线存在分歧,但VLA与世界模型并非对立。国海证券研报指出,二者属于不同维度,产业分化源于能力优化重点不同。融合趋势明显,如VLA引入强化学习与仿真优化动作生成。

理想汽车董事长李想表示,VLA可分为预训练、后训练与强化学习三阶段,其中强化学习依赖世界模型闭环训练,结合舒适度、碰撞风险、交通规则等反馈机制,使驾驶表现超越人类。

郎咸朋透露,世界模型因高算力需求,更适合云端进行数据生成与高保真仿真测试,理想当前正推进此项工作。小马智行CTO楼天城认为,多数公司实际同时使用两种技术,如Waymo集成谷歌Gemini大语言模型。他强调,世界模型对百辆以上规模无人车队至关重要,而VLA对车企卖车更具现实意义。

兼具C端车型与Robotaxi规划的小鹏,正推动两类技术融合。在2025 AI DAY上,小鹏发布第二代VLA,将第一代V→L→A升级为V+L→A,把语言模型前置至输入端,减少信息损耗。

何小鹏解释,初代VLA存在两次语言转换,导致视频内容难以精准“翻译”为文本描述,而新架构以视觉为核心,直接输出运动轨迹。11月7日上海进博会上,小鹏自动驾驶产品高级总监袁婷婷表示,二代VLA既是VLA模型,也是世界模型。

据其展示,世界模型作为记录器,存储V和L生成的动作决策及决策前的车辆状态信息,实现用VLA数据训练世界模型。小米汽车主任科学家陈龙认为,VLA负责“抽象思考”,世界模型专注“物理感知”,二者结合才是通往通用具身智能的路径。

国元证券认为,VLA与世界模型深度融合,有望成为高阶智驾实现类人决策的关键拐点。长安汽车智能驾驶高级总工程师预测,未来2至3年内技术架构还将经历1至2轮迭代,到2028年趋于稳定。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1