在英伟达GTC 2026大会上,视觉语言动作模型(VLA)与世界模型的技术路线分歧公开激化。至简动力CEO贾鹏指出部分VLA模型泛化能力几乎为零,其前东家理想则发布下一代智能化架构MindVLA-o1,强调原生3D ViT编码器与预测式隐世界模型的融合。理想基座模型负责人詹锟称该模型可同时驱动车辆与机器人,指向具身智能新范式。
吉利汽车集团CTO李传海发布WAM世界行为模型,提出VLA存在三大局限:仅能匹配标准答案而缺乏规律性认知、依赖有限驾驶操作数据而非互联网海量视频、难以建模物理世界规律。Momenta CEO曹旭东亦认为VLA对智驾提升有限,世界模型结合强化学习才可能实现十倍至百倍性能跃升。华为车BU CEO靳玉志此前亦批评VLA取巧,非通向真正自动驾驶的正途。
针对上述质疑,理想通过MindVLA-o1引入三维空间感知能力,使模型直接工作于真实物理空间,学习空间结构、位置关系与语义信息;其预测式隐世界模型可在隐空间中推演未来数秒场景演化,实现时空联合建模。李想称该架构正演化为通用物理世界智能体。小鹏则推进第二代VLA技术,在L2、L4、Robotaxi及人形机器人领域全面布局,并宣布第二代VLA为其面向全球的L4首个版本。何小鹏在直播中强调该模型已具备应对广州早高峰等复杂城市路况的能力。
英伟达亦在GTC 2026展示自研VLA模型AIpamayo,并宣布将在奔驰CLA等车型量产落地。当前技术阵营呈现明显分化:理想与小鹏主推VLA路径,华为与蔚来倾向世界模型,吉利与Momenta明确站队世界模型阵营。但实际技术实践中,二者边界趋于模糊——MindVLA-o1整合隐式世界推演,WAM亦依赖多模态识别与价值函数评估。行业共识在于,双方均已具备L3/L4级技术基础,竞争重心正从理论路线之争转向工程化落地效率与规模化量产能力比拼。2026年将成为VLA与世界模型从概念验证迈向商业兑现的关键冲刺年。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



