文/周雄飞
在全行业竞逐实现L3的征程上,小鹏率先行业往前迈了一大步。
这两天,小鹏正式发布了小鹏G7,作为他们今年的首款新产品在性能配置上可以说十分可打,搭载了与华为合作研发的“追光全景”AR-HUD、全域800V高压SiC碳化硅平台、5C超快充以及702km的超长续航里程,以及不输同级的超大空间。
作为一款AI智能汽车,小鹏G7的智能化功能值得重点聊聊。智能辅助驾驶方面,小鹏G7可以很好地应对路面塌陷避让和给救护车让路等场景;智能座舱方面,小鹏G7不仅可以听懂包括中文在内的其他语种语言,真正成为“语言大师”,还能主动地理
解车内乘客的需求,并及时给予反馈。
这样来看,小鹏G7已经具备拟人的理解世界、推理和决策能力。
为了让小鹏G7做到这些能力,小鹏不仅创新性把VLA+VLM模型部署在车端,让能理解世界和具备行动决策的“大脑”真正上车,同时还搭载了三颗自研的图灵AI芯片。
这样做的逻辑,在于要让比VLM模型参数量大两倍之多的VLA模型和VLM模型同时在车端跑,车端就需要较大的算力规模,小鹏为此准备2200+TOPS的大算力,几乎是9颗Orin X的算力规模,因此小鹏G7也被称为“行业首款具备L3算力”的产品。
除了在车端率先部署VLM+VLA模型之外,小鹏他们也在世界模型领域快速探索。
就在小鹏G7发布的同时,小鹏汽车也成为唯一一家受邀参与CVPR WAD研讨会的中国车企,在会上小鹏分享了他们自研的业界首个超大规模的物理世界模型进展,在训练720亿参数量的大模型时,也验证了Scaling Law在自动驾驶模型研发中的持续生效。
从以上来看,小鹏他们应该已经为打造一款L3级别的智能车,做好了大算力、物理世界模型和大数据的一切准备,但在小鹏汽车CEO何小鹏看来,小鹏G7依然只是一款具备L3算力的智能汽车,毕竟要真正迎接L3时代的到来,政策法规得先成熟。
但就目前发布的这些优势能力、以及23.58万元起的预售价来看,小鹏G7已经有了爆款的模样。
1、小鹏G7除了性能拉满,还更像人了?
“年轻人如果爱家庭,也爱科技,小鹏G7是一款合适的产品。”
当被问到小鹏G7在小鹏G系列产品中的定位时,小鹏G7产品负责人Nick这样总结道。从这款车目前公布的各项配置和功能来看,确实也符合这一定位。
对于两人的年轻人家庭或者三口之家来说,买一款车空间是首要考虑的。小鹏G7作为一款SUV车型,不仅拥有宽大的乘坐空间之外,还配备了一个819L的超大后备厢空间和多达39处收纳空间,实现人坐着舒服,再多东西也能放下的目标。
周末假日周边游,已经成为年轻家庭的用车刚需。为了满足出游的需求,小鹏G7全系标配了702km的超长续航,再搭配上全域800V高压SiC碳化硅平台、5C超快充和DCC智能可变阻尼减振器,让出行没有补能焦虑的同时,也有舒适的驾乘体验。
满足家庭出行需求之外,小鹏G7也是一款拥有硬核科技的AI产品。
就从最简单的抬头显示功能来看,小鹏G7搭载的并不简单。因为该功能是小鹏联合华为共同打造的“追光全景”AR-HUD,通过一块87英寸的显示屏,消费者就可以清晰、不会眩晕和无遮挡地看到车外环境和危险因素。
需要注意的是,相比于只能在智能辅助驾驶开启才能有车道导航的产品,“追光全景”AR-HUD则可以在人驾和智能辅助驾驶时都能用,基于全场景AR光毯技术,即便在暴雨大雾等极端天气下,该系统也能把车道线“画”出来和识别路况,保证行车安全。
不过,这一功能只是小鹏G7智能化能力的冰山一角。
按照何小鹏的介绍,小鹏G7开启智能辅助驾驶功能后,当遇到前方路面有塌陷时,小鹏G7可以提前对此感知识别,并且在800ms内做出避让的动作来规避危险,比人类驾驶员的反应时间更快。
行车时遭遇正在执行任务的救护车这一场景,也被小鹏他们考虑到了。面对这一场景时,小鹏G7智能辅助驾驶系统先会识别到救护车,然后像人类驾驶员一样快速向车道一边转45度,为救护车让出生命通道。
从小鹏他们展示的这两个场景来看,他们的智能辅助驾驶系统不仅可以精确的识别车外环境,同时也能像人类驾驶员一样对接收到信息进行理解,然后根据不同情况进行处理。
要评判一款AI智能汽车的智能化能力,除了智能辅助驾驶之外,智能座舱也是重点。
在发布会上何小鹏给出了几个场景很有意思,比如当早上要去公司上班时,车内系统就会主动调出到公司的导航;当车辆电量所剩不多时,则会自动告知最近的超充站和空闲桩数量。
另外,当识别到车内有小朋友在睡觉时,小鹏G7车内的小P就会一边调高车内的温度,同时还会把车内的音乐声音调低。按照何小鹏的介绍,小P还是一位“语言大师”,能理解多种语言并做出相应语言的交互。
对于智能座舱的终局,行业有个共识——要做到自然和主动的交互,从上述小鹏G7的能力来看,小鹏他们正在快速接近这一行业目标,让小P已经成为了“家庭助理”。
就以上分析来看,小鹏G7除了在空间、续航和驾乘体验等方面已处于同级别优势地位之外,在智能辅助驾驶和智能座舱方面,也体现出了十分拟人的理解世界和交互能力,而这背后是很多看不见能力的支持。
2、让“大脑”上车,还要让大脑“转得”更快?
让车自己开得“更像人”,还得“像人”一样进行互动。
随着大模型等新技术被应用到智能汽车行业中后,这已成为行业玩家们为之探索的共同目标。从前文的讨论中,可以看到小鹏已经距离这个行业目标越来越近,那他们是如何做到的?
答案就是让智能汽车产品拥有了人类大脑的能力。
按照何小鹏的介绍,他们率先行业首发了本地端的VLA+VLM大模型,从行业视角看,目前让VLM模型上车的车企有不少,比如理想和极氪等,但让VLA+VLM同时上车的车企,目前应该只有小鹏一家。
具体来看,VLA模型上车已成现阶段行业主流研发方向,比如理想、商汤绝影和元戎启行等企业都在积极布局该模型架构,但小鹏不仅率先实现了这一目标,还做了进一步创新,推出了VLA-OL大模型。
通过解构可以发现,在视觉感知和运动决策之外,小鹏还引入了持续强化学习的架构,以至于让该模型可以自主强化学习。在今年上海车展期间,商汤绝影也发布了他们的VLAR模型,同样在VLA架构中引入了强化学习,可见行业技术路线正在收敛。
基于VLA-OL,再加上小鹏的AI鹰眼视觉融合感知技术,就能实现视频流的感知融合,就像是一位开了多年车的老司机一样,通过摄像头来感知车外连续的世界,然后做出合理的行动决策。
因此在何小鹏看来,VLA-OL模型可以理解为为智能辅助驾驶增加了一颗“行动决策大脑”,让其能力上限比行业MAX车型高10倍更多。
从感知识别到运动决策,中间其实还有一环——理解感知的信息,而这方面的工作就交给了VLM模型,因此该模型被何小鹏称为“理解世界的大脑”,会成为整车的OS交互入口。
就像上文提到的路面塌陷避让场景,通过VLA+VLM两个“大脑”的配合,就能让智能辅助驾驶不仅看到前方有个大坑,还能知道开过去会很危险,从而做出“我要绕过去”的行动决策。
要让智能汽车真正像人,除了要理解车外的世界,也要理解车内乘客的需求,不然也无法做到主动的交互,因此不同于VLA模型只负责智能辅助驾驶域,小鹏的VLM模型在智能辅助驾驶域工作时,还要兼顾智舱域。
换句话说,如果说VLA模型是负责“车怎么开”,那么VLM模型就得负责“要看懂路”和“与车内乘客交流”的任务,由此才能让小鹏G7的“大脑”真正完整。
提大模型,就不能不提参数量。VLA模型之所以比VLM模型更难上车,就是因为前者模型的参数量几乎是后者的两倍之多,因此要让VLA+VLM组合的“大脑”上车,就需要在车端部署更大的算力。
何小鹏为此在车端准备了2200+TOPS的算力规模,三颗自研的图灵AI芯片首发上车小鹏G7,这一算力几乎是9颗Orin X芯片的算力规模,即便是英伟达最新Thor芯片,要达到这一算力规模,也需要3颗。
这三颗图灵AI芯片有着明确的分工,其中两颗用于智能辅助驾驶系统的运行,剩余的一颗芯片与一颗高通8295P一起服务智能座舱。
对于两颗图灵芯片服务智能辅助驾驶系统,如何解决算力分配的问题时,何小鹏对飞说智行表示“这两颗芯片没有严格的任务划分,会共同执行VLA+VLM的计算任务”。
同时他也补充道:“将来的某一天,当车端的算力足够大、能力足够强时,应该用一个模型就可以管理车上的所有能力,这也是趋势。但目前还无法做到,因此就会用到脑分区的概念,有的模型管运动,另外的管理解。”
一边是在车端部署了2000+TPOS的有效算力,另一边让VLA+VLM模型上车,何小鹏把具备这两个条件作为L3级算力AI汽车的标准,换句话说,小鹏他们不仅想要让VLA+VLM“大脑”上车,还想让这颗“大脑”运转的更快,从而提升智能辅助驾驶和智能座舱的用户体验。
正因这样,小鹏G7被称为“全球首款L3级算力的AI汽车”,但何小鹏也强调道,这并不意味着这款车就是L3级智能汽车,毕竟要达到这个目标,除了让“大脑”和大算力上车之外,还有很多因素要具备。
但小鹏他们也正在为此做着准备。
3、要让L3时代乃至未来到来,还需要做什么?
随着智能辅助驾驶行业的持续内卷,已经让“世界模型”概念成为热词。
一方面,因为世界模型可以穷尽所有场景,帮助算法进化。
早在2023年的CVPR会议上,特斯拉自动驾驶负责人Ashok Elluswamy就认为实际路测中很难包含天气、光照、路况和其他交通参与者等所有信息,就会造成算法训练的颗粒度不够精细,即便加入时序模型,也很难精确预测出未来一段时间车辆会遭遇什么。
为了解决这个问题,特斯拉当时给出的解法是通过建立一个“世界模型”的神经网络,然后给出了一个颇有哲学意味的解释——用输入海量的数据为条件,用过去来预测未来。
类似的观点,在特斯拉之后,也有很多中国企业提出过。比如Momenta此前就提出过“端到端模型从人类驾驶数据中学习到的不一定都是好的行为”;再到去年底,地平线CEO余凯更是提出了“在AI时代,99%的人类驾驶数据都不值得学习”的“暴论”。
这背后的逻辑,就是路测数据很难包含所有的场景信息,Coner Cases信息更是可遇不可求,更不要说一些用户的接管行为就是错误的,凭此训练的模型并不可靠。
但通过云端生成数据就可以穷尽所有场景,凭此构建的世界模型,就能成为车端模型的最佳“训练场”和“考试场地”。
这就意味着,当世界模型的参数量越大、能力越强后,就能让“运动员”车端模型的能力更强,这也是更加重要的原因。
就像何小鹏在2023年底说的那样:“云端的大模型(世界模型)可以让本地模型跑更大的数据量,有更大的效率、且能力更强。”
有了特斯拉、小鹏等车企的带领,世界模型就被整个行业逐渐重视起来,理想、华为、蔚来、商汤绝影、地平线、小马智行和英伟达等众多企业都已研发或部署自身的世界模型。
持续布局多年后,小鹏汽车在近日举行的CVPR WAD会议上分享了他们在世界模型领域的最新进展和思考,需要注意的是,小鹏也是唯一被此次大会邀请的中国车企。
在会上,小鹏世界基座模型负责人刘先明表示他们已在云端训练了10亿、30亿、70亿以及720亿多个参数量的世界模型,这些模型都是基于自动驾驶场景和未来物理世界的AI场景专门开发,具备视觉理解能力、链式推理能力和动作生成能力。
翻译成人话就是,基于这些能力,小鹏的世界模型就能像人类一样分步骤、有逻辑地理解整个物理世界,并且在训练过程中对从未见过的场景进行推理,并且还能“解释”推理的结果,让整体模型具备可解释性。
在此过程中,小鹏他们也做到了在行业内首次明确验证规模法则(Scaling Law)在自动驾驶VLA模型上持续生效。简言之,模型参数越大,模型能学习的数据就能越多,从而模型的能力就会越强。
基于这一逻辑,随着小鹏世界模型在未来能力更强后,就能通过蒸馏和修剪的方式部署到车端,让车端的“大脑”保持持续进化的能力,而这样的能力,也被赋予到小鹏的AI机器人和飞行汽车等生态中。
小鹏汽车基座模型内外循环演示图
除了世界模型之外,小鹏在算力和数据方面也在持续迭代。
按照刘先明介绍,目前小鹏的GPU集群已达万卡级别,云端算力已达10 EFLOPS,属于国内智能汽车行业算力集群规模的前列水平,且云端集群运行效率常年保持在90%以上。
数据上,小鹏他们用于训练基座模型的视频数据量高达2000万clips,这一数字今年预计将增加到2亿clips。
在何小鹏看来,要打造L3级别智能汽车的前提,需要具备L3级算力(大于2000 TOPS)和AI软件能力的同时,还需要L3级硬件冗余作为支撑,以及得到法律法规认证。
结合以上分析,在飞说智行看来,小鹏他们目前已经在大算力、世界模型和大数据上做好了迎接L3级别时代到来的准备,只差法律法规的“东风”。再加上还在持续的投入和布局,小鹏或许已为L3之后的自动驾驶时代到来也做着更多的准备。
正因有了这些准备,回到产品视角来看,除了小鹏G7目前已显爆款优势之外,小鹏汽车的其他产品们有可能在未来都会在各自的价格带上拥有优势。
(本文头图来源于小鹏汽车)
特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)