日前,理想汽车“五年磨一剑”的辅助驾驶新阶段性成果——VLA司机大模型,在其重磅新车i8产品发布会上正式出鞘。
i8上市当晚,知名相声演员岳云鹏(小岳岳)的一条“刁难”辅助驾驶系统的短片,实力破圈。只见其在发出“你快点、加速、慢一点”“环岛第二个路口出”“并线”“前边靠边停车”等语音指令后,车辆就立即理解并执行复杂动作。
发布会结束后,买理想送“司机”登上了微博热搜,最高位置去到榜单第16位。
那么,何为VLA?即视觉语言行动模型(Vision Language Action Model),它不仅具备思维、沟通、记忆,以及自主学习四大核心能力,还将带来防御驾驶、平稳舒适、三点掉头、连续任务、地库行驶五大体验升级。
“今年VLA上车之后,就会让大家有非常好的、安心的司机体验,有安全感,有舒适性,并且是越开越好。”理想汽车无人驾驶研发高级副总裁郎咸朋日前受访时指出,“再往后,有了VLA模型的加持,辅助驾驶会往更好的,一个移动空间的思路去发展,这个车它能在安心、安全的基础上,帮你去做其他的事情,我相信那天很快就会到来。”
在国内辅助驾驶江湖上,理想汽车能够说是个“后起之秀”。但其仅用五年时间,便实现了硬件平台和技术的快速迭代,上演了“由追赶到超越”的戏码,如今又一举闯入“技术无人区”。
究其背后原因,与理想汽车在产品和研发技术过程中,始终秉持“第一性原理”有关。其强调回归事物的本质,以“处理问题”为导向实现创新,而不是盲目关注竞争、依赖现有的经验。
在以规则算法为核心的“人工时代”,理想汽车从最早的2D、3D感知开始研发,到BEV(鸟瞰图)、NPN(先验网络)、无图等技术架构,一步一个脚印,奋起直追。就像其董事长兼CEO李想所言“没有葵花宝典,我也不是吃第10个包子的人”。
基于“规则算法”的特点,人工时代辅助驾驶性能提升的核心,重点是工程师的能力和经验。但在郎咸朋看来,人都有不足,很多场景需要“堆人”去研发才能解决;且很多场景是按下葫芦起来瓢,“把这个规则弄完了,那个规则又不行了”。
为了解决人工时代没有办法解决所有corner case极端场景的问题,理想汽车开启自研“端到端+VLM架构”之路,实现了从人工时代到AI时代的跨越。
“端到端+VLM架构”是理想汽车首次用AI的方式做辅助驾驶,也是两个时代的“分水岭”。这一架构的本质是“模仿学习”,指的是用人类驾驶数据训练模型,数据数量和质量决定性能。
但伴随技术研发的深入,理想汽车又看到了“端到端+VLM架构”面临的痛点。
比如当训练数据量到达一定水平时,端到端模型性能提升速度会变慢。理想在去年7月发布“端到端+VLM架构”时,MPI接管里程超过12公里。经过7个月的迭代,训练数据从100万Clips(视频片段)增长到1000万Clips,MPI接管里程超过120公里,性能提升速度实现10倍增长。但训练数据量达到1000万Clips后,今年5个月的时间,其模型MPI接管里程仅增长2倍左右。
再比如,端到端的模仿学习本身不具备深度的逻辑思维能力,这会导致三个问题:违反常理的行为;开车不够聪明,做决策时没有深度思考;安全感不足,不能根据场景做出预防性判断。
用李想的话来说,端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。
延续“上一代技术能力的上限,是下一代技术能力的起点”这一原则,理想汽车开始自研VLA司机大模型。如今的VLA,本质是强化学习,用生成数据结合仿真环境训练模型。仿真迭代的效率决定性能,解决了端到端+VLM现存的挑战。
“做正确的事,不做容易的事。”这句话被写入理想汽车的行为准则,是其企业文化的内核。在上半场的电动化比拼中,理想汽车看到了补能设施不足、消费者续航焦虑的痛点,未随大流,也不惧争议,让增程式路线上演“真香定律”;基于对家庭客户的真实需求的深入分析,理想从刚需出发,注重实际使用场景的需求,开创了“冰箱彩电大沙发”的产品形态,让其走向行业标配等。
迈入智能化下半场,理想汽车则在辅助驾驶技术演进道路上,走出了一条清晰的路径,以“生产一代、研制一代、预研一代、探索一代”的研发节奏,在辅助驾驶领域构建起难以逾越的竞争壁垒。
今年6月底,郎咸朋曾在微博上转发李想的言论:“理想汽车在辅助驾驶等多个角度稳居第一梯队。”他进一步表示,VLA司机大模型交付后,理想汽车将不再需要用“梯队”这一表述。
这番话的自信,源自VLA架构的技术实力及其带来的体验提升。据透露,理想自主研发的VLA架构具备强大的3D空间理解能力、逻辑推理能力和行为生成能力,使车辆能够感知、思考并适应环境。这一技术将AI从信息工具和辅助工具,提升为交通领域的专业生产工具,真正的完成了AI作为“司机”的角色。
首先是“V”,即空间智能(Spatial Intelligence),它代表模型对空间的理解能力,例如远距离空间感知和全局语义理解。通过各类传感器(主要是视觉传感器)及导航信息的输入,模型可以在一定程度上完成对空间的精细感知和深入理解。
其次是“L”,即语言智能(Linguistic Intelligence),代表模型的思维、沟通与记忆能力。语言智能指的是通过语言生成对空间的理解,模型能够将空间内感知到的所有内容,以高度压缩的编码形式表达出来,并输出决策。模型不但可以在内部通过思维链(Chain of Thought, CoT)生成决策,人类也可以在外部直接为模型提供决策。
最终来到“A”,即行为策略(Action Policy)。该策略基于对场景的高度压缩描述进行推理,并生成最终的行为。与端到端方法的最大不同在于,VLA 使用了扩散模型(Diffusion Model)来规划轨迹。
传统的轨迹规划方法是将轨迹点连接成一条折线,再通过数学手段进行拟合,生成光滑的曲线。而Diffusion扩散模型则能够直接生成平滑的行车轨迹,并且该模型能够准确的通过不同的决策生成多种行车路径,从而提升车辆的驾驶灵活性和技巧性。
总的来说,VLA具备四大核心能力,即思维、沟通、记忆和自主学习。在思考能力上,其实时推理速度可达到10赫兹以上,并呈现思维推理过程。在沟通上,用户可通过语言和模型进行交流,“开快点、开慢点、左转、右转”等基本操作均可实现。VLA还能通过语言理解记住用户的偏好选择,记住用户之前下发过的指令。至于自主学习能力,其能在仿真环境里无监督地自我迭代和提升。
首先,重中之重,与安全相关,即防御性驾驶。因为其对场景理解和分析更加透彻,所以能提前做出更好的决策和行为。比如,系统准确识别到前面是丁字路口之后,会分析出存在盲区,所以提前刹车预防潜在的碰撞风险。
其次,平稳舒适。得益于感知能力和行为能力的升级,VLA的驾驶平顺性极大的提升。比如在仪表台上放一杯咖啡,车辆在加减速、转弯、超车等一系列复杂动作的过程中,咖啡都不会洒出来。
再者,还有三点掉头、连续任务、地库行驶。“在端到端里没做到的,VLA都能做到。我们大家可以和VLA模型连续进行交流和沟通,完成多个驾驶任务。你跟滴滴司机怎么说的,就跟VLA司机大模型怎么说就可以了。”郎咸朋说道。
对于VLA上车,理想汽车的目标是让熟悉其车的人买i8一上车就会有非常大的体验。同时,让没用过辅助驾驶的人,在使用辅助驾驶的时候,也会有很强的安全感和安心感,并且还有很强的舒适程度。
“目前来看,只有我们才有机会率先实现VLA。”郎咸朋表示,理想汽车能够在友商之前率先落地VLA,得益于公司在数据、算法、算力和工程方面的优势。
首先,数据分为采集数据和生成数据。据透露,在理想VLA的后训练过程中,使用了10%的生成数据和90%的采集数据。
在数据采集方面,得益于销量的增长,截至2025年7月,理想已累计了12亿公里的有效数据。这12亿公里的数据确保了场景的多样性。理想将采集的数据分为多种类型,并从天气、时间段、道路类型、车道类型、路口类型、交通状况、合规行为和接管类型等多重维度进行分析。
生成数据源自世界模型,该模型可以在一定程度上完成场景的重建与生成。“重建”是指将真实数据通过三维技术重建,“生成”则是指基于真实数据来进行扩展,生成类似的场景。世界模型不仅仅可以模拟时间与天气的变化,还能直接生成危险场景数据,以此来实现更加均衡的场景(数据)分布。
“我们拥有12亿的数据,只有在充分了解这一些数据的基础上,才能更有效地生成数据。缺乏这一些数据基础,不仅无法训练世界模型,也无法明确生成数据的具体方向。此外,基础训练算力和推理算力的支撑需要大量的资金和技术能力,没有前期积累是没办法实现的。”郎咸朋表示。
其次,在算法方面,理想对模型评测方式来进行了升级,采用世界模型进行仿真测试,来提升了后训练和强化学习等环节的评测效率。传统的模型评测方式依赖实车测试,而实车测试无法完全复现所有复杂场景,测试周期长且成本高昂。相比之下,世界模型中的仿真测试能够验证模型在未知场景中的理解和推理能力,自动生成“真题”(完全复现特定场景)和“模拟题”(新场景)。对精度要求极高的极限场景,仿线还原,大幅度缩短测试周期并明显降低测试成本。
在郎咸朋看来,理想的核心技术壁垒在于世界模型仿真,这一壁垒非常高,他人难以在极短的时间内复制。由于其迭代速度需要确保,并且一定要通过实车测试,因此很难被超越。
此外,在算力方面,理想汽车目前的总算力为13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于训练。此外,理想汽车具备强大的工程落地能力,大多数表现在高精度的量化和强大的跨平台部署能力。
理想汽车无人驾驶高级算法专家詹锟在接受媒体采访时指出,许多团队并非认为VLA(视觉语言模型)不优秀,而是因为其部署存在比较大困难,将其实际应用极具挑战性。“特别是在边缘端芯片算力不足的情况下,几乎没办法实现。因此,我们只可以在大算力芯片上进行部署。这不仅需要工程创新,还需要在大规模部署中来优化才能实现。”
从辅助驾驶领域的后来者,到以“黑马”之姿跻身第一梯队,再到彻底打破这一格局,理想汽车仅用五年时间完成了三级跳。如今,VLA的强大潜力正吸引其他厂商纷纷跟进,这一现象类似于电动化上半场的增程技术、“冰箱彩电大沙发”等市场趋势的再现。展望未来十年,理想汽车在智能化下半场的持续领跑,有望进一步转化为显著的市场之间的竞争优势,前景广阔。