一、自动驾驶讨论重心的转移:不是“用不用大模型”,而是“如何用数据”
过去两年,自动驾驶领域的核心讨论正在悄然转向。
一方面,大模型能力快速外溢,多模态技术开始系统性进入智能驾驶体系,VLM、VLA 等概念被频繁提及;另一方面,行业并没有因此形成统一范式,反而在系统架构、数据利用方式和工程权衡上出现了明显分歧。
正是在这一背景下,小鹏在经历 VLA 1.0 阶段后,主动弱化语言模型在自动驾驶推理链路中的中心地位,转而以世界模型为中枢,重新构建端到端学习路径。这一选择在外部看来,既被解读为“技术冒进”,也被视作“路线回调”。
但结合自动驾驶负责人刘先明的公开访谈,这一决策更像是一种现实约束下的理性选择:在算力、数据规模和工程复杂度有限的条件中,重新审视系统瓶颈究竟在哪里,以及什么结构最有利于长期放大数据价值。

二、从 Software 1.0 到 3.0:范式演进与瓶颈迁移
若从更长周期看,自动驾驶的软件范式经历了多轮演进:
以规则系统为核心,感知阶段通过激光雷达或摄像头完成目标识别,再依靠大量人工规则完成决策与控制。这一体系可解释性强,但性能上限完全受限于规则复杂度。
深度学习开始进入感知端,用于目标检测和语义分割,而规划与控制仍以规则为主,形成“模型 + 规则”的混合结构。Mobileye 是这一阶段的代表,其瓶颈依然出现在规则系统。
随着算力与数据规模扩张,神经网络逐步进入决策与控制环节,端到端学习开始成为主流方向。系统性能不再依赖人工规则,而通过数据迭代不断逼近上限。
但新的问题随之浮现:模型规模、训练稳定性以及数据利用效率成为新的制约因素,也正是在这一阶段,VLM、VLA 和世界模型逐步进入视野。
三、语言是否必须存在于自动驾驶的“中枢位置”?
从范式上看,VLM 或 VLA 并非否定端到端,而是在其之上增加结构层。
典型的语言介入路径是:视觉 → 语言 → 推理 → 语言 → 动作
这一方式的优势显而易见:语言可引入通识知识,推理过程更贴近人类思维,也更容易被解释。然而,在连续控制问题中,它同样带来不可忽视的代价。
首先,语言本质上是离散表示,而自动驾驶的输入(视频流)与输出(控制信号)都属于连续空间。在中间引入语言 token,相当于一次强制压缩与再展开,天然容易形成信息瓶颈。
更关键的是数据效率。一旦语言成为核心中间层,就不可避免地引入标注或对齐成本。即便使用大模型生成语言,也难以摆脱人工校验,系统很难真正走向大规模自监督学习。
小鹏在 VLA 1.0 阶段曾对这一路径进行验证,但最终的结论是:语言更像一种工程捷径,短期见效,却会在长期制约数据规模的扩展。因此,在后续演进中,语言被从“感知—决策主链路”中剥离,仅保留对用户意图和导航信息的理解功能,而不再承担世界建模与动作生成的中介角色。
(小鹏汽车自动驾驶负责人 刘先明)
四、为什么世界模型逐渐成为“绕不开”的结构层?
当系统试图直接将高维视觉输入映射到低维控制输出时,必然遭遇一个经典问题:维度灾难。几秒钟的视频包含海量信息,而最终输出只是方向盘角度、油门和制动信号,模型极易学习到表面相关性而非因果结构。
世界模型的引入,正是为了解决这一问题。
其核心价值并不在于是否生成逼真的视频,而在于学习“世界如何随时间演化”,并在隐空间中进行推演与决策。隐空间可以理解为模型内部对世界的抽象表达,它负责压缩信息、筛选关键变量,从而避免错误相关性的放大。
刘先明将这一过程类比为语言模型中的思维链(Chain-of-Thought),但二者的差异在于:这里的“思考”并非文本,而是连续隐状态的演化。
在训练阶段,世界模型可以承担高复杂度的理解和生成任务;而在车端部署时,通过模型蒸馏,仅保留与决策相关的部分,剔除生成模块,使系统具备实时性。这正是小鹏当前 VLA 2.0 的基本形态。
五、小鹏、特斯拉与不同现实约束下的同一方向
在这一问题上,特斯拉的技术路线具有高度参考意义。
其 AI 团队展示的方案同样是端到端与世界模型的结合:多摄像头视频、导航和车辆动力学数据被直接映射为控制输出,训练模型规模达到万亿级,并依靠海量真实数据对抗维度灾难。
特斯拉反复强调,自动驾驶的主要瓶颈并不在模型结构本身,而在评估方式。传统开环测试无法反映真实交互安全性,因此其构建了神经网络驱动的世界模拟器,用于闭环训练、事故复盘以及极端场景生成。
从本质看,小鹏与特斯拉并不存在路线冲突:两者都强调端到端、都引入世界模型、都相信规模定律长期有效。差异更多来自现实条件——数据规模、算力基础、硬件节奏以及对语言中间层性价比的不同判断。
结语:真正的分水岭在于数据是否能持续“复利”
回到小鹏的路径选择,其关键并不在于是否使用语言模型、是否强调 VLA 或世界模型,而在一个更底层的问题:在连续控制的真实世界中,怎样的系统结构,最有利于长期放大数据的价值。
从刘先明的表述可以看出,小鹏对语言的“降权”并非否定多模态,而是基于数据规模、自监督效率与工程落地性的综合权衡。语言仍然存在,但不再是推理主链路;世界模型也不是为了生成更逼真的场景,而是为了在隐空间中更好地理解世界演化规律,从而服务动作决策。
放眼整个行业,不同厂商在技术形式上的差异,更多反映的是各自所处的资源条件与产品节奏。真正重要的,是系统是否具备持续迭代能力,是否能够在不显著增加人工成本的情况下,不断吸收新数据、修正错误决策。
随着 L3 自动驾驶相关法规逐步落地,产业进入新的发展阶段。近期工信部批准首批 L3 自动驾驶乘用车上路,多地《自动驾驶汽车条例》相继实施,为技术落地提供制度基础。理解技术演进逻辑,是判断产业机会的起点,我们也将持续跟踪相关法规与技术进展。