当前位置：首页>自动驾驶>从刘先明访谈解读小鹏自动驾驶:以数据扩展效率为核心的重构逻辑

从刘先明访谈解读小鹏自动驾驶:以数据扩展效率为核心的重构逻辑

2026-07-12 22:34:31

一、自动驾驶讨论重心的转移：不是“用不用大模型”，而是“如何用数据”

过去两年，自动驾驶领域的核心讨论正在悄然转向。

一方面，大模型能力快速外溢，多模态技术开始系统性进入智能驾驶体系，VLM、VLA 等概念被频繁提及；另一方面，行业并没有因此形成统一范式，反而在系统架构、数据利用方式和工程权衡上出现了明显分歧。

正是在这一背景下，小鹏在经历 VLA 1.0 阶段后，主动弱化语言模型在自动驾驶推理链路中的中心地位，转而以世界模型为中枢，重新构建端到端学习路径。这一选择在外部看来，既被解读为“技术冒进”，也被视作“路线回调”。

但结合自动驾驶负责人刘先明的公开访谈，这一决策更像是一种现实约束下的理性选择：在算力、数据规模和工程复杂度有限的条件中，重新审视系统瓶颈究竟在哪里，以及什么结构最有利于长期放大数据价值。

二、从 Software 1.0 到 3.0：范式演进与瓶颈迁移

若从更长周期看，自动驾驶的软件范式经历了多轮演进：

Software 1.0（约 2009–2016）

以规则系统为核心，感知阶段通过激光雷达或摄像头完成目标识别，再依靠大量人工规则完成决策与控制。这一体系可解释性强，但性能上限完全受限于规则复杂度。

Software 1.5（约 2016–2019）

深度学习开始进入感知端，用于目标检测和语义分割，而规划与控制仍以规则为主，形成“模型 + 规则”的混合结构。Mobileye 是这一阶段的代表，其瓶颈依然出现在规则系统。

Software 2.0–3.0（2019 至今）

随着算力与数据规模扩张，神经网络逐步进入决策与控制环节，端到端学习开始成为主流方向。系统性能不再依赖人工规则，而通过数据迭代不断逼近上限。

但新的问题随之浮现：模型规模、训练稳定性以及数据利用效率成为新的制约因素，也正是在这一阶段，VLM、VLA 和世界模型逐步进入视野。

三、语言是否必须存在于自动驾驶的“中枢位置”？

从范式上看，VLM 或 VLA 并非否定端到端，而是在其之上增加结构层。

典型的语言介入路径是：视觉 → 语言 → 推理 → 语言 → 动作

这一方式的优势显而易见：语言可引入通识知识，推理过程更贴近人类思维，也更容易被解释。然而，在连续控制问题中，它同样带来不可忽视的代价。

首先，语言本质上是离散表示，而自动驾驶的输入（视频流）与输出（控制信号）都属于连续空间。在中间引入语言 token，相当于一次强制压缩与再展开，天然容易形成信息瓶颈。

更关键的是数据效率。一旦语言成为核心中间层，就不可避免地引入标注或对齐成本。即便使用大模型生成语言，也难以摆脱人工校验，系统很难真正走向大规模自监督学习。

小鹏在 VLA 1.0 阶段曾对这一路径进行验证，但最终的结论是：语言更像一种工程捷径，短期见效，却会在长期制约数据规模的扩展。因此，在后续演进中，语言被从“感知—决策主链路”中剥离，仅保留对用户意图和导航信息的理解功能，而不再承担世界建模与动作生成的中介角色。

（小鹏汽车自动驾驶负责人刘先明）

四、为什么世界模型逐渐成为“绕不开”的结构层？

当系统试图直接将高维视觉输入映射到低维控制输出时，必然遭遇一个经典问题：维度灾难。几秒钟的视频包含海量信息，而最终输出只是方向盘角度、油门和制动信号，模型极易学习到表面相关性而非因果结构。

世界模型的引入，正是为了解决这一问题。

其核心价值并不在于是否生成逼真的视频，而在于学习“世界如何随时间演化”，并在隐空间中进行推演与决策。隐空间可以理解为模型内部对世界的抽象表达，它负责压缩信息、筛选关键变量，从而避免错误相关性的放大。

刘先明将这一过程类比为语言模型中的思维链（Chain-of-Thought），但二者的差异在于：这里的“思考”并非文本，而是连续隐状态的演化。

在训练阶段，世界模型可以承担高复杂度的理解和生成任务；而在车端部署时，通过模型蒸馏，仅保留与决策相关的部分，剔除生成模块，使系统具备实时性。这正是小鹏当前 VLA 2.0 的基本形态。

五、小鹏、特斯拉与不同现实约束下的同一方向

在这一问题上，特斯拉的技术路线具有高度参考意义。

其 AI 团队展示的方案同样是端到端与世界模型的结合：多摄像头视频、导航和车辆动力学数据被直接映射为控制输出，训练模型规模达到万亿级，并依靠海量真实数据对抗维度灾难。

特斯拉反复强调，自动驾驶的主要瓶颈并不在模型结构本身，而在评估方式。传统开环测试无法反映真实交互安全性，因此其构建了神经网络驱动的世界模拟器，用于闭环训练、事故复盘以及极端场景生成。

从本质看，小鹏与特斯拉并不存在路线冲突：两者都强调端到端、都引入世界模型、都相信规模定律长期有效。差异更多来自现实条件——数据规模、算力基础、硬件节奏以及对语言中间层性价比的不同判断。

结语：真正的分水岭在于数据是否能持续“复利”

回到小鹏的路径选择，其关键并不在于是否使用语言模型、是否强调 VLA 或世界模型，而在一个更底层的问题：在连续控制的真实世界中，怎样的系统结构，最有利于长期放大数据的价值。

从刘先明的表述可以看出，小鹏对语言的“降权”并非否定多模态，而是基于数据规模、自监督效率与工程落地性的综合权衡。语言仍然存在，但不再是推理主链路；世界模型也不是为了生成更逼真的场景，而是为了在隐空间中更好地理解世界演化规律，从而服务动作决策。

放眼整个行业，不同厂商在技术形式上的差异，更多反映的是各自所处的资源条件与产品节奏。真正重要的，是系统是否具备持续迭代能力，是否能够在不显著增加人工成本的情况下，不断吸收新数据、修正错误决策。

随着 L3 自动驾驶相关法规逐步落地，产业进入新的发展阶段。近期工信部批准首批 L3 自动驾驶乘用车上路，多地《自动驾驶汽车条例》相继实施，为技术落地提供制度基础。理解技术演进逻辑，是判断产业机会的起点，我们也将持续跟踪相关法规与技术进展。

-END-

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

从刘先明访谈解读小鹏自动驾驶:以数据扩展效率为核心的重构逻辑

一、自动驾驶讨论重心的转移：不是“用不用大模型”，而是“如何用数据”

最新文章

热门文章

随机文章

从刘先明访谈解读小鹏自动驾驶:以数据扩展效率为核心的重构逻辑

一、自动驾驶讨论重心的转移：不是“用不用大模型”，而是“如何用数据”

特斯拉全球第900万辆电动车在上海超级工厂下线;创始人向董事会发难,Lululemon陷权力斗争;美股三大期指齐涨,百度涨超4.5%【美股盘前】

华为确认:首批获批L3自动驾驶车型——极狐阿尔法S采用华为ADS!

最新文章

热门文章

随机文章