当AI不再背诵交规,而是像老司机一样“凭感觉”开车
你好,我是「汽车圆桌」的阿刁。上一期我们聊了BEV+Transformer——这项技术让自动驾驶第一次拥有了统一的三维世界坐标系。但一个更根本的问题随之而来:
有了“世界模型”,然后呢?
传统模块化架构的答案是:感知模块把世界模型传给预测模块,预测模块传给规划模块,规划模块传给控制模块——一层层传递,像工厂流水线。
但端到端架构给出了一个截然不同的答案:用一个巨大的神经网络,直接从摄像头图像映射到方向盘转角。
不需要人工定义“什么是行人”“什么是车道线”,不需要写“如果行人横穿就刹车”的规则代码。AI自己看几百万小时的人类驾驶视频,然后自己“悟”出开车的规律。
这就是端到端自动驾驶——智驾算法从“规则驱动”走向“数据驱动”的范式革命。
今天这篇文章,我们把端到端彻底讲透:它和传统架构到底有什么不同?为什么它是通往自动驾驶的必经之路?它有哪些局限,又如何被新一代VLA架构所超越?
🧩 传统模块化架构:像一条“流水线”
在理解端到端之前,我们先快速回顾一下它的“前任”。
传统模块化架构将自动驾驶任务拆解成几个独立模块,像工厂流水线一样串联工作:
- 感知模块:识别环境中的物体(车、人、车道线、红绿灯)
- 控制模块:把决策转化为方向盘、油门、刹车的具体动作
每个模块独立开发、独立优化,最后通过定义好的接口传递信息。
这种架构有两个核心问题:
问题一:信息传递损耗
每个模块在输出时,都要把信息“翻译”成人类可读的格式(比如“前方3米处有一个行人”)。但这种翻译会丢失大量细节——行人的朝向、姿态、眼神、手里有没有拿东西……这些细微特征,恰恰可能是预测“他会不会突然横穿马路”的关键线索。
问题二:模块间误差累积
感知模块误识别了一个物体,预测模块基于错误信息做预测,规划模块基于错误的预测做决策——误差像滚雪球一样越滚越大。而且,每个模块的优化目标都是“让自己更准”,而不是“让最终驾驶效果更好”,可能导致全局不是最优。
🧠 端到端架构:一个“黑盒”,一次推理
端到端(End-to-End)的核心理念截然不同:
用一个巨大的神经网络,直接从传感器输入(摄像头图像、雷达点云)映射到控制输出(方向盘转角、油门开度),中间不需要人类定义的模块和接口。
用一个对比表格来感受差异:
用一句话总结:传统架构在“背题”,端到端在“学解题思路”。背题的人遇到新题就懵,学会解题思路的人可以应对没见过的题。
🔄 端到端的演进:从“两段式”到“一段式”
端到端本身也在快速进化。行业通常将其分为两个子阶段:
第一阶段:两段式端到端(2023-2025年主流)
将感知和规划两个大模块用一个神经网络串联起来,但中间仍有“代理表征”(如障碍物框、车道线)。这种方式保留了部分模块化的可解释性,但信息损失仍然存在。目前市面上大多数“端到端”方案属于这一类。
第二阶段:一段式端到端(2025年至今,前沿)
感知、预测、规划、控制全部融合在同一个神经网络中,中间没有任何人工定义的表征。模型从像素直接到轨迹,信息在全链路无损流动。理想、小鹏等头部玩家已经在这一阶段展开角逐。
卓驭科技CEO沈劭劼用“三次跃迁”的框架清晰解释了这一演进逻辑:
- 第一阶段(2016-2023):“小模型”时代。依靠高精地图、小感知模型与规则算法,通用基础能力约40分,通过大量地域化、场景化定制可做到80分。代价是“开城”成本巨大。
- 第二阶段(2023-2025):“中模型”时代。端到端方案让智驾性能飞跃,通用基础能力达到70分,配合少量适配可超90分。但出海时每个国家的适配成本仍然很高。
- 第三阶段(2025年起):“大模型”时代。目标是“开箱即95分”,无需重新训练即可跨地域、跨车型迁移。
💡 端到端的核心优势:为什么它是革命性的?
优势一:无损信息传递
在端到端网络中,数据以“高维特征向量”的形式流动,没有任何信息被强行“翻译”成人类可读的格式。系统能直接感知到那些“难以用语言定义”的微妙线索——比如前车刹车灯闪烁的节奏、行人回头的眼神——并直接转化为驾驶决策。
优势二:学习“驾驶直觉”,而非“规则”
人类老司机开车,很多动作是“下意识”的——看到前面那辆车的刹车灯亮了,右脚就自动抬起了油门。这不是在背规则,而是肌肉记忆。
端到端系统通过模仿学习,学会了同样的“直觉”。它的训练数据是数百万小时的老司机驾驶视频,学到的是一种“丝滑”的驾驶风格,而不是生硬的if-else规则。
优势三:强大的泛化能力
传统模块化系统遇到没见过的场景(比如一个形状奇怪的施工路障),会因为“不认识”而不知所措。端到端系统不依赖于“认出具体物体”,它做的是从像素到动作的直接映射——只要障碍物在物理上“占据”了空间,系统就知道“不能开过去”。
NVIDIA的吴新宙指出,在端到端时代,算法与数据的耦合度达到了空前高度,模型需要吞噬海量的高质量、多模态真实驾驶数据,并在极高逼真度的虚拟环境中进行闭环验证。
⚠️ 端到端的三大局限:为什么它不是终点?
局限一:“黑盒”问题——不可解释性
这是端到端最被诟病的短板。
在传统模块化系统里,出了事故,工程师可以翻看日志,精准定位到是“感知模块漏检了障碍物”还是“决策模块参数设置太激进”。端到端是一个“黑盒”——神经网络里有几百万甚至几十亿个参数,没人能说清楚“为什么在那个时刻方向盘向左打了3度”。
这给工程调试和安全认证带来了巨大挑战。如果系统做了一件奇怪的事,没法“修代码”,只能喂更多针对性数据去“纠正”。
局限二:长尾场景覆盖不足
端到端模型通过模仿学习训练,但训练数据的分布天然偏向“常见场景”。那些发生概率极低的长尾场景——前车掉落货物、路面突然出现异物、交警手势指挥——在真实数据中占比极低。
NVIDIA的吴新宙指出,单纯依赖不断堆积高质量真实驾驶数据,边际效益正在迅速递减。因为现实道路中的长尾场景本身就无法被穷举,再多的数据也难以覆盖低频、高风险的突发情况。
局限三:缺乏真正的“理解”和“推理”
端到端模型学会了“怎么做”,但没有学会“为什么”。
它能模仿人类司机在红灯前停车,但它不理解“红灯代表停止”这个交通规则的含义。这意味着:当遇到训练数据中没有的情况(比如红灯坏了在闪烁,或者交警示意你闯红灯通过),端到端模型可能会做出错误的判断。
这也是为什么行业正在从“纯端到端”迈向“VLA(视觉-语言-行动)大模型”和“世界模型”——让系统具备真正的语义理解和因果推理能力。
🔮 端到端之后:VLA与世界模型的崛起
端到端不是终点,而是一个重要的中间站。行业正在向两个方向进化:
方向一:VLA(视觉-语言-行动)大模型
VLA在端到端的基础上,引入了大语言模型的能力,让系统同时具备“看懂世界”(Vision)、“理解语义”(Language)和“执行行动”(Action)的能力。
NVIDIA推出的Alpamayo1.5模型是这一方向的代表。该模型拥有约100亿参数,引入了大语言模型中成熟的“思维链(Chain of Thought)”机制——在输出轨迹的同时,强制要求输出自然语言形式的推理逻辑。
例如,系统会输出“前方人行横道有行人,我准备让行”或“我的车道内有双排停放的车辆,我正在绕行”。这种“可解释的自动驾驶”,正是解决端到端黑盒问题的关键路径。
方向二:世界模型
如果说VLA解决的是“理解”,世界模型解决的是“预测”。
世界模型的核心逻辑是:车辆不应该只处理当前画面,而应该在云端预演未来几秒会发生什么,再带着“预判”去开车。
Momenta发布的R7强化学习世界模型,以及华为ADS 5.0的WEWA 2.0架构,都是这一方向的代表。世界模型的优势在于处理长尾场景——在虚拟世界中反复演练那些真实道路中极少发生的极端情况,让系统提前“见过”并学会应对。
2026年的趋势是:两者正在融合。
2025年底,特斯拉FSD V14推出,将xAI的Grok大模型整合进决策系统,让行业第一次看到:大模型能力不是在VLA和世界模型之间二选一,而是可以一起做。
行业迅速形成了新共识:VLA做“大脑”负责认知推理,世界模型做“预演”负责未来推演,端到端模型做“小脑”负责快速执行。黑芝麻智能CEO单记章明确表示:“VLA加上世界模型,是高阶智能驾驶未来最有可能的技术路线,而且有机会超越人类的驾驶能力。”
🚗 端到端架构下的技术协同:BEV+Transformer还重要吗?
在聊端到端时,很多人有一个误解,认为端到端会彻底取代BEV和Transformer。
实际上,端到端并不意味着推翻现有的感知架构,而是以更高效的方式将原本分离的模块整合进一个大神经网络中。BEV和Transformer仍然是系统的“眼睛”和“骨架”,只是它们的工作方式发生了变化。
BEV的角色:在多路摄像头数据涌入模型后,系统在统一的BEV空间中进行特征叠加。这解决了多视角重叠、遮挡等问题,让模型在面对急弯、复杂路口时拥有连贯的空间记忆。
Transformer的角色:Transformer的注意力机制解决了一个关键痛点——如何把不同位置、不同时刻的信息连接起来。通过这个机制,模型可以自主判断哪些场景特征对当前驾驶任务最重要。Transformer像人类的短期记忆,能把过去几秒的特征信息串联起来,让模型具备预测能力。
📊 一张表看懂:端到端在各家方案中的位置
| | | |
|---|
| 理想汽车 | | | |
| 小鹏汽车 | | | |
| 华为ADS 5.0 | | | |
| Momenta | | | |
| NVIDIA | | | |
| 卓驭科技 | | | |
✍️ 写在最后
从模块化到端到端,智驾算法的进化,本质上是AI对物理世界认知深度的不断拓展。
模块化像工厂流水线,每个工人只负责一道工序,效率不高;端到端像一个统一的神经网络,信息在全链路无损流动,但它是“黑盒”,难以解释和调试;而VLA和世界模型正在为这个“黑盒”装上“推理引擎”和“预演能力”。
值得注意的是,在自动驾驶领域率先建立数据闭环的公司,其能力和经验可能会溢出到机器人、工业自动化等领域。正如NVIDIA的吴新宙所言:“辅助驾驶正在成为物理AI最早进入规模化量产的核心场景。”
卓驭CEO沈劭劼更进一步判断:“未来两年,全球智能辅助驾驶行业将告别分垂类、分地域的功能交付时代,全面拥抱基础模型。所有智能辅助驾驶公司,最终都必须转型为移动物理AI公司。”
下期,我们将聚焦端到端之后的下一个技术高地——VLA大模型。当汽车不仅能“看”,还能“读”和“想”,驾驶体验会发生怎样的质变?理想的MindVLA-o1和小鹏的第二代VLA到底有多强?欢迎继续关注「智驾笔记」系列文章。
如果你觉得这篇文章帮你理解了端到端的本质,点个在看,转发给那个好奇“自动驾驶是怎么从模仿到理解”的朋友。我们下期见!
本文为「汽车圆桌谈」原创。部分技术观点参考了NVIDIA GTC 2026、卓驭科技发布会、黑芝麻智能发布会及行业研究报告。