在自动驾驶的圈子里,“端到端”这个词被捧得很高。很多人以为,只要给一个大模型灌进去摄像头拍到的所有画面,它就能自己学会开车,像老司机一样走遍天下。
但现实是,现在绝大多数所谓的“端到端”,本质上还是在玩“数据驱动”的老套路——靠死记硬背开车,结果一到没见过的场景就发懵。
今天我们就来聊聊新一代的自动驾驶,又是怎么学着“理解”世界的?
一、端到端不是技术,是“骨架”
很多人把“端到端”想象成一个黑盒子:摄像头进去,方向盘油门出来,中间谁也不知道发生了什么。其实,它更像是一种**系统组织方式**,而不是某种固定的技术。
传统的自动驾驶好比一条流水线:摄像头先看,识别出红绿灯、行人;然后另一个模块推测这些东西会往哪走;最后第三个模块决定要不要刹车。每个模块各干各的,信息传递一次就要“翻译”一次,难免丢东西。而端到端的想法很简单:把这条流水线打通,让信息从头流到尾,尽量减少人为的“翻译”环节,实现整体最优。
这就好比汽车从分散的小电控单元,进化到中央计算大脑——本质上是减少中间商。端到端的核心定义是:整个系统可以一起训练、一起优化,中间没有任何人为写死的接口。
有意思的是,端到端并不一定是个黑盒子。现在很多方案已经开始加入大语言模型,让这个“盒子”变得半透明。模块之间传递的不再是“红灯状态=红灯”这种生硬信号,而是一种更抽象的特征表示,系统可以自己琢磨怎么配合能做得更好。
所以,端到端只是一个骨架。骨架里装什么血肉,决定了它的上限。现在大部分方案装的是“数据驱动”的血肉,而这恰恰是问题的根源。
二、数据驱动的三个“硬伤”
数据驱动的路子,说白了就是让模型看海量的驾驶视频,从中模仿老司机的操作。你开得好,它就学你。听起来很合理,但它天生有三个绕不过去的坑。
第一,数据永远喂不饱,而且总遇到“没见过的题”。
特斯拉FSD训练用了上千万个视频片段,几万小时的数据,够吓人了吧?但刚到中国的时候,表现依然不稳定。不是算法不行,是中国的路况它没见过。
更麻烦的是,世界上总有你收集不到的场景:一个小孩突然从路边停着的两辆车之间窜出来,高速上掉下来一个沙发,洒水车逆向行驶……这些“长尾场景”在数据里占比极低,模型根本学不到。就算你拼命收集,真实世界的变化速度也比你快。
第二,它学的是“相关性”,不是“因果性”。
这是最要命的。比如在十字路口停车,模型可能并不是因为“看到红灯”才停,而是因为“旁边的车都停了,所以我也停”。这叫“因果混淆”。
如果旁边那辆车是故障抛锚停在路中间,模型也跟着停,不就堵死了吗?又或者,模型在晴天学得好好的,一到暴雨天,摄像头被雨滴模糊了,它就彻底懵了——因为它只见过晴天画面里的物体,没见过雨天的。
这种模型上限很高,但下限极低,你敢让它自己开吗?
第三,它永远超不过“老师”。
数据驱动本质上是“模仿学习”。
你给它看什么水平的驾驶数据,它就只能学到什么水平。它没法自己琢磨出“比人更优”的操作。遇到一个连老司机都没处理过的极端情况,它自然也无计可施。
这些问题,光靠堆数据、堆算力解决不了。行业里越来越多的人意识到,必须从“死记硬背”转向“真正理解”。
三、知识驱动的钥匙:大模型带来的“理解力”
怎么让车真正理解路况?
答案是多模态大语言模型。这种模型不仅能处理文字,还能看懂图像、听懂声音、理解激光雷达的点云。
它给了自动驾驶一个“大脑”。
以前,摄像头看到的画面、雷达扫描的点云、导航地图上的文字信息,都是各自为政,系统很难把它们融会贯通。
而多模态大模型可以把这些不同来源的信息,全部映射到同一个“理解空间”里。就像人一样,眼睛看、耳朵听、脑子想,综合判断。
有了这种理解能力,车就不再是简单模仿了。它开始学会推理:看到前方一个皮球滚出来,它能推断出后面大概率会追出来一个小孩;看到远处有施工警示牌,它能意识到需要减速并准备绕行。
这种基于常识的推理,是纯数据驱动永远做不到的。
于是,VLA模型(Vision-Language-Action,视觉-语言-动作模型)应运而生。它把多模态大模型和端到端框架结合在了一起。
简单说,就是让车先“看懂并理解”场景,再根据理解去操作。这一下,处理长尾场景、做出合理决策、甚至向乘客解释“我为什么要刹车”,都成了可能。
以前我们拼的是“车能不能自己动起来”,现在拼的是“车能不能像人一样思考着动”。
端到端只是一个容器。里面装的是“死记硬背”还是“真正理解”,决定了它能走多远。而VLA为代表的知识驱动方案,正在把这个天花板越抬越高。
未来,我们可能不再争论“端到端”还是“模块化”,而是讨论“这辆车有多懂路况”。当车真的能看懂、听懂、理解这个世界,自动驾驶的春天,才算真正到来。