当前位置：首页>自动驾驶>自动驾驶的降本增效革命:FastDriveVLA 如何让端到端开车又快又省?

自动驾驶的降本增效革命:FastDriveVLA 如何让端到端开车又快又省?

自动驾驶的"降本增效"革命

让端到端开车又快又省，FastDriveVLA 来了

开车这件事，人类做得行云流水——眼观六路、耳听八方，毫秒级反应。但让机器来开，麻烦就来了。

这两年的趋势是用 VLA 模型（Vision-Language-Action，视觉-语言-动作模型）做端到端自动驾驶——输入摄像头画面，输出方向盘和油门刹车指令，看起来简洁优雅。

然而问题在于：VLA 模型的视觉 token 太长了。

一辆车摄像头一拍，几十万甚至上百万个 token，GPU 算得手冒烟。所以很多车厂面临灵魂拷问：要么用大模型性能好但跑不动，要么用小模型跑得动但效果差。

今天要聊的这篇论文，刚刚被 AAAI 2026 接收，给出了一个漂亮的答案——

FastDriveVLA：用"前景优先"的思路剪枝视觉 token，在不牺牲驾驶安全的前提下，把计算成本砍到原来的几分之一。

典型的端到端自动驾驶模型，输入是 4-6 个摄像头的高分辨率图像，每个摄像头对应数十万 token。H100 跑一圈，延时几十毫秒——交通事故的判定窗口才几百毫秒，等不起。

现有 VLM（视觉语言模型）里的 token 剪枝方案，依赖两种思路：

换句话说，用在 ChatGPT 上的方法，直接搬到自动驾驶上，效果大打折扣。

FastDriveVLA 的核心创新，是一个叫 ReconPruner 的即插即用视觉 token 剪枝器。

它的设计哲学只有一个：前景信息优先保留，背景信息大胆丢弃。

人类司机开车时，99% 的注意力在前景目标上——前车、行人、红绿灯、路障。天空、路边植被、路侧建筑，大脑直接过滤掉了。

ReconPruner 学的就是这件事。

模型怎么学会分辨"前景"和"背景"？ReconPruner 用了一种自监督 + 对抗训练的思路：

MAE 风格像素重建：遮住一部分图像像素，让模型重建原始画面。如果某个 token 区域被遮住后模型重建得很准，说明这个 token 含的信息量低（背景）；反之说明是关键信息（前景）
对抗性训练：让一个判别器区分"前景 token"和"背景 token"，剪枝器学着骗过判别器，从而学会更精准地识别前景

这样做的好处是不需要人工标注——训练数据是自生成的，规模化成本低。