自动驾驶的"降本增效"革命
让端到端开车又快又省,FastDriveVLA 来了
作者:饶工 | 2026年4月7日 | 来源:AAAI 2026
🚗 VLA 模型上车的三大"堵点"
开车这件事,人类做得行云流水——眼观六路、耳听八方,毫秒级反应。但让机器来开,麻烦就来了。
这两年的趋势是用 VLA 模型(Vision-Language-Action,视觉-语言-动作模型)做端到端自动驾驶——输入摄像头画面,输出方向盘和油门刹车指令,看起来简洁优雅。
然而问题在于:VLA 模型的视觉 token 太长了。
一辆车摄像头一拍,几十万甚至上百万个 token,GPU 算得手冒烟。所以很多车厂面临灵魂拷问:要么用大模型性能好但跑不动,要么用小模型跑得动但效果差。
💡 FastDriveVLA 的核心思路
今天要聊的这篇论文,刚刚被 AAAI 2026 接收,给出了一个漂亮的答案——
FastDriveVLA:用"前景优先"的思路剪枝视觉 token,在不牺牲驾驶安全的前提下,把计算成本砍到原来的几分之一。
🤖 问题一:token 太多
典型的端到端自动驾驶模型,输入是 4-6 个摄像头的高分辨率图像,每个摄像头对应数十万 token。H100 跑一圈,延时几十毫秒——交通事故的判定窗口才几百毫秒,等不起。
🤷 问题二:现有剪枝方法水土不服
现有 VLM(视觉语言模型)里的 token 剪枝方案,依赖两种思路:
- token 相似度:把长得像的 token 合并——但驾驶场景里,相似的像素可能一个是护栏一个是道路,完全不同语义
- 视觉-文本注意力:看 token 对文本指令的响应程度——但驾驶任务本质上不依赖语言输入
换句话说,用在 ChatGPT 上的方法,直接搬到自动驾驶上,效果大打折扣。
⚙️ 核心技术:ReconPruner
FastDriveVLA 的核心创新,是一个叫 ReconPruner 的即插即用视觉 token 剪枝器。
它的设计哲学只有一个:前景信息优先保留,背景信息大胆丢弃。
人类司机开车时,99% 的注意力在前景目标上——前车、行人、红绿灯、路障。天空、路边植被、路侧建筑,大脑直接过滤掉了。
ReconPruner 学的就是这件事。
训练方法:MAE 风格 + 对抗策略
模型怎么学会分辨"前景"和"背景"?ReconPruner 用了一种自监督 + 对抗训练的思路:
- MAE 风格像素重建:遮住一部分图像像素,让模型重建原始画面。如果某个 token 区域被遮住后模型重建得很准,说明这个 token 含的信息量低(背景);反之说明是关键信息(前景)
- 对抗性训练:让一个判别器区分"前景 token"和"背景 token",剪枝器学着骗过判别器,从而学会更精准地识别前景
这样做的好处是不需要人工标注——训练数据是自生成的,规模化成本低。
🔥 即插即用:一次训练,多处部署
最关键的一点:ReconPruner 训完以后,可以直接套用到任何使用相同视觉编码器的 VLA 模型上,不需要重训练。
这在工程上极其重要——想象一下,车厂有十几个基于同一个视觉编码器衍生的驾驶模型,用这一个剪枝器就能全部优化。
📊 实验结果
| 剪枝比例 |
碰撞率下降 |
违规率下降 |
计算量减少 |
| 25% |
8.3% |
12.1% |
~30% |
| 50% |
4.7% |
6.2% |
~55% |
| 75% |
1.9% |
2.8% |
~78% |
结论很明确:剪枝比例越高,计算节省越多,但性能损失也越大。实际落地需要在成本和效果之间找平衡点。在各个剪枝比例下,FastDriveVLA 均达到了 SOTA(最优效果)。
🔮 这件事为什么值得关注?
|
🚗
对车厂和 Tier1
端侧部署 LLM 成本直接下降,用不起大模型的车型也有了轻量化方案
|
|
🧠
对 AI 研究社区
"前景优先"思路可迁移到机器人、无人机等领域
|
|
📈
对行业趋势
端侧 AI 爆发年,模型压缩是绕不开的底层能力
|
💬 我的判断
这篇论文的核心价值不在于"把模型做小了",而在于重新定义了驾驶场景下"什么信息值得保留"——从相似度/注意力优先,转向前景信息优先。
这个思路有很强的迁移性。自动驾驶、机器人控制、无人机避障,本质上都是"在动态环境里找到前景目标并作出反应"的问题。
如果你在搞端侧 AI 部署,或者在研究VLM 效率优化,这篇论文值得找来细读。
📄 论文信息
顶会
FastDriveVLA — AAAI 2026 接收
作者:Cao et al.(北京理工大学等多机构)
原文链接:arXiv:2507.23318