Fast-dDrive:扩散VLM自动驾驶推理提升12倍
今天给大家带来一篇把自动驾驶VLM精度和速度双双拉满的论文——Fast-dDrive,用块扩散替代自回归或全序列扩散,直接在结构化输出上搞“分节扩散”,推理快了12倍,精度还刷了榜。
🔑关键方法
1️⃣ 分节对齐块扩散:将自动驾驶的JSON输出(关键物体、解释、行为、轨迹)按语义分成四个块,块内双向注意力并行去噪,块间严格因果防止“逻辑泄露”,还能复用KV缓存。
2️⃣ 脚手架推测解码:模板令牌(键、标点等占30%)直接冻结成脚手架,自动接受不推理;仅对值令牌做MDM草稿+AR验证,一次草稿并行出多个令牌,再由AR头顺序验证,接受率超高。
3️⃣ 共享前缀测试时扩展:前三个节(因果、解释、行为)确定性子首次解码后共享KV缓存,只对轨迹节用随机采样做N次rollout并平均,额外计算成本极低,却显著压低预测方差。
💡核心创新
1️⃣ 结构感知脚手架扩散:利用固定JSON模板,预填充所有结构令牌并永不被遮罩,保证输出100%格式正确,同时将去噪工作量减少~30%。
2️⃣ 安全优先训练(SASD):对轨迹和行为节分配更高损失权重(3.0和2.0),并给不同节配独立Beta噪声调度,让模型把更多容量押在安全关键位置,推理零开销。
3️⃣ 自推测解码+节对齐的联合训练:同时优化扩散头(MDM)和自回归头(AR),一个模型既能纯扩散跑,也能用推测解码加速,且精度与纯自回归等价。
📊实验效果
✅ 在WOD-E2E测试集上,ADE@3s和ADE@5s均为最优,RFS在扩散VLM中最高,超越dVLM-AD和多项自回归基线。
✅ 在nuScenes验证集上,平均L2误差0.32米(相比此前最佳提升22%),甚至超过不少传统规划器。
✅ 集成SGLang后,单张H100上吞吐量达608 tokens/s,对比自回归基线加速12倍,而精度丝毫无损。
论文:Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving
欢迎投稿!欢迎合作!