当前位置：首页>自动驾驶>Fast-dDrive:扩散VLM自动驾驶推理提升12倍

Fast-dDrive:扩散VLM自动驾驶推理提升12倍

2026-06-08 16:53:45

今天给大家带来一篇把自动驾驶VLM精度和速度双双拉满的论文——Fast-dDrive，用块扩散替代自回归或全序列扩散，直接在结构化输出上搞“分节扩散”，推理快了12倍，精度还刷了榜。

🔑关键方法
1️⃣ 分节对齐块扩散：将自动驾驶的JSON输出（关键物体、解释、行为、轨迹）按语义分成四个块，块内双向注意力并行去噪，块间严格因果防止“逻辑泄露”，还能复用KV缓存。
2️⃣ 脚手架推测解码：模板令牌（键、标点等占30%）直接冻结成脚手架，自动接受不推理；仅对值令牌做MDM草稿+AR验证，一次草稿并行出多个令牌，再由AR头顺序验证，接受率超高。
3️⃣ 共享前缀测试时扩展：前三个节（因果、解释、行为）确定性子首次解码后共享KV缓存，只对轨迹节用随机采样做N次rollout并平均，额外计算成本极低，却显著压低预测方差。

💡核心创新
1️⃣ 结构感知脚手架扩散：利用固定JSON模板，预填充所有结构令牌并永不被遮罩，保证输出100%格式正确，同时将去噪工作量减少~30%。
2️⃣ 安全优先训练（SASD）：对轨迹和行为节分配更高损失权重（3.0和2.0），并给不同节配独立Beta噪声调度，让模型把更多容量押在安全关键位置，推理零开销。
3️⃣ 自推测解码+节对齐的联合训练：同时优化扩散头（MDM）和自回归头（AR），一个模型既能纯扩散跑，也能用推测解码加速，且精度与纯自回归等价。

📊实验效果
✅ 在WOD-E2E测试集上，ADE@3s和ADE@5s均为最优，RFS在扩散VLM中最高，超越dVLM-AD和多项自回归基线。
✅ 在nuScenes验证集上，平均L2误差0.32米（相比此前最佳提升22%），甚至超过不少传统规划器。
✅ 集成SGLang后，单张H100上吞吐量达608 tokens/s，对比自回归基线加速12倍，而精度丝毫无损。

论文：Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

欢迎投稿！欢迎合作！