自动驾驶的端到端规划,在过去一年里被三篇论文接连推上新高度。
ResAD、DiffusionDrive、DiffusionDriveV2,名字像三兄弟,但你要是以为它们只是V1、V2、V3的堆料升级,那就大错特错了。
我在深挖了这三篇论文之后,发现一个很有意思的现象:它们在用三种完全不同的武器,打同一场仗。
今天这篇文章,我不准备按论文顺序平铺直叙。我们换一个姿势——从“端到端规划到底死在哪三个痛点上”出发,看这三篇工作各捅破了哪一层窗户纸。
看完你会明白:谁解决了速度问题,谁解决了“学不会”的问题,谁解决了“候选集太烂”的问题。
痛点一:扩散规划太慢了,车上不能用
自动驾驶里用扩散模型做规划,最早的想法很直接:像生成图片一样,从一团噪声慢慢去噪出一条完美轨迹。
理想很丰满,现实很骨感。
去噪几十步,车载芯片直接卡成PPT。而且从纯噪声里凭空生成轨迹,太没“规矩”了——有时候生成一条蛇形走位,有时候生成一个根本不符合物理规律的路线。
谁来解决这个问题? DiffusionDrive。
它的思路极其聪明:不从头造轮子,给一个差不多的雏形,微调就行。
具体怎么做的?先用车库里的几千条真实驾驶轨迹,用K-means聚类出20个典型“走法”——比如左转类、直行类、右转类。这些就叫 anchor(锚点)。
推理的时候,模型不再从白噪声开始,而是从这20个anchor附近的小扰动出发,只去噪2步,就能输出一条高质量轨迹。
效果呢?
一句话总结:DiffusionDrive让扩散规划第一次在车上跑得起来。
痛点二:原始轨迹太难学,模型总是学歪
DiffusionDrive虽然快了,但它用的还是老一套——直接让模型预测原始轨迹坐标。
这有什么问题?
想象一下:一条4秒的轨迹,近处的点坐标变化小,远处的点坐标变化大。模型在训练的时候,远处那几个大数值的点,会轻松压过近处的小数值点。
后果是什么?模型学会了“大概齐”把远端走对,但近端的安全细节——比如要不要微调方向避开一个路沿——反而被忽略了。
这就像一个学生只做大题,不做小题,最后小题全错。
谁来解决这个问题? ResAD。
ResAD说:我们别直接预测“未来轨迹是什么”了,改问一个更聪明的问题——“为什么当前轨迹要偏离一个最自然的惯性轨迹?”
什么叫“最自然的惯性轨迹”?就是假设车子什么都不做,按照当前速度和方向盘角度,自然往前滑行出来的那条线。
模型要学的不是整条轨迹,而是偏离这条惯性线的残差。而且这个残差还会被归一化,让近端和远端的优化权重变得均衡。
打个比方:
哪个更容易学?显然是后者。
ResAD在相同的ResNet-34骨架下,直接把PDMS从88.1拉到88.8,就是这个道理。
痛点三:多模态候选集里混进了“害群之马”
DiffusionDrive虽然快,ResAD虽然稳,但它们都有一个共同的问题:
训练的时候,只盯着最像真实轨迹的那一条候选去优化,其他19条anchor生成的轨迹没人管。
结果就是:候选集里经常藏着一些压线的、碰撞的、或者过于猥琐的轨迹。虽然最终选路器不一定会选中它们,但万一选路器犯糊涂呢?
谁来解决这个问题? DiffusionDriveV2。
V2的思路是:既然只监督一个正样本不够,那就让强化学习的奖励信号来监督所有候选。
它用了类似GRPO(分组相对策略优化)的方法:
最后再加上一个coarse-to-fine的选择器,从粗到细地挑出最终轨迹。
结果呢?
在NAVSIM v1上,PDMS从88.1直接飙升到91.2。 这说明什么?生成器的能力没变,只是把候选质量整体拉高,闭环成绩就能大涨。
V2的启示很深刻:多模态规划的下一个战场,不是生成更复杂的轨迹,而是让整组候选都“健康”。
一张表看懂三篇论文的本质区别
| | | |
|---|
| 核心瓶颈判断 | | | |
| 解决思路 | | | |
| 改了什么 | | | |
| 类比 | | | |
| NAVSIM v1 PDMS | | | 91.2 |
演进路线:不是V1→V2→V3,而是一场“接力补位”
如果你把这三篇论文当成一个系列的三个版本,就完全理解错了。
真实的关系是:
DiffusionDrive先冲出来,解决了“能不能用”的问题(扩散规划实时化)。
ResAD没沿着它的路走,而是绕到后面,解决了“好不好学”的问题(轨迹表示重构)。
DiffusionDriveV2又回到DiffusionDrive的主线上,补上了“候选集质量不稳”的漏洞(RL约束)。
这就像修一条高速公路:
三者不是替代关系,而是互补关系。
下一代该往哪走?
读完这三篇,一个很自然的问题浮现出来:
能不能把ResAD的“残差轨迹表示”和DiffusionDriveV2的“RL候选约束”结合起来?
用ResAD的方式,让模型学得更稳、更物理可解释
用V2的方式,让候选集整体质量再上一个台阶
我猜,这会是下一篇顶会论文的方向。
另外还有一个开放问题:ResAD目前没有开源代码,很多想复现的人只能看着论文干瞪眼。希望作者能尽快放出代码,让社区在这个方向上继续迭代。
写在最后
如果你只记住三句话,我希望是这三句:
DiffusionDrive 告诉你:扩散规划可以快,给个先验就行。
ResAD 告诉你:有时候换个问题比优化答案更重要。
DiffusionDriveV2 告诉你:多模态规划的尽头,是让每一个候选都靠谱。
自动驾驶的端到端规划,远没有到终局。但这三篇论文,已经为我们画出了三条清晰的进化路径。
剩下的,就看后来者怎么把它们融合、超越、落地了。
|参考文献:
DiffusionDrive: https://arxiv.org/abs/2409.17013
ResAD: https://arxiv.org/abs/2510.08562
DiffusionDriveV2: https://arxiv.org/abs/2512.07745
NAVSIM Benchmark: https://github.com/autonomousvision/navsim