DIVER强化扩散打破端到端自动驾驶中的模仿学习瓶颈
本篇论文出发点:
现有的端到端自动驾驶方法,主要以来单一专家轨迹进行模型学习,这往往导致驾驶行为保守且同质化,难以泛化到复杂的真实世界中。因此本文提出DIVER方案,讲基于扩散范式的轨迹预测与强化学习结合,以生成多样且安全的轨迹。本文主要贡献:
提出Policy-Aware Diffusion Generator(PADG)模块,该模块将地图元素与交通参与者交互作为条件输入,是生成的多模态轨迹能够刻画不同的驾驶风格提出一种新的多样新评测指标,用于评估多模态轨迹生成效果,相较于现有指标提供了一种更具原则性的评估方式DIVER 显著提升了轨迹多样性,有效解决了模仿学习中固有的模式坍塌问题。知识点介绍:
τ={(xt(m),yt(m))∣t=1,…,Tf;m=1,…,M}.M表示模态数量,通常为6个,最终轨迹从这些候选中通过评分函数进行选择,而候选轨迹之间的多样性(例如转弯、超车、跟车等)则用于推断自车可能采取的驾驶策略扩散模型的模态坍缩问题:在单一GT监督下训练的基于扩散的E2E-AD方法,尽管具有生成能力,但仍然继承了传统模仿学习的模式坍塌问题本文方法介绍:
本文提出的方法叫Policy-Aware Diffusion Generator,强调"策略生成",这与我们常用的轨迹生成稍有不同。比如diffusiondrive,用的是条件概率建模,训练的目标是模仿专家轨迹。PADG把扩散的过程视为随机策略,每一次去噪采样等价于一次policy sampling,多模态轨迹等价与policy中的action samples。下面我们具体看细节如上图DIVER 由两个主要组件组成:感知模块和运动规划模块。该系统以原始感知特征作为输入,并输出未来轨迹的分布,左边这部分我们再熟悉不过了,不赘述了,主要看中间部分PADG。输入:GT轨迹和预测轨迹,预测轨迹来自前面模型输出(推测是已经训好的sparsedrive模型输出的轨迹)模型训练部分:对轨迹进行加噪,DDPM方式加噪然后使用模型(Condition Diffusion Decoder)进行去噪,模型(Condition Diffusion Decoder)将环境信息当做条件学习噪声预测,对噪声轨迹进行去噪,得到去噪后的真值轨迹和预测轨迹,通过二分匹配,进行轨迹refine。需要补充的是,GT轨迹在去噪后还会增加Reference GT轨迹进行监督,目的是为了提升模型的探索能力,不至于模态坍缩。下图为Condition Diffusion Decoder具体结构“we sample reference GT trajectories from the empirical distribution of expert behaviors”,本文的构造方法是从相似场景/相似状态条件下从数据集中采样不同驾驶意图的专家轨迹。强化学习部分:环境状态s->Diffusion Policy πθ(去噪网络)->采样多条轨迹->计算轨迹reward->构造GRPO advantage->对πθ进行参数更新;推测:去噪时间步内每一步可以认为是一次状态转移,可以使用该强化训练。多样性奖励(Diversity Reward):通过最大化轨迹间距离来促进轨迹多样性,鼓励扩散模型探索更广泛的可行行为,而非坍塌到冗余模式安全奖励(Safety Reward):用于惩罚与静态或动态障碍物间距过小的预测路径。轨迹一致性奖励 (Trajectory Consistency Reward):鼓励当前规划的轨迹与上一时刻的轨迹保持平滑过渡,避免车辆出现不稳定的抖动。车道保持奖励 (Lane Keeping Reward):用于惩罚频繁或不必要的变道行为总结:
好的:评测的时候增加了轨迹多样性指标,这种之前论文很少有关注这块,下面两个公式主要做多样性评测,第一个公式,看模态和模态见的距离,距离越大值越大,但不同场景尺度可能不同如高速和路口,所以通过第二个人公式进行尺度归一化,这样保证不同速度/场景下是可比较的。- 最关键的部分,参考GT轨迹怎么构造的讲的不够细致,不透明;
- 强化学习是本篇论文的亮点,但文中只提了将diffusion model 视作 stochastic policy,用GRPO进行轨迹RL,没有深入讨论diffusion timestep 与 policy step 的对应关系,以及GRPO是否会破坏diffusion生成的稳定性?理论解释有些薄弱,有点强行加GRPO的嫌疑
- 工程方面:文章描述的有些绕,系统看起来也比较复杂,实际落地很难
《DIVER: Reinforced Diffusion Breaks Imitation Bottlenecks in End-to-End Autonomous Driving》
更多精彩内容,欢迎大家关注微信公众号“自动驾驶新视界”。