ReCogDrive——端到端自动驾驶强化认知框架

1. 研究背景与动机
端到端自动驾驶的挑战:现有的端到端自动驾驶系统在罕见和长尾场景下表现不佳,因为这些场景数据有限,且驾驶条件与训练数据差异较大。
视觉语言模型(VLMs)的局限性:虽然VLMs在大规模互联网数据上预训练后具有丰富的世界知识,但直接应用于自动驾驶存在以下问题:
预训练数据与真实驾驶数据之间存在领域差异。
语言空间与连续动作空间之间存在维度不匹配。
模仿学习(行为克隆)倾向于学习数据集中的平均行为,可能导致次优甚至危险的决策。
2. ReCogDrive系统架构
ReCogDrive通过以下三个核心组件来解决上述问题:
视觉语言模型(VLMs):利用VLMs的强大泛化能力和世界知识,通过大规模驾驶问答数据集进行预训练,使其适应驾驶场景。
基于扩散的轨迹规划器:将VLMs生成的离散语言表示映射到连续的动作空间,生成平稳的驾驶轨迹。
强化学习:通过模拟器辅助的强化学习,使模型能够探索更安全、更稳定的驾驶行为,而不仅仅是模仿专家演示。
3. 三阶段训练范式
ReCogDrive的训练过程分为三个阶段:
驾驶问答数据预训练:使用310万对高质量驾驶问答数据对VLMs进行微调,使其适应驾驶场景。
扩散模型训练:通过行为克隆(模仿学习)训练扩散模型,将语言表示转换为连续的驾驶轨迹。
强化学习微调:使用NAVSIM模拟器对扩散模型进行强化学习微调,优化轨迹生成,使其更安全、更稳定。
4. 实验与结果
数据集:使用NAVSIM数据集进行评估,包含1192个训练场景和136个测试场景。
评估指标:采用预测驾驶者模型分数(PDMS),综合考虑无责任碰撞(NC)、可行驶区域合规性(DAC)、碰撞时间(TTC)、舒适性(Comf.)和自车进度(EP)。
性能表现:
ReCogDrive在NAVSIM测试集上达到了89.6的PDMS,创下新的最高水平。
与之前的最高水平方法(如DiffusionDrive和WoTE)相比,ReCogDrive分别提高了1.5和1.2 PDMS。
与仅使用NAVSIM轨迹数据训练的基线方法相比,ReCogDrive提高了6.3 PDMS。
5. 消融研究
各组件的贡献:
仅使用NAVSIM轨迹数据训练的VLMs,PDMS为83.3。
加入驾驶问答数据预训练后,PDMS提升到86.2。
引入扩散规划器后,PDMS进一步提升到86.8。
最终,通过强化学习微调,PDMS达到89.6。#论文 #学术