在自动驾驶技术飞速发展的今天,端到端模型因其能直接从传感器输入生成驾驶决策的优势备受关注。然而,传统端到端模型过度依赖单一专家轨迹,在复杂交通场景中常常显得"力不从心"。来自科研团队的最新成果——DistillDrive框架,通过创新的知识蒸馏技术,成功让端到端模型学会了多样化的驾驶决策,在nuScenes和NAVSIM数据集上实现了碰撞率降低50%的惊人突破!
论文信息
题目:DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model
基于同构异源规划模型的端到端多模态自动驾驶蒸馏
作者:Rui Yu, Xianghang Zhang, Runkai Zhao, Huaicheng Yan, Meng Wang
自动驾驶决策的三大挑战
当前端到端自动驾驶模型面临着难以逾越的性能瓶颈,主要源于三个核心问题:
- 单模态学习局限:仅依赖单一专家轨迹进行模仿学习,无法应对交通场景中存在的多种合理驾驶方案
- 状态依赖陷阱:过度依赖自车状态信息,缺乏对场景状态与决策空间关系的深度理解
- 运动引导缺失:未能建立有效的运动特征交互机制,难以捕捉复杂交通参与者的行为模式
如图1所示,传统感知解耦的规划模型(图1a)虽在闭环性能上占优,但存在感知与规划的耦合障碍;而端到端模型(图1b)虽简化了流程,却受限于单模态学习。DistillDrive(图1c)创新性地通过知识蒸馏架起了两者之间的桥梁。
图1:不同自动驾驶框架对比(a)感知解耦规划模型(b)传统端到端模型(c)DistillDrive框架
DistillDrive:多模态知识蒸馏的创新架构
DistillDrive的核心设计在于构建了"教师-学生"的知识蒸馏体系,通过多模态规划模型(教师)指导端到端模型(学生)学习丰富的驾驶决策知识。其整体架构如图2所示,主要包含三个关键模块:
图2:DistillDrive整体架构图
1. 基于逆强化学习的教师模型
教师模型专为提取多样化规划知识设计,包含:
- 双编码器结构:智能体编码器处理动态目标(车辆、行人等)的运动特征,场景编码器解析静态道路结构(车道线、道路边缘等)
- 多模态规划解码器:通过轨迹聚类生成多样化规划实例,捕捉不同场景下的合理驾驶方案
- 强化学习优化:结合逆强化学习(IRL)和Q学习,构建状态到决策的映射关系,提升模型对复杂场景的适应能力
教师模型不仅能输出多条合理轨迹,还能学习到不同场景下的驾驶奖励机制,为学生模型提供丰富的监督信号。
2. 运动引导的学生模型
学生模型采用端到端架构,重点强化了运动特征的学习:
- 稀疏场景表示:保留高效的时序稀疏特征结构,确保感知信息的完整性
- 生成式分布交互:如图3所示,将专家轨迹和自车/智能体特征抽象为高斯分布,通过分布级交互学习运动先验知识
- 多尺度特征融合:利用GRU和MLP实现不同层级特征的动态交互,增强模型对复杂交通场景的理解
图3:生成式模型的分布交互机制
这种设计让学生模型摆脱了对单一轨迹的依赖,能够学习到更通用的运动规律。
3. 多阶段知识蒸馏方案
为实现教师知识向学生的高效传递,DistillDrive设计了分层蒸馏策略:
- 编码器蒸馏:对齐师生模型的底层特征,确保基础感知能力的一致性
- 解码器蒸馏:通过专门设计的适配器层处理模型异构性,传递高层语义特征
- 运动属性蒸馏:监督多模态分类概率分布,确保学生模型学到教师的决策偏好
通过这种多阶段蒸馏,教师模型的丰富知识被完整地迁移到端到端学生模型中。
实验验证:性能提升显著
研究团队在nuScenes和NAVSIM两个主流数据集上进行了全面验证,结果显示DistillDrive性能全面超越现有基线模型。
在nuScenes数据集的开环评估中,DistillDrive与SparseDrive相比:
NAVSIM数据集的闭环仿真结果(表2)更能体现其实际应用价值:
表2:NAVSIM数据集上的闭环性能对比
定性分析(图4)展示了DistillDrive在不同场景下的出色表现:
图4:nuScenes数据集上不同场景的规划结果可视化
在NAVSIM数据集的复杂场景中(图5),DistillDrive展现出应对实际交通挑战的能力:在拥堵路况下成功实现安全超车,而基线模型则因保守决策导致任务失败。
图5:NAVSIM数据集上的复杂场景规划对比
消融实验:核心模块的贡献分析
为验证各组件的有效性,研究团队进行了详细的消融实验:
- 强化学习模块:单独使用可使碰撞率降低20%,显著提升决策安全性
- 生成模型:通过分布对齐机制,使轨迹预测精度提升6%
- 知识蒸馏:编码器和解码器蒸馏对性能贡献最大,是多模态学习的核心
如图6所示,t-SNE可视化结果证明DistillDrive成功学习到更紧凑且更具区分度的特征表示,验证了多模态蒸馏的有效性。
图6:不同模型的特征空间分布对比
总结与展望
DistillDrive通过创新的多模态知识蒸馏架构,成功解决了传统端到端自动驾驶模型的三大局限,为实现更安全、更鲁棒的自动驾驶决策提供了新的思路。其核心价值在于:
- 首次将解耦规划模型作为教师,为端到端模型提供多样化监督
- 利用生成式模型实现运动引导的特征交互,增强复杂场景适应力
未来,研究团队将进一步探索世界模型与语言模型的融合,以及更高效的强化学习方法,持续提升自动驾驶系统在动态复杂环境中的决策能力。DistillDrive的提出,不仅推动了端到端自动驾驶技术的发展,也为其他需要多模态决策的人工智能领域提供了有益借鉴。