引言:自动驾驶规划的“两难”困境
想象一下,你正驾驶汽车通过一个复杂的十字路口。前方有行人,左侧有车辆汇入,你需要瞬间规划出多种可能的行驶路线,并从中选出最安全、最流畅的一条。这正是高阶自动驾驶运动规划器面临的终极挑战:既要能想象出多种未来(多模态不确定性),又要在与环境的实时互动中保持稳定和可靠(闭环鲁棒性)。
目前的主流方法,如模仿学习,虽然能从人类驾驶数据中学到丰富的驾驶模式,但它就像一个只会“照葫芦画瓢”的学生,一旦遇到训练数据中没有的情况,就可能做出危险决策,因为它缺乏对“错误行为”的认知和纠正能力。而强化学习虽然能通过试错学习长期目标,但直接用它来优化一条高维、精细的车辆轨迹,就像用一把大锤去雕刻微雕,既不稳定,效率也极低。
如何让AI规划器既拥有丰富的想象力,又具备明智的决断力?来自学术界的最新研究《RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework》给出了一个巧妙的答案。
方法:分工明确的“想象家”与“裁判官”
RAD-2的核心思想非常直观:将复杂的规划任务分解,让两个AI模块各司其职。
首先,扩散生成器扮演“想象家”的角色。它的任务是基于当前看到的路况(如鸟瞰图特征),快速生成一篮子物理上可行的未来行驶轨迹候选。这些轨迹就像头脑风暴产生的各种点子,覆盖了直行、绕行、减速等待等多种可能性。这个模块通过大量人类驾驶数据预先训练,确保了其“想象力”的基础质量。
然后,RL判别器出场,它扮演“裁判官”的角色。它不负责生成轨迹,而是专门评估“想象家”提出的每一个方案。它会仔细分析每条轨迹与周围静态地图、动态车辆、行人的交互关系,预测执行这条轨迹长期来看是否安全、高效、舒适,并给出一个分数。
最终,系统只需执行得分最高的那条轨迹。这种“生成-评估-选择”的范式,巧妙地将高维轨迹生成问题,转化为了相对简单的轨迹排序问题。
创新点:三大技术支柱构建稳定系统
为了让这套系统高效、稳定地工作,RAD-2引入了三大关键技术创新。
第一是解耦的架构设计。让生成器和判别器独立优化,避免了传统方法中用一个目标同时优化所有参数带来的冲突和不稳定。生成器专注于扩大“技能池”,判别器专注于打磨“审美标准”。
第二是时间一致的强化学习算法(TC-GRPO)。自动驾驶决策是连续的,一个动作的好坏可能很久之后才能体现。RAD-2采用了一种“锁定执行”策略,一旦选择了一条轨迹,就在短时间内坚持执行它,这样后续的好坏结果就能更准确地归因于当初的选择,使得学习信号更加清晰。
第三是高效的“特征级”仿真器(BEV-Warp)。训练这样的系统需要海量的模拟驾驶数据,但传统的3D图形仿真速度太慢。RAD-2另辟蹊径,直接在车辆感知系统输出的“鸟瞰图特征”层面进行模拟。当模拟车辆移动时,系统不是重新渲染整个3D场景,而是对上一帧的特征图进行智能的“扭曲”和变换,从而合成出新位置的观测视图。这种方法利用了特征的空间变换特性,将仿真速度提升了数个量级。
结果:更安全、更高效的驾驶行为
实验证明,RAD-2框架显著提升了规划器的性能。在复杂的城市驾驶模拟中,与纯模仿学习的扩散模型相比,RAD-2规划出的轨迹表现出更高的安全性,能更有效地避免与障碍物的碰撞风险。
同时,在驾驶效率方面,RAD-2也优于基线模型。它规划出的轨迹更加平滑,跟车和变道行为更接近熟练的人类司机,减少了不必要的急刹和犹豫,从而提升了整体通行效率。
应用与展望:通向更智能的自动驾驶
RAD-2所展示的“生成-判别”协同框架,不仅适用于车辆轨迹规划,其思想可以扩展到更多需要复杂序列决策的机器人领域,如机器人臂的运动规划、无人机导航等。
更重要的是,它为解决“如何让生成式AI具备目标导向和纠错能力”这一更广义的难题提供了新思路。未来,结合更强大的世界模型和更丰富的仿真数据,这类系统有望让自动驾驶汽车在面对极端罕见场景时,也能做出既新颖又安全的合理决策。
总结
RAD-2通过引入一个分工明确的生成器-判别器架构,将强化学习的优化目标与扩散模型的强大生成能力成功融合。它像为自动驾驶规划器配备了一位天马行空的“创意总监”和一位严谨务实的“风险控制官”,两者协同工作,最终输出既多样又可靠的驾驶方案。这项研究为构建更安全、更类人的自动驾驶系统迈出了坚实的一步,也预示着生成式AI与强化学习深度融合的未来。