1)相较于基线算法,SafeLC-DelayDDPG算法能够在训练阶段最多提高首次避障成功率17.9%、连续避障成功率60.5%,证明了提出算法能够显著提升自车在复杂交通场景下的感知与决策能力,通过将局部观测、车道语义信息和自车全局状态有效融合的状态空间设计有效增强了环境感知与风险敏感性,在提升任务完成度和避障效率方面具备有效性。
2)相比基线算法,SafeLC-DelayDDPG算法训练阶段在安全性(2D-TTC)指标上提高了最多7.6%,平均速度提升最多2.1%,表明该算法通过引入2D-TTC为核心的奖励函数设计,成功地平衡了安全性与效率。特别是在高风险场景下,采用了条件化动态权重机制,有效使策略能优先保证安全,低风险时提升效率。
3)在36个测试场景中,相比基线算法,SafeLC-DelayDDPG首次避障成功率最高提升了25.9%,连续避障成功率最高提升44.1%,安全性指标值最多提升约9.8%,平均速度最多提升约0.6%,证明了算法在多场景复杂动态环境下具备适应性及高效性,在不同交通流形态与障碍物生成TTC设定下表现出了较强的鲁棒性和泛化能力,在训练未见过的场景中,算法依然能够保持较高的任务完成度。
后续研究可围绕不确定性与环境真实性展开。在AC连续控制框架下,可考虑显式刻画不确定性:一方面通过模型集成的方法表征认知不确定性,另一方面以概率输出或混合密度网络描述固有不确定性,并探索分布式/风险敏感强化学习对稳健性的潜在提升;考虑针对更复杂的突发动态障碍(急加减速、急转向、并线插入等)以增加任务难度;为增强仿真的外部有效性,还可基于真实数据集重建背景车流分布以贴近实测驾驶风格;在以上仿真设置的基础上引入感知噪声、执行器饱和与系统时延等工程因素,进行消融与鲁棒性评测。