当前位置：首页>自动驾驶>面向多目标兼容自动驾驶的混合动作强化学习

面向多目标兼容自动驾驶的混合动作强化学习

2026-04-23 06:02:52

编者按：本文提出了一种基于混合参数化动作空间的多目标集成评论家（HPA-MoEC）强化学习方法HPA-MoEC，能够高效学习多目标兼容的自动驾驶策略。该方法采用多个奖励函数引导不同的集成评论家分别关注特定驾驶目标。同时，框架引入了混合参数化动作空间，可同时生成适应混合道路形态的高层抽象引导与底层具体控制命令。此外，本文还设计了一种基于不确定性的探索机制，以加快多目标兼容策略的学习过程。在仿真交通环境和HighD数据集中对策略进行了训练与测试。结果表明，HPA-MoEC能够有效学习在效率、动作一致性和安全性之间兼顾的自动驾驶策略。

本文译自：

《Hybrid Action-Based Reinforcement Learning for Multiobjective Compatible Autonomous Driving》

文章来源：

IEEE Transactions on Neural Networks and Learning Systems, 2026

作者：

Guizhe Jin1, Zhuoren Li1, Bo Leng*1, Wei Han1, Lu Xiong1, Chen Sun2

作者单位：

1同济大学汽车与能源学院，2香港大学数据与系统工程系

原文链接：

https://ieeexplore.ieee.org/abstract/document/11457031

摘要：强化学习在自动驾驶的决策与控制中已展现出优越性能，但由于驾驶本质是多属性问题，现有方法在多目标兼容性上仍面临挑战，尤其体现在策略更新与执行阶段。一方面，单一价值网络难以刻画复杂场景中耦合的多目标，限制策略优化能力；另一方面，单一类型动作空间要么降低驾驶灵活性，要么导致执行过程中的行为波动。为此，本文提出多目标集成评论家（MoEC）强化学习方法，并引入混合参数化动作空间（HPA）。该方法通过多个评论家分别建模不同目标，并生成同时包含抽象决策与具体控制的驾驶动作。此外，设计了基于不确定性的探索机制，以提升多目标策略的学习效率。实验表明，在仿真与HighD多车道场景中，该方法在效率、行为一致性与安全性方面均取得了良好表现。

关键词：运动规划，多目标优化，混合动作，强化学习，自动驾驶

Ⅰ 引言

强化学习（Reinforcement Learning，RL）在解决时序决策问题方面具有良好潜力[1]，能够为复杂任务学习到可行且接近最优的策略[2]。RL智能体通过与环境交互进行策略探索，从而实现自我提升[3][4]。自动驾驶问题本质上是一个复杂的序贯决策问题[5][6]，因此RL被认为是解决其决策与控制问题的有效方法[7]。尤其是结合神经网络技术的深度强化学习（Deep Reinforcement Learning，DRL）[8]，已在多种驾驶场景中得到广泛应用[9]，并在某些任务上表现出超越人类驾驶员的能力[10]。

然而，现有RL方法在实现关键驾驶目标（如安全性、效率和行为一致性）的兼容性方面仍存在若干局限性[11][12]。具体而言，在处理多属性驾驶任务时，主流基于RL的自动驾驶方法在策略更新与策略执行两个方面均存在不足：

1）在策略更新方面，大多数方法依赖单一评论家（价值网络）进行评估与学习引导，这使得在大规模、复杂交通状态空间中高效探索多目标兼容策略变得困难。

2）在策略执行方面，多数方法采用单一类型动作空间来处理混合道路形态，这限制了策略对真实驾驶行为的表达能力，并迫使不同目标之间进行权衡取舍。

在策略更新方面，采用单一评论家（即单一奖励函数）来评估策略性能，难以刻画各驾驶目标之间的强耦合关系及潜在冲突。当将自动驾驶任务的多种属性融合为单一奖励函数时，智能体在训练过程中可能会对某些属性产生偏置关注[11]，从而在特定状态下忽视其他目标，导致价值估计不准确以及策略性能次优。这种问题会使智能体的行为偏离多目标预期，例如为追求速度而过于激进，或为确保安全而过度保守。相比之下，多目标强化学习通过构建奖励向量[13]，能够更有效地实现多目标之间的兼容性。此外，复杂交通状态空间对策略更新中的探索效率提出了更高要求。现有大多数基于RL的自动驾驶方法依赖随机探索，这使得智能体难以主动发现未知区域及潜在优策略[14]。这种随机探索往往带来大量冗余经验，对策略改进贡献有限，从而导致收敛效率低下，甚至陷入局部最优。

在策略执行方面，采用单一类型动作空间来生成驾驶行为（无论是抽象决策还是具体控制）都会带来局限：离散动作缺乏灵活性，而连续动作则往往缺乏一致性。常见做法是让智能体输出离散的长期驾驶目标，例如语义决策[15]或路径规划中的目标点[16]。然而，由于智能体并不直接控制车辆运动，其对驾驶行为的灵活适应能力受到限制。尽管这种方式有助于提升行为一致性，但会降低对动态环境变化的响应能力。相反，直接输出短期控制指令[17]虽然提升了灵活性，但往往导致行为一致性不足，表现为频繁波动以及对环境变化的突发性反应。

为缓解典型多目标自动驾驶任务中策略更新与策略执行的局限性，本文提出了一种基于混合参数化动作空间的多目标集成评论家强化学习方法（Multiobjective Ensemble-critic Reinforcement Learning Method with a Hybrid Parametrized Action space，HPA-MoEC），以实现多目标兼容性。HPA-MoEC采用面向自动驾驶任务的多目标强化学习（MORL）架构。通过定义多个奖励函数对不同驾驶属性进行解耦，并由对应的评论家分别关注特定驾驶目标，从而辅助策略网络学习多目标兼容的驾驶行为。该架构进一步融合了混合参数化动作空间结构，由离散动作集合及其对应的连续参数构成，使生成的驾驶行为同时包含抽象决策指导与具体控制指令。此外，利用集成评论家提供的不确定性估计，引导智能体探索更具潜力的策略，从而提升在未知环境中的探索效率。基于仿真环境及HighD数据集构建的多车道高速公路场景的评估结果表明，HPA-MoEC能够高效学习多目标兼容的驾驶行为，在驾驶效率、行为一致性以及安全性方面均取得显著提升。本文的主要贡献总结如下：

1）提出了一种兼容多种自动驾驶目标的MORL架构，其中集成评论家通过独立的奖励函数分别关注不同目标。考虑到自动驾驶的安全关键属性，本文定义并建模了两个核心驾驶目标，并由两个评论家分别进行评估：一个关注整体性能（包括交互性），另一个专注于安全性。通过对安全目标的独立建模，实验结果验证了该架构在安全性能上的显著提升。

2）设计了一种混合参数化动作空间结构，以适应混合道路形态，并同时融合细粒度决策指导与控制指令。该动作空间由离散动作及其对应的连续参数组成，可同时生成抽象决策和具体控制输出，从而提升驾驶灵活性并减少行为波动，实现驾驶效率与行为一致性的兼容。

3）提出了一种基于认知不确定性的探索机制，以提升学习效率并与混合动作空间形成互补。通过根据不确定性及其变化趋势动态调整探索方向与幅度，鼓励智能体更快速地探索高不确定性区域，从而发现潜在有效策略。该机制显著提高了多目标兼容策略的学习效率。

Ⅱ 相关工作

自动驾驶（AD）任务涉及在动态环境中做出复杂的序贯决策，因此可以被建模为马尔可夫决策过程（MDP）[18]，[19]。MDP通常表示为一个五元组，其中为状态空间，为是动作空间，为奖励函数，为状态转移函数，是折扣因子。在时刻，强化学习智能体根据状态选择动作，随后从环境中获得奖励，并按照转移函数转移到下一状态。智能体的目标是通过试错找到一个最优策略，以最大化期望奖励。

A.多目标策略评估

对于自动驾驶问题，需要同时考虑多种驾驶“属性”，因此策略必须具备多目标兼容性。这些目标之间往往存在冲突，例如安全性与行驶效率之间的权衡[9]。目前最常见的设计方式是将所有属性线性组合为一个单一的加性奖励函数，用于策略评估[20]，通常基于主流强化学习算法实现，如深度Q网络（DQN）[21]和软演员–评论家（SAC）[22]。具体而言，该线性奖励函数中的权重通常通过多次试错后人工设定[23]，或者通过对人类驾驶示例进行逆强化学习（inverse RL）来获得[24]。然而，在这种线性假设下进行策略评估可能是不准确的，因为具有最高奖励的动作未必对应于实现多目标兼容驾驶的最优行为[13]，[25]，从而导致策略性能下降[26]。此外，使用单一评论家（critic）来同时表征多种属性奖励，会强制学习一个统一的价值表示，这种表示往往无法准确刻画真实的价值函数，进而降低策略质量[27]。

近年来，MORL因其在处理涉及多个且往往相互冲突目标的复杂决策问题中的优势而受到广泛关注[25]。典型的MORL方法通常采用多评论家（multi-critic）架构，以实现多目标兼容的策略更新[13]，[28]，[29]，[30]。具体而言，通过定义多个奖励函数，将关键驾驶属性从单一奖励函数中解耦，并将每个属性视为独立的评估目标[13]。已有多项自动驾驶相关研究验证了MORL在驾驶任务中的优势，例如通过引入安全性[28]、效率[31]和舒适性[29]等目标来提升整体驾驶性能。此外，Srinivasan等人[30]提出了预训练的安全评论家，用于引导策略朝更安全的动作方向演化。然而，现有主流MORL方法大多基于传统强化学习算法构建，通常仅支持单一形式的动作输出，这在一定程度上限制了驾驶行为的多目标兼容性。此外，复杂的奖励函数设计也使得智能体在训练过程中需要消耗更多的时间和计算资源以实现充分探索。基于上述问题，本文提出HPA-MoEC，一种先进的MORL架构。该方法融合了新型混合动作空间设计，并通过基于集成评论家的认知不确定性建模来增强策略探索能力与学习效率。相较于现有MORL方法，HPA-MoEC在混合道路场景中实现了更高效且更优的多目标学习性能。

B.动作空间构建

当前许多基于强化学习的自动驾驶方法采用单一类型的动作空间来控制车辆，这不能与高的驾驶灵活性和小的行为波动相兼容。一方面，部分研究采用离散动作空间来生成抽象的行为决策，从而提供间接指导车辆控制的长期目标。例如，Nageshrao等人[32]和Li等人[33]基于DQN及其改进方法生成语义化的横向动作，如向左或向右变道。此外，Wolf等人[34]和Chen等人[35]引入了纵向离散的加速与减速动作。为了提供更明确的控制指引，还有一些研究从离散轨迹集合中进行选择[36]，[37]，或直接生成目标点的位置与期望速度[16]。然而，这类方法通常需要依赖基础控制器对高层决策进行转化，导致智能体输出与实际驾驶行为之间的对齐性降低，从而限制了控制灵活性。另一方面，也有研究[38]，[39]直接在连续动作空间中输出横向转向角和纵向加速度，以提升控制的灵活性。然而，由于神经网络输出存在波动，这类方法容易引发转向角与加速度指令的频繁变化[40]。在具有车道约束的场景中，转向角波动会导致车辆轨迹不可预测，进而影响行驶稳定性。[17]的实验结果进一步验证了驾驶行为波动问题的存在。相比之下，纵向加速度的波动更易于控制，同时能够支持更灵活的速度规划[41]。

为在驾驶灵活性与行为稳定性之间取得兼容，一些研究通过构建混合动作空间来弥补单一动作表示的不足。例如，部分方法通过对连续动作空间进行离散化处理[42]，[43]，或采用参数化动作空间[17]，[41]，[44]，从而同时生成横向离散的抽象决策目标以及纵向连续的加速度控制指令。此外，Peng等人[45]提出了双层决策控制模型，将并行的DQN与深度确定性策略梯度（DDPG）相结合，实现混合动作输出；Gurses等人[46]则针对不同驾驶目标训练技能智能体以输出加速度，并由DQN进行灵活选择。然而，上述方法在离散与连续动作的深度融合方面仍然不足，同时也未能充分考虑复杂驾驶环境中道路结构的“混合模态”特性。相比之下，本文提出的新型混合动作空间针对自动驾驶任务进行专门设计，在提供与混合道路结构相匹配的抽象行为引导的同时，输出连续且可执行的具体控制指令，从而实现更高效、更稳定的驾驶决策与控制统一。

C.策略探索机制

策略探索是智能体发现潜在多目标兼容策略的关键机制。合理的探索策略能够加速学习过程，使策略更快收敛至可行解[47]。然而，当前强化学习中最常见的探索方式仍然是随机探索，例如DQN中的-greedy策略[48]、TD3中的随机噪声注入[49]，以及SAC中的最大熵机制[22]。这类随机化机制缺乏明确的探索方向，容易导致经验样本的重复采集，从而降低训练效率[50]。尽管部分研究尝试通过引入新颖状态奖励[51]或基于奖励误差的调节机制[52]来改善探索行为，但本质上仍未摆脱随机探索的范式。因此，在复杂交通场景中，尤其是在追求多目标兼容性的任务中，这种低效的探索机制会显著限制策略性能的上限。此外，一些研究[53]通过奖励塑形来引导探索，但这类方法通常依赖于人工经验设计，缺乏泛化性与鲁棒性。

相比之下，另一类方法利用模型集成技术来刻画认知不确定性[54]，[55]，并通过选择具有高不确定性的动作，引导智能体探索潜在高价值区域[56]，[57]，从而提升训练效率。然而，在自动驾驶任务中，利用认知不确定性来提升策略学习效率的研究仍然较为有限[58]。基于上述分析，本文提出一种基于认知不确定性的探索机制，结合多重集成评论家并适配混合动作空间，从而实现多目标策略的高效学习与快速收敛。

Ⅲ 方法

A.总体框架

本文提出的方法基于一种混合参数化动作空间，用于策略评估与改进，并同时考虑多目标以实现多目标兼容性。因此，MDP可以被重新表述为如下新的元组形式：，其定义如下：

1）表示混合参数化动作空间，其中。表示从离散动作集合中选取的离散动作选项，表示与该离散动作对应的连续动作参数，其取值来自于与对应的连续空间。

2）表示一组有个奖励函数，其中表示第个奖励函数，其中。

为了构建一种适用于混合道路结构的细粒度抽引导，所设计的混合动作空间使智能体能够同时输出离散动作和连续动作参数，从而在两者层面均实现最优性。这些输出随后被用于生成引导与具体控制指令。即横向控制通过将引导与先验知识相结合来生成，而纵向控制指令则直接由连续参数导出。

为此，设计了多目标集成评论家（MoEC）框架，该框架以各类属性作为评估目标，并引导智能体在高不确定性区域进行探索。具体而言，该框架由个协同工作以完成策略评估，其中每个评论家关注不同的属性。同时，每个集成评论家内部包含个子评论家。通过集成评论家可以刻画认知不确定性及其变化趋势，从而用于引导探索方向。本文提出的HPA-MoEC方法整体框架如图1所示。

图1. 所提出的HPA-MoEC方法整体框架。该强化学习方法中的actor首先根据状态生成连续动作参数，随后将其与状态一同输入多目标评论家模块以进行价值函数评估。该模块由N个集成评论家组成，分别对应不同的属性目标，每个集成评论家内部包含M个子评论家。随后，探索策略模块从这些集成评论家中捕获认知不确定性，并据此选择最终的混合动作，从而提升训练效率。

B.策略和价值函数表示

在混合参数化行动空间下，最优策略的状态-行动值函数可由贝尔曼最优方程描述，如下：

HPA-MoEC由个集成评论家组成，每个集成评论家包含个子评论家，从而在价值函数评估中总计包含个评论家。具体而言，每个评论家都可以基于其关注的属性，对状态下动作的价值进行估计。设表示第个集成评论家中第个子评论家对应的最优价值函数：

其中，且。然而，在参数化动作空间中求解最优连续动作是一项具有挑战性的任务。为了解决这一问题，假设价值函数是固定的。在此假设下，优化连续动作的问题可以转化为确定从状态到动作的映射关系：。为逼近该映射关系，引入确定性策略网络，从而得到连续动作，其中网络参数为。同时，采用价值网络对价值函数进行逼近，其参数记为。在价值函数固定的假设下，参数化动作空间中的MDP可以被视为：在给定的条件下，对策略进行优化的过程。

具体而言，该过程可以通过双时间尺度更新规则[59]进行近似，其中参数的训练更新步长显著大于的更新步长。因此，可以表示为：

为了追求更高的回报，参考DQN[21]中的价值网络更新目标，单个评论家的更新目标是：

其中，和分别表示用于辅助更新评论家和策略的目标网络，其参数分别为和。

评论家的更新目标需要同时融合两类信息：一是基于集成评论家的属性视角，二是基于多目标兼容的整体性能视角。对于第个集成评论家，其在给定属性下对策略性能的整体评估可表示为其内部个子评论家输出价值的期望：

相应地，训练中本次集体批评的总体目标可表示为：

其中，表示所有的期望值。此外，策略的输出会根据权重对个集成评论家赋予不同的关注程度。因此，在整体层面上用于评估策略多目标兼容性的价值函数可以表示为如下形式：

其中，。在此基础上，HPA-MoEC中所有评论家的整体更新目标可以表示为：

其中，表示基于各集成评论家注意力权重的属性奖励加权组合，即。同时，表示加权后的综合价值函数。

因此，参数的更新不仅考虑该评论家自身的时序差分（TD）误差，还同时考虑同一属性下所有评论家的平均TD误差，以及所有评论家的整体TD误差。基于这三个方面，对应的损失函数定义如下：

本文在参数的损失函数中引入了一项引导项，该机制有助于确保同一集成评论家中的所有子评论家在参数更新时保持相似的方向。

总之，当更新参数时，最终损失函数说明了前面讨论的四个方面：

其中，表示损失函数向量，为对应的权重系数向量。通过对定义的损失函数进行反向传播，价值网络可以进行迭代更新。

更新策略的目标更简单，即通过最大化总价值函数找到多目标兼容的最佳策略

总体而言，策略参数以及任意评论家参数的更新过程如图2所示。

图2. 所提出的演员和任何评论家的网络参数更新过程。目标网络进行软更新。

C.不确定性评估和探索策略

认知不确定性反映了由于学习不充分而导致的智能体知识缺失，可通过集成评论家进行刻画[60]。在第个集成评论家中，各子评论家的评估结果差异越大，表明对应属性上的认知不确定性越高。第个属性的认知不确定性方差可表示为：

考虑到为实现多目标兼容性，不同集成评论家被分配了不同的关注权重，这些权重也用于计算智能体的整体认知不确定性。

在参数化动作空间中，被视为离散动作的参数。因此，对于任意动作对，其认知不确定性的变化可以通过梯度进行刻画。

此外，需要明确的是，表示在条件下，状态–动作对的认知不确定性；而在状态下环境的整体不确定性则表示为：

在认知不确定性引导下，智能体针对离散动作及其对应连续动作采用两种不同的探索策略，探索潜在的有效策略空间。对于连续动作，其最终执行的，由策略的输出以及共同决定。因此，理想的连续动作探索策略可以被表述为如下非线性连续优化问题：。然而，直接求解该优化问题在计算上代价较高。因此，通过构建一个有限的动作集合来近似该过程，其中。该集合基于策略的原始输出以及认知不确定性的梯度信息进行构造，从而将连续空间中高不确定性动作的选择问题离散化处理。

其中，表示在区间上的均匀分布。系数随训练过程逐步减小，其中，用于反映智能体在探索与利用之间的动态权衡。

类似地，最具探索性的离散动作是使认知不确定性最大的动作，即：。引入不确定性阈值，当不确定性较低时，促使智能体转而采用以奖励最大化为目标的贪婪策略。针对评论家网络的参数在训练初期是随机初始化的，其输出可能产生波动这一问题，采用概率化方法，而非直接选择具有最大不确定性的动作。具体而言，类似于Softmax函数，离散动作的选择概率由其不确定性值决定，且所有动作的选择概率之和为1。因此，离散动作的选择服从如下函数，即：。

其中表示选择各个动作的概率。

基于上述方法，本文在算法1中给出了HPA-MoEC的完整训练流程。

Ⅳ 实施

A.MDP构建

1）状态空间：适当的状态空间表示对于有效的政策学习至关重要。具体地，状态空间包括关于自我车辆的特征信息以及当前车道和相邻车道中的六辆周围车辆：

其中，自车在道路坐标系中的状态由六个变量组成：车道ID、纵向和横向位置、航向角以及纵向和横向速度。对于第辆周车，相关信息包括：存在标志、相对于自车的纵向和横向位置、航向角以及相对于自车的纵向和横向速度。值得注意的是，自车仅监测纵向观察范围内的周车。

2）混合参数化动作空间：针对具有混合道路结构的多车道场景，设计显式的混合参数化动作空间，包括：离散语义决策，连续路径参数和连续加速度控制。其中离散动作从集合中选取：，，，分别表示左换道、右换道、车道保持，为车道宽度。

在车辆运动学约束下，参数的取值范围为：

其中，为最小转弯半径，为最大制动加速度，加速度范围是。

接着引导路径生成，在每个时间步，智能体输出，路径通过多项式曲线生成：

其中，为未来时刻位置，为规划时域。多项式系数由线性方程组求解。引导路径由终点位置决定：。终点由RL输出决定：，。在路径生成之后，转向角通过Stanley算法计算，与加速度共同构成最终控制输入。

3）多目标奖励公式：将安全单独作为一个优化目标，并为其对应设计一个安全奖励函数，供一个集成评论家学习；其余属性则合并为一个通用性能奖励函数，由另一个集成评论家评估。

（1）安全奖励函数

安全奖励主要从两方面刻画：

其中，当自车冲出道路或与周车发生碰撞时；为其余情况；为自车与前车之间估计的碰撞时间（TTC）；为TTC的最大评估时长。

（2）通用性能奖励函数

通用性能奖励同时考虑效率、舒适性和交互性：

其中，为效率奖励，鼓励自车速度接近目标速度，同时加入低速惩罚项以减小自车减速对整体交通流的影响，其中为低速阈值；为舒适性奖励，约束转向角和的变化幅度，和分别为两种控制量的最大值；为交互奖励，用于惩罚自车对周围车辆运动造成的扰动，表示第辆周车的观测加速度，为其归一化上界，前面的系数表示该项的权重。

B.训练设置

本文在highway-env[61]中构建了一个三车道结构化道路场景，用于评估EV的多目标兼容驾驶能力。所有车辆随机初始化，周车的纵向和横向行为分别由IDM与MOBIL模型控制[20]，并可为逼近目标速度而择机换道，从而对EV形成动态交互扰动。交通拥堵程度采用V/C=0.5表征，以形成中等拥堵环境，在保证换道可行性的同时避免任务过度简化。

训练时，当时episode立即终止并重置环境；同时设置单回合时长上限为200 s。算法超参数见表Ⅰ。

除仿真环境外，本文还在HighD[62]数据集上进行了200个回合（episode）的测试，其中智能体控制随机选取的车辆，周车沿预定义轨迹运动。

图3. highway-env中的多车道高速公路环境示意图。

表Ⅰ 超参数。

C.对比模型

1）对比基线

为全面评估所提出的HPA-MoEC，本文将其与若干自动驾驶领域常用的强化学习方法进行比较。所有方法共享相同的训练与测试环境，以及相同的状态空间。主要区别在于：与HPA-MoEC不同，其余方法将多个驾驶属性耦合为单一奖励函数：，更重要的是，以下方法在动作空间与策略探索机制上存在差异：

1.DQN[21]：仅生成离散语义决策，并与PID控制器结合，将其转换为自车的执行策略。

2.SAC with Continuous Actions（SAC-C）[22]：仅输出连续控制量，包括横向转向角和纵向加速度，并通过向动作中加入高斯噪声增强探索。

3.SAC with Hybrid Actions（SAC-H）[22]：将SAC扩展到连续动作空间与离散动作空间联合输出，形式与HPA-MoEC类似。

4.PPO with Hybrid Actions（PPO-H）[63]：一种on-policy actor–critic算法，动作空间设计与SAC-H相同。

为保证公平比较和结论可靠性，所有方法采用相同的网络结构、学习率及其他关键超参数。对于各方法特有参数，本文在合理范围内进行广泛调参，并为每种方法选取最优配置。

2）消融模型

为进一步验证HPA-MoEC中各技术组成的有效性，本文设计了以下消融基线：

1.HPA-MoEC：本文提出的完整方法，包含全部三个技术组件。

2.HPA-Mo：在HPA-MoEC中移除第3个组件后，策略探索不再由不确定性引导；同时，每个目标仅由单个评论家评估，而非集成评论家。

3.HPA：移除第2个组件后，PPO仅保留一个评论家，用于评估同时考虑多属性的策略。实际上，该基线与文献 [20] 中的方法相近。

4.DA-M：移除HPA-Mo中的第1个组件后，该基线仅生成粗粒度离散语义动作。决策作为一种抽象的指导，与PID控制器相结合以输出转向角。实际上，该基线与[25]中的部分工作相似。

D.评价指标

为评估所提方法在多目标驾驶任务中的表现，本文针对每个episode采用以下指标：

1.平均奖励（Average Reward，）：AR定义为总奖励与episode长度之比，用于综合评估RL智能体的整体表现。

2.碰撞率（Collision Rate，，%）：碰撞通常由危险驾驶行为引起，因此可用于衡量策略的安全性。

3.平均速度（Average Speed，，）：EV的速度反映了智能体是否能够有效执行换道并提升驾驶效率。

4.换道次数（Number of Lane-Changes，）：NL在一定程度上表征EV的行为灵活性，并可结合AS一起分析效率提升的原因。

5.转向角方差（，）与加速度方差（，）：VS和VA分别反映车辆在横向与纵向控制上的波动程度，用于衡量驾驶策略动作的一致性与平稳性。

Ⅴ 结果和讨论

A.训练性能

图4. 我们方法与比较方法的培训过程量化为：（a）总奖励和（b）CR。

本节介绍了HPA-MoEC在这些场景中的实施细节，包括MDP制定、训练设置和基线模型。训练过程中，综合性能与安全性的学习曲线如图4所示。每种算法在不同随机种子下独立训练6次。从图4(a)的总奖励曲线及其方差分布可以看出，HPA-MoEC在策略波动更小的同时取得了更高奖励。这表明其对随机种子变化不敏感，能够更稳定地收敛到更优的综合性能。相比之下，SAC-H和PPO-H虽然获得了相近奖励，但整体表现仍逊于HPA-MoEC。SAC-C由于缺乏精细引导路径，仅直接输出纵向和横向控制量，因此奖励明显更低，驾驶性能较差。DQN仅依赖离散语义动作，奖励最低，说明单纯离散动作不足以应对复杂驾驶任务。

此外，当经验回放池中积累到满足训练要求的最小样本量后，HPA-MoEC 的策略提升速度明显快于所有基线。这种训练效率提升主要归因于认知不确定性驱动的探索策略，其能够更有方向性、更高效地探索潜在可行策略。需要指出的是，SAC-C因直接输出转向角控制，常出现驶离道路并提前终止episode的情况，因此其奖励曲线与其他方法差异较大。

如图4(b)所示，图中进一步给出了各方法训练过程中的碰撞率（CR）变化，并对收敛阶段进行了局部放大。结果表明，HPA-MoEC最终保持了较低的CR。这主要得益于其将安全目标从综合性能目标中解耦，并通过多目标策略评估结构使智能体更重视安全性。相比之下，SAC-H和PPO-H的CR略高，而DQN的CR最高。值得注意的是，尽管SAC-C在总奖励上表现较差，但其通过维持较低的CR优先保证了自车安全，这与其偏保守的跟驰行为有关。

B.测试性能

1）基于规则模型环境车辆的测试

图5. 基于规则的周围车辆的测试的度量分布：（a）AR，（b）AS，（c）转角方差和（d）加速度方差。

表Ⅱ 基于规则的周围车辆的测试结果。

图5的箱线图展示了测试阶段四类指标的分布情况，包括：平均回报AR（图5(a)）、平均速度AS（图5(b)）、转向角方差VS（图5(c)）以及加速度方差VA（图5(d)）；全部定量结果见表Ⅱ。

在基于规则的周车的测试中，HPA-MoEC在多项指标上表现最均衡。结果表明，AR由效率与安全共同决定，即更高AS和更低CR才能带来更优综合回报；同时，NL与AS 同反映效率相关驾驶风格，而VS与VA则表征横纵向控制波动的一致性。总体来看，HPA-MoEC取得最高AR，并在效率、动作平稳性和安全性之间实现了最佳折中。其通过更灵活的换道获得最高AS；相较SAC-H，AS提升13%，NL提升28%。同时，HPA-MoEC具有最小的VS和VA，说明参数化动作空间能够生成更平滑的引导路径与加速度控制。安全性方面，HPA-MoEC的CR仅次于SAC-C，显著优于SAC-H和PPO-H；其中，HPA相比二者的CR分别降低67%和69%。虽然SAC-C依靠保守策略获得最低CR，但明显牺牲了效率与动作一致性；DQN则因激进换道导致更高风险。综合而言，HPA-MoEC更符合自动驾驶对安全、效率与控制平稳性的多目标要求。

2）HighD数据集测试

图6. Highd数据集中测试指标分布。（a）AR，（b）AS，（c）转向角方差和（d）加速度方差。

表Ⅲ HighD数据集中的测试结果。

HighD数据集上的测试结果，包括各评估指标的分布和定量统计，分别见图6和表Ⅲ。在HighD数据集测试中，由于交通更稀疏，所有方法的性能均优于仿真场景，但HPA-MoEC依然保持最优表现。其获得最高AR，并凭借良好的加速度控制与灵活换道能力取得最高AS和较高NL；同时，引导路径机制有效降低了控制波动，使VS和VA维持在较低水平。安全性方面，HPA-MoEC将CR压低至0.01%。综合而言，HPA-MoEC在效率、动作一致性与安全性之间实现了最佳兼容，具备更高的实际部署潜力。

C.消融研究

1）训练表现

图7. 框架的训练过程，消融基线量化为：（a）总奖励和（b）CR。

图7表明，随着HPA-MoEC关键组件逐步移除，模型训练性能持续下降。HPA-Mo虽最终奖励接近HPA-MoEC，但收敛由约1400个episode延后至约1700个episode，说明基于认知不确定性的探索机制可将训练效率提升约18%。进一步移除多目标策略评估后，HPA的奖励下降且CR升高，表明该架构能够有效提升策略对性能与安全的兼容性。DA-Mo的奖励最低、CR最高，则说明混合动作空间及细粒度引导路径对增强策略执行能力、提升整体性能与安全性具有关键作用。

2）基于规则模型环境车辆的测试

图8. 基于规则的消融研究指标分布。（a）AR，（b）AS，（c）转向角方差和（d）加速度方差。

表Ⅳ 基于规则的周围车辆的的HPA-MoEC消融研究。

消融测试结果见图8和表Ⅳ。总体上，HPA-MoEC表现最优，且随着关键组件逐步移除，各模型性能持续下降。HPA-Mo虽收敛较慢，但测试表现仍接近HPA-MoEC，仅在AR和AS上略有下降；而移除多目标策略评估后，HPA的AR进一步降低、CR显著升高，且相比HPA-Mo几乎增加3倍，说明该模块对维持综合性能与安全性的兼容至关重要。DA-Mo表现最差，移除混合动作空间后，VS提高约25%，AS下降15%，CR上升100%，表明驾驶行为波动、效率和安全性均明显恶化。因此，细粒度引导下的混合参数化动作空间是实现多目标兼容驾驶的重要支撑，尤其有助于提升行为平稳性。

3）HighD 数据集测试

图9. 高密度数据集中消融研究的指标分布。（a）AR，（b）AS，（c）转向角方差和（d）加速度方差。

表Ⅴ HighD数据集中HPA-MoEC的消融研究。

各消融基线在HighD数据集上的测试结果见图9和表Ⅴ。其中，HPA-Mo在驾驶效率上略低于HPA-MoEC，但二者整体都表现出较好的驾驶性能。相比之下，HPA在AS和NL上明显落后于前两者，且CR更高。DA-Mo的表现则更差，并伴随明显增大的VS。这表明，在HighD场景中，多目标策略评估架构以及带引导路径的混合参数化动作空间依然能够有效提升策略在驾驶效率、动作一致性和安全性三者之间的兼容性。

D.讨论

图10. 训练过程中认知不确定性的变化，包括：（a）平均不确定性，（b）向左变道不确定性，（c）车道保持不确定性，（d）向右变道不确定性。

总体而言，本文提出的HPA-MoEC优于所有强化学习对比基线，其三项关键技术共同支撑了多目标兼容策略的学习。首先，混合参数化动作空间通过同时输出细粒度引导路径和直接加速度命令，增强了智能体动作与实际驾驶行为之间的对应关系，在保持行为灵活性的同时有效降低驾驶行为波动，尤其提升了动作一致性。其次，多目标策略评估架构将综合驾驶属性与安全属性解耦为独立目标，并分别构建对应的奖励函数与评论家网络，从而在策略学习过程中同步提升综合性能与安全性，体现出较强的多目标协调能力。此外，基于认知不确定性的策略探索机制能够加速多目标可行策略的收敛，显著提升训练效率。

值得注意的是，HighD数据集中的周车体现为真实人类驾驶行为，与仿真交通中的车辆行为存在明显差异。尽管HPA-MoEC仅在仿真环境中训练，但在面对陌生的真实风格周车时仍取得了较强表现，说明其具有良好的泛化能力与环境适应性。为进一步分析探索机制对认知不确定性的影响，本文引入基线“w/o EU-”。在该基线中，集成评论家虽然能够估计不确定性，但并不利用其指导探索，而是采用随机探索。图10表明，HPA-MoEC在训练早期具有更高的平均不确定性，但能够在后续探索中更快降低不确定性，说明相比随机探索，其不仅探索更充分，也能更快收敛到有效策略。进一步地，三种换道决策的不确定性变化趋势总体一致，其中左换道和右换道的不确定性均高于车道保持，表明换道行为本身具有更强的不确定性与潜在风险。

Ⅵ 结论和未来工作

本文提出了一种基于混合参数化动作空间的多目标集成评论家（HPA-MoEC）强化学习方法HPA-MoEC，能够高效学习多目标兼容的自动驾驶策略。该方法采用更先进的多目标强化学习架构，通过多个奖励函数引导不同的集成评论家分别关注特定驾驶目标。同时，框架引入了混合参数化动作空间，可同时生成适应混合道路形态的高层抽象引导与底层具体控制命令。此外，本文还设计了一种基于不确定性的探索机制，以加快多目标兼容策略的学习过程。我们在仿真交通环境和HighD数据集中对策略进行了训练与测试。结果表明，HPA-MoEC能够有效学习在效率、动作一致性和安全性之间兼顾的自动驾驶策略。消融实验进一步验证了各技术组件在提升多目标兼容性方面的作用。本文的一个局限在于，训练与测试场景主要限制在多车道高速公路环境中。尽管这种典型的结构化道路与匝道、交叉口等场景存在差异，但自车在这些场景中的核心驾驶目标总体相似，即：选择合适的行为目标并与周围车辆进行交互。二者的关键区别主要体现在状态空间设计上，即如何使强化学习智能体能够更全面地感知环境。因此，未来工作将考虑采用更高维的感知信息（如BEV图像）作为状态输入，以将HPA-MoEC扩展到更复杂的交通场景中。