当前位置：首页>自动驾驶>TRB 2026.5|混合自动驾驶场景:宏微协同安全协调框架

TRB 2026.5|混合自动驾驶场景:宏微协同安全协调框架

2026-04-17 23:10:40

论文题目：Macro-Micro Synergistic Safety Coordination for Mixed-autonomy Traffic: A Trust and Risk-aware Multi-agent Framework

第一作者：Haitao Lin南京理工大学自动化学院，导师徐永能，研究聚焦自动驾驶、智能交通与轨道交通智能检测领域。

通讯作者：徐永能南京理工大学自动化学院教授，博士研究生，研究方向聚焦：重大交通基础设施或设备安全保障、无人运输系统协同控制与安全保障、轨道交通故障管理、关键设备系统RCM分析、轨道交通运营管理、轨道交通信号系统与主动安全、安全保障、轨道交通供电保与节能优化、精益化生产管理、轨道交通指挥调度、智能车辆等。

E-mail：x780906yn@163.com

混合自动驾驶场景：宏微协同安全协调框架

论文摘要

混合自动驾驶交通环境中，互联车辆（CAVs）与人类驾驶车辆（HDVs）共同运行，存在高维交互、部分可观测性和人类行为不确定性。传统的安全强化学习方法通常依赖静态安全约束，难以在动态多智能体场景中兼顾安全、效率与舒适。本文提出一种宏观‑微观协同的信任与风险感知多智能体框架（BiSafe‑MARL）：宏观层利用预测轨迹和条件价值风险（CVaR）构建空间风险热图，通过优化得到信任调控向量，从系统角度调节合作意愿；微观层利用强化学习结合长短期记忆网络（LSTM）对局部观测序列进行编码，动态调整奖励函数，并在安全层和风险触发机制保证实时安全。两层协同使各智能车辆在遵循整体风险指引下自主优化策略，实验结果表明该框架能显著降低碰撞率，提高行驶速度和乘坐舒适度。

一、研究背景与问题

1.1 背景与挑战

混合自动驾驶环境复杂：CAVs与HDVs共存，车辆行为多样且不可完全观察，高维交互导致风险评估困难。
现有安全强化学习局限：传统方法通常采用固定安全约束或简单的碰撞惩罚，缺乏对信任、合作意愿及长时预测风险的建模，难以适应动态环境。
研究目标：在保证个体安全的前提下，提高整体交通效率与舒适性；实现多智能体系统在动态风险场景中的协同决策与安全控制。

1.2 所解决的核心问题

如何在宏观层面评估和预测混合交通中的时空风险，并依据风险分配合作意愿？
如何在微观层面设计信任感知策略，使各智能车辆在局部不完全观测情况下既满足自身需求又遵循全局协同？
如何实时保证安全并预先应对潜在风险，通过控制屏障函数和前向可达集机制提供硬安全约束与主动风险触发？

二、宏微协同框架设计

2.1 宏观层：风险推断与信任调控

下图展示了宏观层架构，通过预测各车辆未来轨迹生成时空风险热图，并利用条件价值风险模型（CVaR）度量区域风险。系统通过求解优化问题在降低预期安全风险与提高合作效用之间取得平衡，输出个性化的信任调控向量。

关键点：

风险热图：根据多智能体预测轨迹估计碰撞概率，生成随时间变化的空间风险分布。
信任分配：通过优化问题最小化期望风险并最大化合作效用，为每个CAVs分配信任调控因子，用于调整微观层策略。
信任约束机制：引入信任惩罚项 , 鼓励个体策略接近宏观指导。

图2具体展示宏观层信任分配过程，包括风险热图生成、CVaR计算及信任向量求解。

2.2 微观层：信任感知策略优化

在宏观层的指导下，微观层负责各车辆的实时决策。每个CAVs仅能获取局部观测，使用LSTM编码过去帧信息生成隐藏状态。策略网络输入隐藏状态和信任因子，输出动作，经安全层过滤后执行。

LSTM编码：记忆过去步局部观测，捕捉交通动态。
信任调整奖励：奖励函数经信任因子调整为其中奖励个人驾驶平稳与速度追踪，鼓励合作（如保留距离和速度差），惩罚潜在碰撞。
训练方式：采用集中训练、分布执行的多智能体演员‑评论家算法；信任值每隔一定时间更新，强化学习策略同时考虑信任信号与局部奖励。

下图展示微观策略架构：LSTM编码历史信息，结合信任因子，通过策略网络输出动作，再经过安全层校验。

2.3 安全层与风险触发机制

2.3.1 控制屏障函数（CBF）安全层

为确保实时安全，微观层在原策略输出基础上加入控制屏障函数安全层。定义安全函数使得安全集合保持前向不变；通过求解二次规划（QP）使执行动作尽量接近原策略并满足安全约束：

其中为可行控制集，为类函数参数。该问题可转化为标准凸QP，利用可微求解器嵌入网络中，使安全过滤过程可参与反向传播。在多智能体场景下，还需考虑相邻车辆的成对CBF约束，保证最小安全距离。

2.3.2 前向可达集与风险触发

CBF层提供即时的“硬”安全保障，但面对快速变化的混合交通，还需提前预测潜在风险。论文提出基于前向可达集（FRS）和时间‑到‑碰撞（TTC）的风险触发机制：

TTC指标：对前车计算，若TTC低于阈值则认为存在碰撞危险。
前向可达集：在短期内预测自身可达状态集合，若与他车的可达集交集非空则标记风险。
触发条件：当TTC、可达集重叠或宏观风险CVaR超过阈值时，立即切换到安全优先策略，减小合作力度并优先保持车间距与减速。
可选人工接管：当持续高风险或多重碰撞威胁出现时，可激活人机协同或紧急制动，通过V2V广播风险。

该机制补充了CBF的反应式安全保障，使系统在风险出现之前采取措施，增强了鲁棒性。

2.4 整体工作流程与执行时序

整体模型将宏观风险推断、信任调控、微观策略优化、安全层与风险触发统一起来。首先构建混合交通场景，进行模型训练与评估，并通过敏感性分析调整CVaR置信度等参数。下图给出了整体工作流程示意图。

模型运行过程中，宏观层以较低频率同步更新信任向量，而微观层在各个决策周期异步执行动作。作者提供了微观异步与宏观同步的时间关系图，明确各层交互的时序关系（参见 Fig.6）。

三、实验设计与结果分析

3.1 仿真环境与设置

仿真平台：基于 SUMO 构建混合交通环境，以加拿大多伦多 QEW 高速公路片段作为场景来源。
道路结构：三条主线加一条匝道的城市快速路，在匝道处安排车辆合流与换道行为，以人为扰动信任动态。
车辆配置：设置三种 CAV 与 HDV 的比例（20%、50%、80% CAV），并分别设定低（350 veh/h）、中（700 veh/h）、高（1050 veh/h）三种交通密度。
评价指标：碰撞率（CR）、加速度变化率（jerk）衡量舒适性、平均速度评估效率、平均延迟衡量拥堵水平。
随机人类模型：HDV 模型引入反应时间、车间距阈值和期望车头时距的随机扰动，以模拟保守或激进驾驶。

下图给出了实验场景的道路布局和车辆配置示意。

3.2 结果分析

总体表现：与四种先进算法（SECRM‑2D、DMRL、SafeDrive、MAA2C）比较，BiSafe‑MARL 在碰撞率、速度和舒适性方面均保持领先。随着 CAV 渗透率从 20% 提升至 80%，该框架在三种交通密度下的绝对指标均呈单调改善，且相对于次优算法的提升均超过 2 个百分点。
安全性提升：与次优算法相比，BiSafe‑MARL 的碰撞率降低约 1.49%，表明宏观风险预测和信任调控有效减少潜在冲突。
效率提高：在中等密度下，平均速度达到 22.07 m/s，远高于 DMRL 等算法，且从中密度到高密度速度仅下降 0.66 m/s，显示出良好的拥堵适应性。
舒适性改善：jerk 值显著降低（1.39 ± 0.013），在不同密度下均优于其他模型。
延迟与恢复能力：平均延迟明显低于对比算法，且在突发事件后恢复时间更短，显示宏微协同提高了系统弹性（论文附表分析）。
敏感性分析：作者对 CVaR 置信度进行了敏感性分析，发现合适的置信度配置能在安全与效率间取得更优折中。

综合而言，BiSafe‑MARL 在各种场景下均保持稳定、优越的性能，同时展现良好的扩展性和对人类行为不确定性的鲁棒性。

四、结论与创新点

宏微协同机制：提出了将长期风险推断与实时控制结合的双层框架。宏观层使用 CVaR 风险热图和信任调控优化全局合作，微观层利用 LSTM 编码的局部状态执行信任感知策略，并通过 CBF 安全层和 FRS/TTC 触发提供实时安全保障。该机制兼顾预测性与反应性，确保系统在动态场景下安全高效运行。
信任驱动的奖励设计：引入信任因子调节合作与自利权衡，通过惩罚项限制个体策略偏离宏观指导；信任调整奖励函数促进个体与群体目标一致。
可微安全过滤：采用可微控制屏障函数 QP，将硬安全约束无缝嵌入深度网络，使策略训练与安全过滤兼容。
主动风险触发：设计基于 FRS 与 TTC 的风险检测，提前切换至安全策略或人工干预，有效避免单一反应式控制可能造成的迟滞风险。
显著实验优势：在复杂混合交通场景下，BiSafe‑MARL 显著降低碰撞率，提高平均速度和乘坐舒适度，表现出优于现有方法的综合优势。

本文为混合自动驾驶研究提供了一个结合预测、信任与控制理论的完整框架，为未来安全强化学习研究开辟了新方向。

文章须知
链上镖师团队：常文婕（AEIC）、张巧巧（AEIC)、王一航、夏子帆、张晓乐
原文链接：https://doi.org/10.1016/j.trb.2026.103445

原文链接见文末，或扫下方交流群二维码。群内实时更新推文及原文 pdf，方便专家学者随时获取（若二维码失效，请翻阅扫描最新文章的二维码）。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

TRB 2026.5|混合自动驾驶场景:宏微协同安全协调框架

论文摘要