当前位置：首页>自动驾驶>从“会开车”到“守交规”:自动驾驶决策的新一步

从“会开车”到“守交规”:自动驾驶决策的新一步

2026-04-17 23:49:33

点击蓝字关注我们

摘要

随着混合交通时代的到来，如何确保自动驾驶车辆在与人类驾驶员共同参与交通的过程中遵守交通法规，已变得愈发关键。现有决策方法大多侧重于安全性，而对交通法规的系统性遵从考虑不足，这使得车辆在复杂驾驶场景中可能出现违法行为。为弥补这一不足，本文提出了一种综合性的基于守法势场（LCPF）的方法。研究将交通法规约束系统地划分为四类势场，用以显式编码车辆状态、静态与动态环境要素以及合规阈值；同时进一步设计了一种新的势场融合策略，以有效解决多势场重叠时的畸变问题。最后，作者将构建得到的守法势场集成到基于模型预测控制的决策框架中，并设计了五类具有代表性的场景进行实验验证，其中还包括一个安全与守法发生冲突的关键场景。场景测试结果表明，该方法能够显著提升自动驾驶车辆的交通法规遵从能力，并且即使在具有挑战性的驾驶条件下，也能有效平衡安全性需求。

研究背景

本文的引言首先指出，自动驾驶车辆正在快速重塑现代交通系统，未来道路将长期呈现自动驾驶车辆与人工驾驶车辆混行的状态。在这种背景下，自动驾驶车辆若要真正融入既有交通基础设施，不仅要保证运行安全，还必须遵守既有道路交通法规；守法因而不再只是附加要求，而是关乎道路参与者安全、技术社会接受度及自动驾驶大规模落地的重要前提。作者随后系统回顾了自动驾驶决策框架的演进过程：从早期基于规则的决策，到近年来的数据驱动学习方法，再到逐步兴起的生成式人工智能辅助驾驶框架。尽管这些方法持续推动技术进步，但既有研究整体上仍然以“安全”为核心目标，对交通法规遵循往往只做高层抽象处理，或将其视作次要设计目标。在已有工作中，虽然规则书、可验证MPC、轨迹合规验证、可达集分析、多层决策与采样规划等方法都曾尝试处理守法问题，但它们往往难以把多类型交通法规统一转化为可直接嵌入运动规划优化中的约束表达；与此同时，学习型方法虽然在复杂交互场景中表现出良好的适应性，却往往以避免碰撞为主，对交通法规的表达多采用惩罚项、简单行为约束或层级强化学习等间接方式，导致可解释性不足、泛化不稳定，且难以处理让行规则、条件合规规则等具有复杂语义结构的法律约束。作者进一步指出，生成式人工智能特别是大语言模型和视觉语言模型在语义理解方面具有潜力，但若要让其真正指导自动驾驶车辆实现守法驾驶，仍然需要首先对交通法规中的语义约束与状态约束进行显式、集中的形式化识别。引言最后强调，目前研究仍较为碎片化，尚缺少一种能够跨不同规划架构复用、系统编码多样交通法规、并兼顾“最小违规代价”与运行安全的统一建模层。在此基础上，本文提出通过系统分析多类交通法规的形式约束，构建相应的守法势场模型，并设计平滑的多势场融合策略，在同一势场表示中显式平衡安全与守法。其中，图1给出了整套合规决策架构：上层将交通法规文本进行在线形式化表达，并进一步构造非法行驶区域（IDA）与守法势场；下层则在在线MPC控制器中，将由车辆自身状态、全局路径与环境信息共同生成的势场代价纳入优化，最终输出兼顾安全与合规的轨迹。作者据此提出三项主要贡献：一是基于交通法规形式化分析构建IDA，并将交通法规约束归纳为四类LCPF；二是建立相应势场模型并设计势场融合方法，以实现安全与合规之间的有效权衡；三是通过五类典型场景验证方法有效性，并讨论安全与守法冲突情形。

图1

研究结果

1. 交通法规约束分析与守法势场设计

本节的核心工作是将复杂的交通法规约束系统化拆解，并转化为能够服务自动驾驶决策的守法势场设计框架。作者指出，不同国家和地区的交通法规虽然在具体阈值上存在差异，但其对驾驶行为的基本约束形式具有共通性，因此有可能建立统一的约束生成框架来规范自动驾驶车辆行为。基于既有研究，文中将交通法规对车辆行为的约束概括为四个方面：速度、距离、路权以及驾驶动作；并进一步借助度量时序逻辑（MTL）对这些规则进行形式化表达。与传统LTL或有限状态规则相比，MTL能够利用带定量时间区间的时序算子，更简洁且结构一致地描述与持续时间、时机相关的交通法规，从而为后续非法行驶区域（IDA）与守法势场（LCPF）的构建提供统一语言。在这一基础上，作者把约束分为两大类：一类是自车与静态实体之间的静态交互约束，如特定车道、道路标线、禁入区域及停车限制区域等；另一类是自车与动态交通参与者之间的动态交互约束，如跟驰距离、变道时与目标车道后车的间距、左转与直行冲突时的让行要求等。对于速度类约束，作者将其归结为对自车速度和加速度状态的限制；对于动作、距离和路权类约束，则进一步把“是否违法”转化为空间区域中的交互问题，并构造出非法行驶区域。这些IDA的横向边界由实际或虚拟车道线限定，纵向边界由合规阈值决定，一旦自车与该区域重叠，即可视为发生违规。文中进一步把交互式IDA划分为三类：同车道内的IDA，用于描述跟车过近、妨碍前车等情况；与自车车道相交的IDA，用于描述左转—直行冲突、通过人行横道等情况；位于目标车道内的IDA，用于描述变道、汇入或特殊路段超车时对目标车道车辆造成影响的情形。图2直观展示了这一建模流程：左侧从交通法规类型出发，将速度限制、路权限制、距离限制和动作限制进行分类；中间通过MTL形式化表达并构造不同类型的IDA；右侧则把这些约束进一步映射为速度限制势场、加速度限制势场、静态监管要素势场、动态监管要素势场以及速度—位置耦合势场。图中同时给出了典型场景示意，例如全球路径与受限区域发生冲突时，需要通过速度与距离联合调整来维持守法通过。总体来看，本节并不是简单把法规当作硬约束，而是从“法规语义—非法区域—势场表示”的角度建立了一套可迁移、可复用的守法建模逻辑，使后续运动规划能够在状态空间与空间位置两个层面同时感知法规要求。

图2

2. 守法势场的建立

在上一节完成交通法规约束分类之后，本文进一步系统建立了各类守法势场模型，并将其组织为可供后续轨迹优化直接调用的连续势场环境。首先，针对状态约束，作者构建了速度限制势场和加速度限制势场，用于使车辆保持在法规允许的速度区间和减速度区间内。其中，图3展示了速度限制势场的典型分布：在合法车速范围内势场值较低，而在低于最低限速或高于最高限速时势场迅速升高，从而促使车辆回归合规速度区间。

图3

在问题抽象方面，作者将风险表征为轨迹规划时间尺度的函数（见图3），即通过强化学习生成满足驾驶任务的平滑轨迹，并以规划时间的长短作为风险的代理变量：规划时间越短，代表风险越高、策略反应越快。基于此，构建了以强化学习为核心的类人驾驶代理模型，并以其输出的规划时间作为风险量化依据。在模型构建过程中，针对强化学习在真实环境中训练存在效率与安全问题，论文采用“仿真训练+实际部署”的策略，并从场景分布与算法演化能力角度分析了跨域迁移问题，指出当仿真域与实际应用域在分布和能力演化上相近时，模型在演化终态下具有相似能力，从而风险量化结果也具有一致性；同时，通过安全约束机制对实际控制进行保护，可有效削弱sim2real差异带来的影响。

图4展示了加速度限制势场，其形式与速度势场类似，用于对特定道路区段中的减速行为进行约束。其次，针对静态监管要素，作者建立了车道线势场与区域要素势场。车道线势场主要反映车道线作为最基本道路标志对车辆行为的规范作用：对可跨越虚线和不可跨越实线施加不同意义上的约束，特别强调不能跨越实线以及不能长时间侵占虚线。

图4

图5给出了三车道对向道路中车道线势场的可视化结果：当自车触发“长时间压左侧车道线”这一违规情形时，相应车道线附近的势场强度明显增大，而其余未参与违规交互的车道线仍保持较低势场强度。区域要素势场则用于表示由交通基础设施单独构成、但会结合车辆意图或动态监管状态来决定约束效果的静态非法区域，例如路口红灯禁入区、导流线区域、网格线禁停区等。

图5

图6展示了“禁止停车”场景下的区域要素势场：无论是三维视图还是俯视图，都可以看到受限区域内部形成高势场平台，清晰指示该区域是不可合规占用的空间。再次，针对动态交通参与者带来的交互约束，作者提出动态监管要素势场，用于实时表达跟车、让行、变道等情形下由其他车辆或行人诱发的法规约束。作者批评了既有研究直接沿用安全势场范式构造合规势场的做法，认为那样容易把本不属于违规范围的区域也纳入惩罚区，并造成过于保守的边界设置，压缩可行解空间。因此，本文采用了更贴近交通法规时序逻辑的梯度式设计：即便在紧急情况下车辆不得不进入一个非零势场区域，模型也会沿着阈值方向逐渐提高势场强度，引导车辆尽可能“最小程度”地违规。

图6

图7用示意图说明了归一化 Frenet 距离的定义方式，即根据障碍物所在车道的 Frenet 参考路径，计算点到IDA边界或IDA内部沿纵向参考路径的相对位置，以控制动态势场的梯度变化。

图7

图8则展示了变道场景中目标车道后车对应的动态监管要素势场，其高势场区域随着交互对象位置而变化，能够实时反映目标车道的合规进入条件。最后，针对全球路径被IDA完全阻断且又不存在可行绕行路径的情形，作者引入速度—位置耦合势场，引导车辆在接近不可合规通过的路段时主动平顺减速。

图8

图9展示了该势场在车速与到IDA距离两个维度上的变化关系：当车辆逐渐接近受阻区域且尚无可合规通过路径时，势场值逐步升高，驱动车辆降低速度并等待；一旦重新出现可通过区域，该势场则会被解除。综合而言，本节建立的不是单一静态约束模型，而是一组分别对应车辆状态、道路标线、静态受限区域、动态交互对象以及速度—位置协同调节的势场模型，为自动驾驶车辆提供了可微、连续且具有法规语义的约束表达环境。

图9

3. 基于势场的MPC控制器

在完成各类守法势场建模后，作者进一步把这些势场嵌入模型预测控制（MPC）决策框架中，使其真正服务于自动驾驶轨迹优化。本节首先强调，系统中仍然保留了障碍物安全势场，而且为了坚持“安全优先”的原则，其势场能量被设置得显著高于守法势场。这意味着当安全风险出现时，自动驾驶车辆可以在必要情况下对交通法规作出合理让步，而不会因为机械守法而导致碰撞。随后，作者针对多势场在同一区域重叠时可能出现的问题提出了空间势场融合策略。传统线性叠加容易在重叠区域造成势场强度异常累积，而极值选取又会使势场梯度不连续，不利于优化求解。为解决这一问题，文中采用一种平滑的融合方式，在保持数值稳定性的同时兼顾接近“最大势场支配”的效果，从而缓解场强畸变并保持梯度连续。图10展示了变道场景中的空间势场融合结果：在三维视图和俯视图中可以看到，前车、目标车道后车以及自车周围的不同空间约束被统一融合为一个连续的安全—合规势场分布，优化器据此自然倾向于选择低代价轨迹，因此安全优先行为并不是通过显式规则切换实现的，而是从融合后的势场代价结构中自发产生。在动力学与控制层面，作者采用标准三自由度车辆模型作为MPC预测模型，虽然该模型无法刻画所有强非线性行为，但足以验证所提出守法势场框架在决策层面的有效性。最终，MPC的代价函数由三部分组成：安全—合规融合势场代价、轨迹跟踪误差以及控制输入代价。其中，融合后的总势场不仅包含空间融合势场，还叠加了速度限制势场、加速度限制势场以及速度—位置耦合势场，从而形成对车辆状态与空间位置同时施加作用的统一优化目标。与传统需要通过约束激活/解除或规则优先级切换来处理多重合规条件的MPC方法相比，本文采用“MTL → IDA → LCPF”的建模链条，使交通法规以更直接的势场代价分布形式进入状态空间优化，因此能够避免频繁的显式约束切换，并实现更连续、更可控的决策输出。

图10

4. 仿真验证结果

为验证所提方法的有效性，作者搭建了基于 Python 的仿真平台，并使用 do-mpc 构建MPC控制器、CasADi 求解优化问题；同时将经典的基于势场路径规划方法（PFPP）作为对比基线。作者指出，PFPP代表典型的“纯安全导向”规划器，它能够生成无碰撞轨迹，但无法显式区分“安全且合法”与“安全但违法”的行为。基于这一设定，文中设计了五类代表性场景：前四类场景均存在“合法轨迹”与“虽不碰撞但违法的轨迹”并存的情况，第五类场景则是真正的安全—守法冲突场景。

在Case 1红灯禁行场景中，系统要求车辆在红灯亮起后不得驶入路口。图11给出了场景示意：自车驶向路口，当距停止线 50 m 时信号灯转为红灯。图12展示了车辆在该场景中的轨迹变化，图中可看到在守法势场作用下，自车在停止线前约 30 m 开始平顺减速，并在 7.7 s 时停在停止线前 2 m 处；图13则给出了车速与信号灯状态的对应关系，显示车辆在红灯期间保持静止，待 12 s 信号转绿后再恢复行驶。该结果说明，区域要素势场与速度—位置耦合势场能够协同作用，实现对红灯禁行规则的有效遵守。

图11

图12

图13

在Case 2初始间距不足的变道场景中，法规要求变道车辆不得影响目标车道内正常行驶车辆。图14描绘了场景布置：自车计划向左变道，同车道前方有一辆匀速行驶车辆SV1，左侧目标车道中则有一辆卡车SV2，初始时 SV1 与 SV2 之间的间隙仅为 6 m，不满足合规变道要求。图15比较了 PFPP 与 LCPF 两种方法下的轨迹差异：PFPP 在 3.5 s 时便引导自车完成无碰撞变道，但此时自车与 SV2 的距离仅为 0.61 m，明显低于所需最小变道距离 3.91 m；相比之下，LCPF 先让自车略微降速并维持跟驰，等待 SV2 减速后腾出足够空间，再于 9.4 s 执行变道，此时与 SV2 的距离达到 10.48 m，高于 3.05 m 的合规阈值。图16进一步给出了该场景下车辆状态的比较结果，说明LCPF在保持安全的同时，有效避免了“效率更高但违法”的变道行为。

图14

图15

图16

在Case 3超车场景中，法规要求后车在确认有足够安全距离后，应从被超车辆左侧完成超越。图17给出了场景示意：自车希望超越前车SV1，此时左后方有高速接近的红色车辆SV2，右后方则有一辆较慢的蓝色卡车SV3。虽然右侧车道在初始阶段看似更安全，但从守法角度看，合规且安全的策略应是等待 SV2 通过后，再从左侧实施超车。图18对比了 PFPP 与 LCPF 的轨迹结果：PFPP 由于偏向局部安全，会引导车辆从右侧完成超车并在 3.2 s 返回原车道；而 LCPF 明确把右侧超车视为受限行为，将右侧车道构造成IDA，最终引导自车在 3.3 s 从左侧发起超车，并于 5.3 s 返回原车道，从而同时满足安全性和法规要求。

图17

图18

在Case 4基于SinD数据集的真实交互冲突场景中，作者选取了一个真实的左转—直行路权冲突案例，用于验证模型对让行法规的约束能力。图19展示了该场景的示意布局，图20给出了实施LCPF前后的轨迹比较。原始真实轨迹中，左转车辆EV强行在直行车辆SV前方完成左转；在 6.4 s 时，EV 穿越 SV 的实际轨迹，两车到达冲突点的时间间隔仅为 2.5 s，低于 3.4 s 的合规阈值，而且 SV 在 4.0–6.4 s 期间出现明显减速，说明其通行权受到了左转车辆干扰。将LCPF引入后，模型在自车继续左移将触及与SV相关的动态监管势场时，引导自车先进行轻微右偏，等待直行车通过后，再于 15.8 s 完成左转，此时直行车已经离开路口。该结果表明，LCPF能够在真实交互冲突背景下有效落实路权让行要求。

图19

图20

在Case 5城市道路安全—守法冲突场景中，作者重点讨论了当法规遵守与碰撞规避不能同时满足时，模型如何处理两者之间的冲突。图21描绘了场景设置：自车在双向两车道道路上行驶，左侧为黄色实线，对应法规上禁止变道；前方 35 m 处车辆SV1 因突发障碍紧急制动，后方 15 m 处卡车SV2 又因跟车不足和视线遮挡未能及时减速，从而对自车形成追尾风险。图22显示，在LCPF作用下，自车于 2.5 s 跨越黄色实线临时进入对向车道，绕过前方紧急制动车辆后，再于 4.6 s 回到原车道。这里，尽管左侧车道被构造成IDA，但由于安全势场能量更高，优化器会优先保证碰撞规避；与此同时，LCPF把违规程度建模为连续代价，因此即便必须违规，系统也会尽可能缩短违规的程度和持续时间，从而形成“必要但最小”的违规行为。

图21

图22

在整体评价方面，作者进一步基于仿真轨迹后处理得到的定量指标，对 PFPP 与 LCPF 在守法性、安全性和效率三个方面进行了比较。结果表明，在所有场景中，两种方法都能维持足够安全，模型预测碰撞时间均为无穷大；但 PFPP 由于仅考虑安全，常常产生“安全但违法”的轨迹，因此在 Case 2–4 中都出现了非零违规严重度，而 LCPF 则把这些场景中的违规严重度降为 0。虽然LCPF在部分场景下带来了略低的平均速度，说明其在效率上略有保守，但换来了显著更强的守法能力。对于冲突最明显的 Case 5，LCPF 并未机械守法，而是在安全优先前提下允许一定程度的法规让步，其违规严重度为 58.96%，体现出方法对现实冲突情形的可操作性。除此之外，文中还报告了求解效率：基于 LCPF 的 MPC 在 10 Hz 频率下的平均单步求解时间为 44.89 ms，95 分位求解时间为 61.93 ms，各场景 95 分位时间均低于 100 ms，说明该方法在不引入额外决策变量的情况下，仅通过增加势场代价项就实现了较轻量的实时开销。

研究结论

本文围绕自动驾驶车辆如何在复杂道路环境中实现合法驾驶这一问题，提出了基于守法势场的统一决策方法。研究首先对交通法规进行系统分类与形式化分析，并提取出四类能够覆盖主要交通法规约束的守法势场，随后建立对应模型并设计势场融合策略，使安全与守法可以在同一优化框架中得到显式平衡。在控制实现上，作者将LCPF集成到基于MPC的决策器中，构成从法规语义识别、非法行驶区域构建、势场生成到轨迹优化输出的完整链条。五个代表性场景的验证结果表明，该方法不仅能够在红灯禁行、合规变道、合规超车和路权让行等场景中有效抑制“安全但违法”的行为，还能够在安全与法规发生冲突时，以安全优先、违规最小化的方式生成更符合现实驾驶需求的决策结果。同时，方法具备较好的实时计算性能，为其在自动驾驶在线决策中的应用提供了可行性。作者也指出，当前验证仍主要局限于少量确定性场景，与PFPP之间的比较更接近一种消融式验证；未来还需要在大规模随机场景、更多基线方法、更高保真车辆动力学以及跨区域交通法规适配、部分可观测环境下的多主体交互建模和V2X增强预测等方向进一步拓展。

原文链接：

Zhao C, Xiong Z, Song L, Ma X, Chen Z, Wu S, et al. Enhancing legal driving for autonomous vehicles through law-compliance potential fields. Accid Anal Prev. 2026;230:108441.

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

从“会开车”到“守交规”:自动驾驶决策的新一步

最新文章

热门文章

随机文章

从“会开车”到“守交规”:自动驾驶决策的新一步

沈阳到洛阳轿车托运,费用怎么收费?赶紧收藏备用!

自动驾驶横向与纵向控制模块各有什么作用?

最新文章

热门文章

随机文章