当前位置：首页>自动驾驶>自动驾驶的决策动力学 —— 李雅普诺夫硬约束下的不确定性导航【芮博数理工场·结构智能】专栏第6期

自动驾驶的决策动力学 —— 李雅普诺夫硬约束下的不确定性导航【芮博数理工场·结构智能】专栏第6期

2026-05-13 08:00:49

编者按：

本专栏由华为拉格朗日数学与计算中心，应用数学与算法首席科学家芮祥麟博士（Dr. Shang-Ling Jui）倾力打造，以“结构智能——现代工业系统的数学母结构”为核心，从统计逼近走向结构时代，将数学重构为工业文明的骨架。

本期讨论高度不确定环境下的实时稳定控制，将物理定律（Lyapunov 稳定性）作为硬约束嵌入网络基因。

NO.1

该系统的核心结构是什么？

——时变非线性流形上的受限梯度流

在当前自动驾驶技术的发展阶段，主流方法大多以深度学习为核心，通过大规模数据训练模型，使系统能够从感知结果直接预测车辆的控制行为。这类端到端模型在规则化场景中往往表现良好，但在复杂交通环境或长尾场景中，系统的行为往往会出现明显的不稳定性。这种现象的根源并不在于数据规模不足，而在于问题本身的数学结构：道路交通并不是一个简单的模式识别问题，而是一个由多个智能体相互作用形成的复杂动力系统。每一个交通参与者都在根据自身目标不断调整行为，而这些行为又相互影响，从而形成一种动态博弈结构。因此，从结构智能的视角看，自动驾驶系统更适合被描述为时变非线性流形上的受限梯度流系统。

1.1 离散层：交互意图图G_I

在现实交通环境中，车辆之间的关系不仅仅是几何位置关系，更是一种具有意图指向的交互结构。例如，在城市道路中，一辆车接近路口时可能准备左转，而对向车辆则可能直行通过；在高速公路上，一辆车准备并线，而邻近车道的车辆可能选择让行或加速。这些行为之间形成了一种复杂的相互影响关系。如果只从几何距离角度考虑这些车辆，很难准确描述这种交互模式。

为了解释这种复杂关系，可以将交通环境抽象为一个交互意图图（Interaction Intent Graph）：

其中 V_I 表示交通参与者节点，例如车辆、行人、自行车以及静态障碍物；而 E_I表示节点之间的交互关系。每一条边不仅具有方向，还具有权重，用于描述一个参与者行为对另一个参与者的影响程度。例如，当两辆车距离较近且存在潜在路径冲突时，它们之间的边权会增大；当距离较远或运动方向无关时，该权重则趋近于零。

这种图结构实际上是一种动态更新的系统模型。随着车辆位置和速度不断变化，节点之间的关系也在持续更新。例如，当车辆开始减速时，其后方车辆的行为会发生变化，从而改变图中边的权重。进一步来看，这种交互关系往往具有博弈性质。每个交通参与者都在试图最大化自身利益，例如减少行驶时间或保持安全距离，而这些目标之间可能存在冲突。因此，交互意图图不仅是一个描述交通关系的工具，也是一个多主体博弈结构的数学表达。

在自动驾驶系统中，感知模块的任务之一就是不断更新这一图结构。通过识别潜在冲突关系和协同行为，系统可以预测其他参与者的行动，从而为后续决策提供信息基础。

1.2 连续层：高维非欧几何相空间

虽然交互意图图提供了交通参与者之间的逻辑关系，但车辆的真实运动仍然发生在连续物理空间中。每辆车的状态可以通过一组连续变量描述，例如位置 x、速度 v、加速度 a、方向角以及路面附着系数等。这些变量共同构成一个高维状态向量：

其中 μ 表示路面附着系数等环境因素。车辆动力学可以用如下形式表示：

其中 u 表示控制输入，例如油门或转向。由于车辆运动受到动力学约束、轮胎摩擦限制以及道路几何形状的影响，这个状态空间并不是一个简单的欧几里得空间，而是一个非线性流形。在这个流形中，只有满足车辆动力学约束的状态才是可行的。

在这一空间中，障碍物会形成特殊结构。例如，当道路上存在行人或静态障碍物时，其附近区域在状态空间中相当于一个不可进入的区域，即所谓的“空洞（void）”。车辆轨迹必须绕过这些区域，否则就会发生碰撞。同样，交通规则也会在状态空间中形成约束区域，例如禁止逆行或禁止越过某些车道线。

此外，由于交通环境不断变化，例如新的车辆进入或障碍物移动，这个状态流形本身也是动态变化的。车辆规划路径实际上是在一个时变流形上进行的，这使得问题复杂度大大提高。

1.3 核心结构定义：非合作博弈中的动力学投影

当离散的交互意图图与连续的动力学流形结合在一起时，自动驾驶决策问题便呈现出一种新的数学结构。在这一结构中，每个交通参与者都试图在复杂环境中实现自身目标，例如尽快到达目的地或保持安全距离。由于这些目标之间存在潜在冲突，系统可以被理解为一个非合作博弈系统。

在这种博弈结构中，车辆行为可以被视为在某个势能场中的运动。势能函数 Φ(x) 通常综合了多个因素，例如安全风险、交通规则和行驶效率。车辆的运动方向可以表示为沿势能梯度下降：

然而，与普通优化问题不同，车辆运动必须始终保持在物理可行区域内，并且不能破坏交互意图图中的逻辑关系。因此，这一系统实际上是一个受限梯度流（Constrained Gradient Flow）。车辆轨迹不仅要降低势能，还必须满足动力学和安全约束。

从结构角度看，自动驾驶决策的目标并不是简单地寻找一条最短路径，而是在动态流形中找到一条稳定的演化轨迹。这条轨迹必须同时满足两个条件：一方面，它要符合离散层的语义意图，例如遵守交通规则和避免冲突；另一方面，它必须位于连续动力学系统的稳定吸引子内，从而保证车辆始终处于可控状态。

因此，自动驾驶系统的核心结构可以被定义为：在交互意图图所描述的博弈关系下，车辆在非线性势能场中进行实时投影，从而寻找一条稳定的演化轨迹。这一过程不仅反映了交通参与者之间的逻辑关系，也体现了车辆动力学和环境约束的综合作用。从数学角度看，这一问题可以被理解为在时变非线性流形上的受限梯度流问题，这一视角为未来自动驾驶系统的稳定性分析与控制策略设计提供了重要基础。

NO.2

其上限由哪些数学约束决定？

——识别边界：李雅普诺夫稳定性、控制权界限与执行器物理饱和

在自动驾驶系统中，决策算法并不是在一个无限自由的空间中运行。无论算法多么复杂、模型多么庞大，车辆的行为始终受到一系列基础数学约束的限制。这些约束并不是来自软件架构，而是来自物理规律、控制理论以及博弈结构。换句话说，自动驾驶系统的安全边界并不是由算法能力决定，而是由系统本身的动力学结构决定。从结构智能的角度看，这些边界可以分为三个层面：物理稳定性边界、可达空间边界以及信息博弈边界。

2.1 物理不变量：李雅普诺夫稳定性判据

在控制理论中，系统稳定性通常通过李雅普诺夫函数来描述。对于一个动力系统

如果存在一个标量函数 V(x)，使得在系统演化过程中始终满足

则系统被认为是稳定的。这个函数可以被理解为系统的“能量函数”。当系统状态偏离稳定点时，能量函数会增加，而系统动力学会自然地将其拉回稳定区域。

在自动驾驶系统中，李雅普诺夫函数通常与车辆的安全状态相关。例如，可以将车辆与障碍物之间的距离、速度差以及制动能力组合成一个安全势能函数。当车辆距离障碍物过近或速度过高时，势能函数值会迅速增加，从而触发减速或避让行为。

然而，如果系统状态进入某些危险区域，势能函数可能不再满足衰减条件。数学上表现为：

这意味着系统进入正反馈区域，车辆行为将逐渐偏离稳定轨道。例如，在高速行驶中，如果车辆突然打方向且路面附着力不足，系统可能进入失控状态。在这种情况下，无论控制算法多么复杂，都无法重新恢复稳定。

因此，李雅普诺夫稳定性条件实际上构成了自动驾驶系统的物理红线。任何决策算法都必须确保系统状态始终保持在满足

的区域内。只有在这个区域内，车辆行为才能被认为是物理可控的。

2.2 拓扑边界：可达集的测度限制

除了稳定性条件之外，自动驾驶系统还受到控制能力的限制。车辆的运动并不是可以任意改变的，它受到转向系统、制动系统以及动力系统的物理约束。例如，方向盘的转向角速率是有限的，制动系统的最大减速度也是有限的。

在控制理论中，这种限制可以通过可达集（Reachable Set）来描述。假设系统当前状态为 x₀，在未来时间 T 内，车辆能够到达的所有状态构成一个集合：

这个集合的形状由车辆动力学和执行器能力决定。如果车辆的最大减速度为 a_max，那么在时间 T 内车辆能够减少的速度上限是 a_maxT。类似地，方向盘转角速度决定了车辆能够改变的最大转弯半径。

在现实道路环境中，障碍物和其他车辆的运动具有不确定性。如果外部环境变化超过了车辆可达集的范围，例如前方车辆突然急刹车，而当前车辆的制动能力不足以在可达空间内避开碰撞，那么系统就进入了所谓的“逻辑死区”。在这个区域中，无论算法如何规划路径，车辆都无法避免事故。

因此，从数学角度看，自动驾驶系统必须确保环境不确定性始终被限制在可达集之内。如果外界变化超出这一范围，那么系统将失去控制能力。这一限制并不是算法缺陷，而是由物理控制能力所决定的。

2.3 逻辑边界：非完全信息博弈的纳什均衡极限

除了物理和控制约束之外，自动驾驶系统还面临一个更深层的问题：交通环境中的其他参与者并不是可预测的。每一辆车、每一个行人都有自己的目标和行为模式，而这些意图往往无法完全观测。例如，一辆车可能准备并线，但其转向信号尚未打开；一名行人可能站在路边，但是否准备过马路并不明确。

这种情况可以被视为一个非完全信息博弈（Incomplete Information Game）。在博弈论中，如果参与者无法完全观察对方的状态或策略，那么系统的最优策略往往只能在概率意义上成立。在这种情况下，系统通常会寻找一个纳什均衡，即在当前信息条件下没有参与者能够通过单方面改变策略获得更好结果的状态。

然而，在自动驾驶系统中，安全要求远高于普通博弈环境。车辆不能依赖对他人行为的概率预测来保证安全。例如，如果系统假设前方车辆不会突然变道，而现实中这种情况发生了，那么事故就可能发生。因此，在非完全信息环境中，系统必须保持一定的安全冗余。

这种冗余可以被理解为一种“安全缓冲区”。例如，在高速行驶时保持更大的车距，或者在路口减速观察。这些行为从效率角度看可能并不是最优，但从安全角度看却是必要的。数学上，这意味着系统必须在决策空间中预留一部分区域，用来抵御信息不确定性带来的风险。

换句话说，非完全信息博弈为自动驾驶系统定义了一个安全冗余下限。如果车辆之间距离过小，或者系统过于依赖对他人行为的预测，那么即使在短时间内运行正常，也可能在突发情况下失去安全保障。

综上所述，自动驾驶系统的性能上限并不仅仅取决于算法能力，而是由三类数学约束共同决定：李雅普诺夫稳定性提供了物理层的稳定边界，可达集理论限定了车辆的控制能力范围，而非完全信息博弈则定义了系统在信息不确定性下的安全冗余要求。只有在充分理解这些边界的基础上，自动驾驶系统才能实现真正可靠的决策机制。

NO.3

如何通过数学重构其优化空间？

——从“权重微调”到“结构生成算子”的稳定性注入

在当前主流自动驾驶系统中，决策模型通常依赖深度神经网络，通过大量数据训练来学习驾驶策略。这种方法在标准场景中往往能够表现出较高的准确性，但其核心机制仍然是通过不断调整模型参数来减少预测误差。换句话说，优化过程发生在神经网络权重空间中。然而，当系统进入复杂或罕见场景时，这种方法可能产生不可预测的行为，例如突然加速或错误转向。这些问题的根源在于：系统的优化目标只考虑统计误差，而没有直接嵌入物理稳定性约束。

为了从根本上提升自动驾驶系统的可靠性，需要对优化空间进行结构性重构。与其在权重空间中盲目搜索，不如在物理与控制约束定义的安全空间中进行决策。结构智能提出的核心思路是引入结构生成算子，将稳定性条件直接嵌入决策过程，使系统生成的每一个动作天然满足动力学约束。

3.1 构造“控制不变集生成算子” T_inv

在控制理论中，一个重要概念是控制不变集（Control Invariant Set）。若系统状态 x 位于集合 C 内，并且存在控制输入 u 使得系统状态在未来仍然保持在 C 内，则称 C 为控制不变集。对于自动驾驶系统而言，这个集合可以理解为“安全状态空间”。只要车辆状态保持在这一集合内，就能够保证系统始终处于可控状态。

在传统深度学习框架中，神经网络直接输出控制指令，例如加速度或转向角。然而，这些输出并不保证系统状态始终保持在安全区域内。因此，可以引入一个新的算子：控制不变集生成算子 T_inv。该算子作用于神经网络的输出，使其自动满足稳定性条件：

其中 u_nn 为神经网络预测的控制指令，而 u_safe 为经过修正后的安全控制输入。该算子的核心机制是利用李雅普诺夫稳定性条件。当系统的李雅普诺夫函数 V(x) 满足

时，系统保持稳定。因此，在生成控制指令时，算子会实时检查神经网络输出是否满足这一条件。如果预测动作可能导致 dV/dt>0，则算子会自动调整该动作，使系统状态重新回到稳定区域。这样一来，神经网络不再直接控制车辆，而是与稳定性算子共同生成控制策略，从而在保证灵活性的同时维持系统稳定。

3.2 基于屏障函数的搜索空间折叠

除了稳定性条件之外，自动驾驶系统还需要满足一系列硬约束，例如避免碰撞、保持车道以及遵守交通规则。在传统优化方法中，这些约束通常通过惩罚项加入损失函数。然而，当约束数量增加时，这种方法往往会导致优化问题变得难以求解。

控制理论中的控制屏障函数（Control Barrier Function, CBF）为这一问题提供了新的解决思路。设 h(x)h(x) 为一个屏障函数，当系统状态满足

时，表示系统处于安全区域。如果车辆接近危险区域，例如与前车距离过近，则 h(x) 会逐渐减小。当 h(x)=0 时，系统处于安全边界；若 h(x)<0，则意味着发生碰撞风险。

为了保证系统始终处于安全区域，可以对控制输入施加如下约束：

其中 α 为正参数。这一条件确保系统在接近边界时自动产生回避行为。

从几何角度看，屏障函数相当于在高维状态空间中建立了一组“拓扑栅栏”。这些栅栏将原本巨大的搜索空间分割成安全区域与不可行区域。优化算法因此不再需要在整个空间中寻找可行路径，而只需在被栅栏修剪后的安全流形内进行搜索。

这一过程可以理解为一种搜索空间折叠（Search Space Folding）。原本指数级增长的状态空间通过约束裁剪被压缩为一个较小的可行流形，使得优化问题从指数复杂度下降为多项式复杂度。这种方法在实时系统中尤为重要，因为自动驾驶决策通常必须在毫秒级时间内完成。

3.3 定量对比与安全性涌现

当我们比较传统统计模型与结构重构方法时，可以发现两者在安全性上的巨大差异。传统神经网络依赖训练数据分布进行预测。当系统进入分布外（Out-of-Distribution, OOD）场景时，例如暴雨天气或突发遮挡，模型可能产生违反物理常识的行为。例如，系统可能突然输出过大的转向角或加速度，从而导致车辆失控。

结构重构方法则采用完全不同的策略。通过引入控制不变集生成算子和屏障函数，系统在任何情况下都必须满足稳定性与安全约束。即使感知模块出现短暂失误，底层控制结构仍然能够保证车辆行为保持在安全区域内。例如，当视觉传感器被雨水遮挡时，系统仍然可以通过稳定性约束执行“收敛动作”，例如减速或保持当前车道。

实验结果表明，在极端长尾事故场景中，这种结构化方法能够显著提升系统可靠性。相比传统端到端神经网络，基于结构生成算子的决策系统在碰撞规避率上可提升两个到三个数量级。这种提升并不是通过更多数据或更大模型实现的，而是通过将物理不变量直接嵌入系统结构实现的。

从更宏观的角度看，这一方法代表了一种新的设计哲学。传统 AI 系统依赖数据和统计规律来生成行为，而结构智能则通过数学不变量来保证系统安全。通过重构优化空间并注入稳定性算子，自动驾驶系统能够在不确定环境中保持确定性行为。这种转变不仅提高了系统安全性，也为未来工业级自动驾驶奠定了坚实的数学基础。

结语：

给 AI 戴上“物理的枷锁”

自动驾驶的真正挑战，并不在于让机器“看得更清楚”或“预测得更准确”，而在于确保系统在任何情况下都不会偏离安全边界。仅依赖概率模型进行决策，本质上是一种在不确定性中冒险的策略：只要模型的预测概率足够高，就允许系统采取行动。然而在真实道路环境中，这种策略往往无法满足工业级安全要求，因为任何小概率错误都可能带来严重后果。

因此，自动驾驶系统的决策机制必须从“概率拟合”转向“动力学约束”。通过将李雅普诺夫稳定性条件、控制不变集以及屏障函数嵌入决策框架，系统的每一次动作都不再只是神经网络的预测结果，而是一个满足物理稳定性的动力学演化步骤。换句话说，AI 不再只是一个产生控制指令的黑盒模型，而是一个在数学约束下运行的结构化系统。

这种方法可以理解为给 AI 戴上“物理的枷锁”。这些枷锁并不是限制创新，而是为系统提供可靠的边界，使其在复杂环境中始终保持可控。神经网络提供灵活的感知和学习能力，而物理不变量则确保系统不会偏离稳定轨道。当两者结合时，自动驾驶系统既能够适应复杂环境，又能够保持严格的安全保证。

在这一框架下，自动驾驶决策不再是一次概率性的赌博，而是一条在动力学流形中稳定演化的轨迹。AI 在享受算法效率与数据优势的同时，也始终运行在物理定律所划定的安全河床之中。这正是工业级自动驾驶系统所需要的核心能力。

推荐阅读

统计智能与结构智能的边界：从“文字接龙”到逻辑推理 | 芮博数理工场【结构智能】专栏第1期
构造即正确（Correct-by-Construction）| 芮博数理工场【结构智能】专栏第2期
芯片设计的离散–连续耦合：约束流形下的高维组合突破｜芮博数理工场【结构智能】专栏第3期
大规模计算系统的几何结构 —— 万卡集群的动力学稳定性与结构重构【芮博数理工场·结构智能】专栏第4期
无线网络的信息流拓扑——语义空间、谱图重构与物理极限的调和|【芮博数理工场·结构智能】专栏第5期
结构-算子-验证: 构建面向未来 ICT 系统的物理感知 AI 基础设施【芮博数理工场·结构智能】专栏第5期（技术补充篇）

科学方程式

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

自动驾驶的决策动力学 —— 李雅普诺夫硬约束下的不确定性导航【芮博数理工场·结构智能】专栏第6期

最新文章

热门文章

随机文章

自动驾驶的决策动力学 —— 李雅普诺夫硬约束下的不确定性导航【芮博数理工场·结构智能】专栏第6期