引言
在自动驾驶系统架构中,决策与规划(Decision and Planning)模块承担着将感知、预测与定位信息转化为可执行车辆轨迹的核心任务。该模块通常划分为三个层级:全局规划(导航)、行为决策与局部规划(轨迹规划)。三者逐级细化,共同确保车辆在满足安全性、舒适性与交通规则的前提下,高效完成从起点到终点的行驶任务。
本文将系统梳理上述三层架构的技术内涵,详细解析主流算法原理,并厘清各模块的输入输出、运行频率与工程特性。
一、全局规划(Navigation / Global Planning)
1.1 功能定位
全局规划负责在高精度地图(HD Map)支持下,生成从起始点到目标点的粗略路径。路径长度通常为几公里至几十公里,主要用于指导车辆在宏观路网中的行驶方向。
1.2 核心特点
- • 运行频率极低:通常仅在任务初始化或遭遇路径中断(如施工、断头路、严重偏航)时重新触发;
1.3 主流算法
(1)A* 搜索算法(A-star Search)
A* 是一种启发式图搜索算法,通过结合实际代价 g(n) 与启发式估计 h(n) 构建评价函数:
其中:
- • 为从节点 到目标点的启发式估计(如欧氏距离)。
A* 维护开放集(待扩展节点)与闭合集(已扩展节点),优先扩展 最小的节点。在启发函数 满足可采纳性(admissible,即不过高估计真实代价)时,A* 可保证找到最优路径。
工程实践中,A* 广泛用于基于栅格地图或拓扑路网的路径搜索。
(2)Dijkstra 算法
Dijkstra 是解决非负权图中最短路径问题的经典算法,采用贪心策略逐步扩展距离起点最近的未访问节点。
算法步骤:
- 4. 对 的所有邻居 ,若通过 到 的路径更短,则更新 的最短距离;
时间复杂度:使用最小堆时为 ,其中 为节点数, 为边数。局限性:无法处理负权边,且搜索效率低于 A*(因其缺乏启发信息)。
二、行为决策(Behavior Decision)
2.1 功能定位
行为决策模块根据当前交通环境(包括静态/动态障碍物、交通信号、路权等),生成车辆的高层驾驶意图,如“左转”、“右转”、“变道”、“减速避让”、“加速超车”等。
2.2 核心特点
- • 不输出具体控制量(如方向盘转角、加速度),仅提供语义级意图;
- • 在环境稳定时,决策结果应保持时间一致性,避免频繁切换;
- • 是整个规划系统中逻辑最复杂、不确定性最高的子模块。
2.3 典型算法
- 1. 规则引擎(Rule-based Engine)基于交通法规与人工编写的驾驶策略(如“遇行人过街须停车”、“跟车距离小于安全阈值则减速”)。优点是可解释性强、验证充分;缺点是难以覆盖长尾场景。
- 2. 行为克隆(Behavior Cloning)通过监督学习,从人类驾驶数据中学习状态到动作的映射。需大量高质量驾驶数据,且存在分布偏移(distribution shift)问题。
- 3. 强化学习(Reinforcement Learning, RL)将驾驶建模为马尔可夫决策过程(MDP),通过与环境交互学习最优策略。深度强化学习(如 DDPG、PPO)可处理高维状态空间,但训练成本高、安全性验证难。
- 4. 模型预测与交互决策结合对其他交通参与者(车辆、行人、骑行者)的行为预测模型,预判其未来轨迹,并据此制定避让或协同策略。常与博弈论、交互感知(Interaction-aware Prediction)结合使用。
实际系统中,上述方法常融合使用:规则引擎处理常规场景,学习方法处理复杂交互。
三、局部规划(Local Planning / Trajectory Planning)
3.1 功能定位
局部规划在行为决策的约束下,在短时域(通常 1–5 秒)与近距离(几米至几十米) 内,生成一条满足车辆动力学、运动学、安全与舒适性约束的可执行轨迹。轨迹包含位置、速度、加速度等时序信息,直接输入控制模块进行跟踪。
3.2 核心特点
- • 必须满足硬约束:最大曲率、最大加速度、最小安全距离等。
3.3 主流方法分类
(1)采样-based 方法(Sampling-based)
在状态空间或控制空间中随机或启发式采样候选轨迹,通过代价函数评估后选择最优解。
- • RRT(Rapidly-exploring Random Tree):通过随机扩展树结构探索高维空间,适用于非完整约束系统。
- • RRT*:RRT 的渐进最优变体,通过重连优化路径质量。
- • PRM(Probabilistic Roadmap):先构建路图,再进行查询,适合多查询场景。
优点:计算快、适合复杂障碍环境;缺点:解的质量依赖采样密度,难以保证最优性。
(2)优化-based 方法(Optimization-based)
将轨迹规划建模为约束优化问题,目标函数通常包含:
常用算法:
- • 模型预测控制(MPC, Model Predictive Control)MPC 在每个控制周期内,基于车辆动力学模型(如自行车模型)预测未来 N 步状态,求解如下优化问题:s.t.其中 为车辆模型, 为状态与控制约束集。MPC 仅执行第一步控制,下一周期重新规划,形成滚动优化。
- • 其他:非线性规划(NLP)、二次规划(QP)、遗传算法等。
MPC 优势在于显式处理约束与模型,广泛用于高速场景;但计算开销大,需高效求解器(如 OSQP、ACADO)。
(3)深度学习方法
采用端到端或模块化神经网络,直接从传感器输入生成轨迹。
- • CNN:处理图像或栅格化BEV(Bird’s Eye View)地图;
- • RNN/LSTM/Transformer:建模时序依赖;
优势:可学习复杂策略;挑战:缺乏可解释性、泛化能力有限、安全验证困难。
(4)多模态规划(Multi-modal Planning)
针对不同驾驶场景(城市、高速、泊车)动态切换规划策略。例如:
实现方式可为规则触发或基于场景识别的机器学习分类器。
四、模块协同与系统集成
三层次规划模块形成级联流水线:
- 1. 全局规划提供参考路径(Reference Path);
- 2. 行为决策基于感知与预测,输出当前周期的驾驶意图(如“lane change left”);
- 3. 局部规划结合参考路径与意图,在局部时空域内生成安全、可行、舒适的轨迹;
- 4. 控制模块(如PID、LQR、MPC控制器)跟踪该轨迹,输出执行指令。
全局规划与行为决策通常解耦运行,而行为决策与局部规划常在10Hz下同步迭代。
五、工程挑战与发展趋势
当前挑战:
- • 实时性与计算资源平衡:MPC 等优化方法对算力要求高;
- • 长尾场景覆盖:规则系统难以穷举,学习方法泛化不足;
- • 多智能体协同:在V2X支持下,需考虑车辆间协同规划。
未来方向:
- • 混合架构:规则 + 学习 + 优化的融合框架;
- • 端到端可微分规划:将感知、预测、规划统一为可训练网络;
- • 人机共驾中的意图对齐:在L2/L3系统中理解驾驶员意图。
六、总结
自动驾驶决策与规划系统是一个多层次、多算法融合的复杂体系。各层级分工明确:
理解这三层的功能边界、算法选型与交互机制,是设计高效、安全、鲁棒自动驾驶规划系统的关键。