模块化自动驾驶前决策方法行业应用分析
一、前决策的核心定位与核心价值
1.1 前决策的定义与链路位置
自动驾驶决策规划(PnC)全链路为:感知融合→行为预测→前决策模块→轨迹规划/数值优化→控制执行。 前决策(又称前置决策、行为决策层),是介于环境感知/行为预测与轨迹优化之间的核心中间层,核心解决“车辆要做什么”的顶层意图问题,区别于后续轨迹优化“车辆具体怎么做”的精细化求解问题,是整个PnC链路的“大脑中枢”,也是后续轨迹优化能够安全、高效、稳定收敛的核心前提。
1.2 前决策对后续轨迹优化的核心支撑作用
前决策的核心价值,是将无边界的高维连续优化问题,转化为带强约束的低维有限优化问题,解决轨迹优化的计算爆炸、局部最优、约束冲突、安全失配等核心痛点。抽象来看就是为轨迹优化这个优化问题建模提供合理的硬/软约束、注入先验。具体支撑能力包括:
- 解空间裁剪(或者说指定优化区域):为轨迹优化划定车道级、行为级的可行域,剔除不可行的求解方向,将优化维度从数十维压缩至个位数,数量级提升求解效率;
- 约束与目标设定:为优化模块明确(部分)硬安全约束(碰撞避免、交通规则合规)、软舒适性约束、通行效率优化目标,避免优化结果偏离驾驶意图;
- 初始解锚定:通过候选行为/路径筛选,为数值优化提供优质初始解,大幅提升优化收敛速度,避免陷入局部最优;
- 安全兜底保障:针对异常工况和Corner Case预设兜底决策,为优化模块划定不可逾越的安全边界,避免优化失效导致的安全风险。
二、行业主流前决策方法的应用深度分析
2.1 分层有限状态机(HFSM)/有限状态机(FSM)
核心原理
将驾驶行为拆解为有限个互斥、可枚举的状态(如怠速、跟车、换道、路口转弯、紧急制动等),每个状态定义明确的进入/退出触发条件、状态内行为规则;HFSM在FSM基础上实现分层解耦,顶层为宏观场景(高速/城市/泊车)、中层为行为模式、底层为执行子状态,通过层级化逻辑降低状态跳转的复杂度。
行业应用现状
是目前全球L2-L4级自动驾驶量产落地的绝对主流方案,90%以上的量产辅助驾驶系统(高速NOA、基础L2+)均以HFSM为前决策核心框架,覆盖传统车企、新势力全线产品。
对后续轨迹优化的核心支撑
HFSM通过状态锁定,为后续优化提供单一、明确、强约束的行为目标,从根源上简化优化问题。例如:
- 当状态机进入「左换道」状态,直接为轨迹优化锁定目标车道、横向位移边界、纵向速度匹配区间、碰撞规避硬约束,将横纵向耦合的高维优化问题,压缩为换道场景下的低维优化问题,求解效率提升10倍以上;
- 当状态机进入「紧急制动」状态,直接为优化模块过滤所有横向求解空间,仅保留纵向最大减速度的制动优化目标,避免优化出现犹豫、轨迹抖动,保障安全兜底。
优势与局限
| |
|---|
| 逻辑完全透明、可解释性100%,完美适配ISO 26262功能安全要求 | 面对复杂城市场景,规则数量呈指数级增长,出现“规则爆炸”,无法覆盖全量Corner Case |
| 开发调试成本低、状态跳转可控、安全边界清晰,量产工程化成熟度极高 | 状态跳转易出现逻辑漏洞,多条件触发时易出现决策震荡,导致后续优化约束频繁跳变、轨迹抖动 |
| 实时性极强,端侧计算延迟可控制在1ms以内,无算力负担 | 多车交互场景下灵活性不足,易出现过度保守/激进的决策,无法适配人类驾驶员的交互逻辑 |
2.2 规则决策树/专家系统
核心原理
基于资深驾驶工程师的人类驾驶经验,构建「条件-动作」的树形推理逻辑,根节点为驾驶场景,分支为环境触发条件(自车状态、前车距离、车流密度、交通标志等),叶子节点为最终决策行为,本质是将人类驾驶经验固化为可执行的专家知识库。
行业应用现状
极少单独使用,几乎全部作为HFSM的配套补充方案,用于场景内的精细化决策,量产落地覆盖率100%,是所有辅助驾驶系统的标配模块。
对后续轨迹优化的核心支撑
为轨迹优化提供精细化的约束参数与边界阈值,填补HFSM状态内的优化细节空白。例如:
- 跟车场景下,决策树根据前车速度、路面附着系数、雨天/晴天工况,决策出1.5s-2.5s的动态跟车时距,为纵向速度优化设定目标跟车距离的硬约束;
- 换道场景下,决策树根据相邻车道车流速度、换道间隙、自车加速度能力,决策出「允许换道/禁止换道/谨慎换道」的分级结论,为轨迹优化开启/关闭横向求解空间。
优势与局限
优势:规则可解释、可调试性强,与HFSM高度适配,可快速迭代优化场景内的精细化决策,无额外算力负担;
局限:无法脱离HFSM独立使用,面对复杂场景依然存在规则冲突、覆盖不足的问题,无法解决长尾场景的决策空白。
2.3 行为树(BT)+ 搜索/采样式候选生成
核心原理
分为两大核心分支,二者通常配合使用:
- 行为树(BT):以模块化节点为核心,通过控制节点(顺序、选择、并行、装饰)和行为节点组合实现决策逻辑,相比HFSM,具备更强的模块化复用性、并行处理能力和场景灵活性,可实现多条件并行判断的复杂决策;
- 搜索/采样式候选生成:基于车道拓扑地图,通过A、RRT等算法搜索宏观参考路径,或通过栅格/采样生成多个候选行为(直行、左换道、右换道、减速让行等),再通过代价函数排序剪枝,筛选出1-2个最优候选,交付后续轨迹优化。
对后续轨迹优化的核心支撑
是对轨迹优化支撑最直接、最全面的前决策方案,彻底解决了传统规则式方案的解空间适配性不足问题:
- 行为树的并行处理能力,可同时响应「行人避让、信号灯检测、对向车让行」多分支条件,为轨迹优化提供动态、多维度的约束更新,而非固定状态的静态约束,适配路口等复杂动态场景;
- 搜索/采样的候选生成,直接为轨迹优化提供优质初始解与预筛选的可行域,例如百度Apollo EM Planner,前决策先采样5条横向路径候选,通过代价排序筛选最优2条交付后续二次规划优化,优化无需从零求解,收敛速度提升5倍以上,同时彻底避免局部最优问题;
- 多候选剪枝机制为优化提供兜底保障,若最优候选优化失效,可直接切换至次优候选,无需重新决策,大幅提升系统鲁棒性。
优势与局限
| |
|---|
| 模块化复用性强,调试迭代效率远高于HFSM,适配城市复杂场景的灵活决策需求 | 搜索/采样的计算量随场景复杂度指数级增长,需设计高效的剪枝策略,对车载算力有一定要求 |
| 可解释性强,逻辑可追溯,依然可满足功能安全要求,量产工程化成熟度快速提升 | 行为树的调试门槛高于HFSM,对工程师的工程化能力要求更高 |
| 解空间预筛选机制,从根源上提升轨迹优化的收敛性与实时性,适配城市NOA的高动态场景 | 高度依赖车道拓扑地图,无图场景下的搜索精度与效率大幅下降 |
2.4 博弈论交互式前决策——多车交互场景的核心解决方案
核心原理
针对城市道路中“自车行为与周围车辆行为相互影响”的交互式场景,构建博弈模型(非合作博弈、斯塔克尔伯格博弈、马尔可夫博弈等),建模周围交通参与者的行为响应逻辑(区别于触发式决策的核心,需要对其他交通参与者行为建模),预测不同决策下周边车辆的行为变化,最终求解出兼顾安全与效率的最优交互决策。
行业应用现状
目前无全场景独立落地的量产方案,全部作为传统规则式前决策的补充模块,仅用于无保护左转、环岛通行、拥堵加塞/防加塞、路口会车等强交互场景,Waymo、Cruise、华为、百度、小鹏等企业均已完成量产落地。
对后续轨迹优化的核心支撑
解决了传统前决策“将周边车辆轨迹视为固定输入”的核心缺陷,为轨迹优化提供更合理的动态约束与目标,避免优化结果过度保守或激进:
- 无保护左转场景中,传统前决策易输出“减速让行所有对向直行车”的保守决策,导致轨迹优化输出持续停车的无效结果;博弈论前决策可预判对向车的让行意图,输出“匀速左转,对向车将减速让行”的决策,为优化设定合理的速度区间与路径约束,输出兼顾安全与通行效率的轨迹;
- 拥堵防加塞场景中,博弈论前决策可建模旁车的加塞意图,输出“小幅横向占位+跟车距离收紧”的决策,为轨迹优化设定横向占位边界与纵向跟车约束,避免优化输出的轨迹过于宽松给旁车留出加塞空间,同时避免过度激进导致碰撞风险。
优势与局限
优势:适配多车强交互场景,决策逻辑更接近人类驾驶员,解决了传统规则式方案的过度保守/激进问题,大幅提升城市复杂场景的通行效率;
局限:博弈均衡求解计算复杂度高,对车载算力要求高;可解释性差,求解易出现多解/不收敛,功能安全合规难度大;对周边车辆意图建模精度要求极高,建模错误将直接导致决策失误。(注入更强的先验,场景匹配性能优异,场景错配错的也离谱)
2.5 深度强化学习(DRL)前决策——复杂场景的规则补充方案
核心原理
将前决策建模为马尔可夫决策过程(MDP),以安全、效率、舒适性为核心奖励函数,通过仿真环境海量训练,让智能体学习从环境状态到行为决策的端到端映射,无需人工预设规则,自动学习复杂场景的最优决策策略,主流算法包括PPO、SAC、DQN。
行业应用现状
无全场景DRL前决策的量产方案,仅用于特定场景的规则补充与优化,如拥堵跟车、换道时机决策、紧急避让等场景,主流企业均处于研发落地并行阶段,尚未成为核心架构。
对后续轨迹优化的核心支撑
解决了人工规则无法覆盖的复杂场景决策空白,为轨迹优化提供更贴合人类驾驶习惯的初始解与约束:
- 拥堵换道场景中,人工规则难以精准判断换道时机,易出现换道失败或决策激进;DRL训练的前决策可学习到最优换道时机与间隙判断,为轨迹优化提供合理的换道目标、速度区间与横向约束,大幅提升换道轨迹的平顺性与成功率;
- 端到端DRL可直接输出优化的初始轨迹,让后续数值优化仅需做精细化平滑调整,无需从零求解,进一步提升优化效率与收敛稳定性。
优势与局限
优势:无需人工编写海量规则,避免规则爆炸问题;可学习到人类工程师无法预设的复杂场景决策策略,长尾场景泛化能力强;
局限:黑箱属性极强,可解释性几乎为零,无法满足ISO 26262功能安全要求,量产合规风险极高;训练需海量仿真与实车数据,训练成本高,模型泛化能力难以保障;易出现决策震荡,导致轨迹优化约束频繁跳变。(机器人尚能容忍,试错风险更低)
2.6 大模型驱动的语义前决策——长尾场景的泛化兜底方案
核心原理
利用多模态大模型的语义理解、常识推理、长尾泛化能力,将感知环境信息、地图信息、交通规则转化为语义描述,通过大模型实现场景理解、行为推理、决策生成,解决传统规则式方案无法覆盖的长尾Corner Case,主流架构为「大模型+传统规则」的混合方案,大模型仅做长尾兜底,传统规则保障常规场景安全。
行业应用现状
处于研发与小范围落地阶段,无全场景大模型前决策的量产方案,仅用于AI代驾、无图场景语义理解、长尾Corner Case兜底等细分场景。
对后续轨迹优化的核心支撑
核心解决了传统前决策在长尾场景下的约束缺失问题,为轨迹优化提供陌生场景下的可行解空间与安全约束,避免优化失效:
- 道路施工、临时交通管制、事故现场绕行等长尾场景中,传统规则无对应决策逻辑,无法为优化提供可行解空间,导致车辆无法通行;大模型可通过常识推理,输出「从左侧临时车道绕行」「减速跟随前车通过施工区域」的决策,为优化设定正确的路径目标、速度约束与安全边界,输出可行的通行轨迹;
- 可将用户自然语言指令转化为决策目标,如用户说“找最近的合法车位停车”,大模型可输出「靠右行驶、扫描路边车位、减速准备停车」的分层决策,为优化提供对应的约束与目标,实现自然语言交互的驾驶控制。
优势与局限
优势:具备极强的语义理解与常识推理能力,长尾场景泛化能力远超传统方案,可覆盖人工规则无法枚举的Corner Case;
局限:黑箱属性极强,幻觉问题无法彻底解决,功能安全合规性风险极高;端侧部署算力要求极高,推理延迟大,难以满足自动驾驶实时性要求;目前仅能做兜底补充,无法成为核心决策架构。
三、主流前决策方法横向对比
四、行业前决策技术的发展趋势
多方法融合的混合架构成为行业绝对主流未来前决策不会采用单一技术方案,而是形成「行为树/规则为基础核心,博弈论处理强交互场景,DRL优化特定场景策略,大模型做长尾场景兜底」的混合架构,兼顾可解释性、功能安全、泛化能力与场景适配性。
传统前决策与轨迹优化解耦的架构,存在信息损失、决策与优化冲突的问题;未来将走向决策-优化深度耦合,前决策从输出离散行为,转向输出连续的候选轨迹簇(离散决策+连续轨迹→粗轨迹+细轨迹,最优性损失更小),优化模块仅需做精细化平滑与约束校验,甚至端到端的决策规划一体化,减少中间环节,提升系统鲁棒性。
传统前决策高度依赖高精地图的车道拓扑信息,未来随着多模态感知与大模型技术的发展,前决策将基于实时感知的语义信息,直接完成场景理解、拓扑构建与行为决策,实现不依赖高精地图的全场景泛化。
五、总结
前决策是自动驾驶决策规划系统的“定盘星”,更是后续轨迹优化能够安全、高效、稳定落地的核心基础。没有高质量的前决策,再先进的数值优化算法,都会陷入解空间爆炸、局部最优、约束冲突、安全失配的困境。
从行业应用来看,以HFSM/行为树为核心的规则式方案,依然是当前量产落地的唯一主流选择;博弈论、DRL作为场景补充方案,已逐步实现量产落地;大模型语义决策,目前仅能作为长尾场景的兜底方案,距离全场景量产落地仍有较长的路要走。未来,多技术融合的混合架构,将成为自动驾驶前决策技术的长期发展方向。