阅读约12分钟 | 关键词:意图预测、轨迹预测、多模态、交互式预测、TTC
感知模块告诉我们在“哪里”有什么物体。接下来,智驾系统需要回答一个更关键的问题:这些物体接下来会做什么? 是直行、刹车、变道,还是横穿马路?这个任务由预测模块承担。
预测的准确性直接影响决策规划:如果低估了旁车加塞的意图,自车可能急刹;如果高估了行人过马路的速度,可能错过通行窗口。今天,我们讲清楚预测模块的工作原理、技术挑战和主流方法。
🧭 一、预测模块要输出什么?
给定过去几秒的观测(位置、速度、朝向、甚至环境信息),预测模块需要输出:
· 意图预测:分类任务——目标最可能采取的驾驶行为(如保持车道、左变道、右变道、停车等)。
· 轨迹预测:回归任务——未来若干秒内的具体位置点序列(通常是一组可能的轨迹,附带概率)。
· 不确定性估计:每条预测轨迹的置信度,或输出的概率分布。
自动驾驶通常需要预测未来3-5秒,频率10-20Hz。
🧠 二、预测为什么困难?
1. 交互博弈
车辆和行人的未来行为不是独立的。当你打灯准备变道时,旁边车道的后车可能加速、减速或维持不变。预测需要建模多智能体之间的相互影响,这比单物体预测复杂一个数量级。
2. 意图的多模态性
一辆车在路口可能左转、直行或右转。人类驾驶员会根据信号灯、交通流、甚至周围车辆的意图来决策,但对算法来说,这需要海量数据和场景理解。
3. 长尾与非常规行为
双闪靠边停车的故障车、突然开门下车的乘客、掉头的自行车……这些行为在训练数据中很少见,但一旦发生,预测错误可能导致事故。
4. 观测噪声与遮挡
感知模块输出的位置和速度本身有噪声。遮挡后重新出现的目标,其瞬时速度和朝向可能有跳变,预测模型需要平滑处理。
🛠️ 三、主流预测方法
1. 基于物理模型(传统)
使用运动学/动力学公式外推,例如:
· 匀速模型:假设保持当前速度。
· 匀加速模型:假设加速度恒定。
· 卡尔曼滤波:融合观测与模型,预测下一时刻状态。
优点:简单、快速、不依赖数据。
缺点:无法预测意图变化(如变道);长时间预测误差大。
物理模型常用于短期预测(0.5秒内),或作为学习方法的基线。
2. 基于意图的预测(模块化)
两步走:先预测意图(如是否变道),再在给定意图下预测轨迹。
· 意图预测:用分类器(如SVM、LSTM)根据历史轨迹、周围环境、交通规则等输出意图概率。
· 轨迹预测:为每种意图训练一个轨迹回归模型(如条件变分自编码器CVAE)。
优点:可解释性强,意图明确。
缺点:意图类别有限,难以覆盖所有可能行为。
3. 基于深度学习的直接轨迹预测(端到端)
输入历史轨迹+环境上下文(如车道线、红绿灯、周围车辆),直接输出未来轨迹。
· 循环神经网络(RNN/LSTM):处理时序数据,常用于编码历史轨迹。
· 图神经网络(GNN):建模车辆之间的交互(将每个车辆视为节点,交互关系为边)。
· Transformer:通过自注意力捕捉长距离依赖和交互。
· 生成式模型:CVAE、GAN等用于输出多模态(多种可能)轨迹。
代表工作:Waymo的VectorNet、Argoverse的LaneGCN、Tesla的交互式预测。
4. 基于学习的物理结合
混合方法:用神经网络学习残差或修正项,叠加物理模型的基础预测,既保证了短期准确性,又拥有长时预测能力。
🔁 四、预测与下游模块的耦合
预测模块的输出不是孤立的。好的设计会形成闭环反馈:
· 决策规划模块:将预测轨迹作为输入,规划自车的避让或跟车行为。如果预测某车可能切入自车道,决策模块可以提前减速让行。
· 感知模块:预测可以帮助感知。例如,预测前方车辆将被遮挡,感知模块可以提前准备模板匹配。
· 仿真测试:预测模型需要在仿真中与各种对抗性行为对抗训练,提升鲁棒性。
📊 五、常用数据集与评价指标
开源数据集:
· Argoverse 1/2:大量真实驾驶轨迹,提供地图信息。
· Waymo Open Motion Dataset:高质量多模态轨迹。
· nuScenes:包含波士顿、新加坡的复杂场景。
评价指标:
· ADE(Average Displacement Error):平均预测位置与真实位置的距离。
· FDE(Final Displacement Error):最后一帧预测位置与真实位置的距离。
· Miss Rate:预测轨迹与真实轨迹的偏离超过阈值的比率。
· minADE/minFDE:多模态预测中,取最接近真实轨迹的那条计算。
当前SOTA(State of the Art)方法在Argoverse上的minADE约0.5-1.0米(预测3秒),仍远未达到人类水平。
🚗 六、特斯拉/小鹏等是如何做的?(产品视角)
· 特斯拉:基于HydraNet的多任务网络,预测与感知共享特征。2024年FSD V12端到端后,预测模块被隐式集成在单一网络中,不再有明确的独立预测模块。
· 华为ADS:采用自研的“交互式预测”网络,结合高精地图车道拓扑,输出多模态轨迹,用于城市NOA博弈。
· 小鹏XNGP:基于Transformer的预测模型,能输出10条以上可能的轨迹,决策模块选择最安全的一条。
📌 今日思考题
1. 假设一辆车在高速上行驶,右侧车辆打灯准备变道到自车前方。预测模块需要输出哪些可能的意图和轨迹?决策模块应该如何应对?
2. 为什么说“交互式预测”比独立预测每个物体更符合真实驾驶环境?
关键词回顾
意图预测 轨迹预测 多模态 交互式预测 ADE/FDE Transformer
🎯 明天预告(第16天 / 动态篇)
结合今天的预测知识,解读一则行业事件:某品牌NOA对旁车切入预测失误导致急刹引发追尾,分析预测模块和决策逻辑的缺陷。
本系列为100天深度学习计划,每日1篇。欢迎随时提问。