当前位置：首页>自动驾驶>还在用Diffusion做端到端自动驾驶? 美团提出DriveAnchor:流匹配+Anchor才是量产答案

还在用Diffusion做端到端自动驾驶? 美团提出DriveAnchor:流匹配+Anchor才是量产答案

2026-06-18 14:46:53

扫描下方二维码，添加交流群深入交流

近距碰撞率暴降89%，平均奖励飙升32%，而模仿学习精度纹丝不动——这是端到端规划领域一次悄悄颠覆认知的工程跃进。读完本文，你不仅能完整搞懂这套“三阶段渐进式Anchor流学习”的每一个技术细节，还将获得一种将多样性、可控性与安全性彻底解耦的工业级落地思路。

❓ 为什么你该花10分钟读完它？

现在主流流匹配（Flow Matching, FM）做自动驾驶规划看起来很优雅：单步推理、确定性输出、能模仿专家轨迹。但一到了真实道路，三个硬伤立刻暴露：

1. 多样性靠运气——没有结构化先验，模型遇到长尾场景只会一句“臣妾做不到”，直接哑火。
2. 可控性要天价——想让车按某个走廊走（比如变道指定的空隙），就得把整个模型重新训练一遍，成本爆炸。
3. 安全性学不会——纯模仿只会对危险行为“模仿到底”，无法直接优化碰撞避让。

更棘手的是，这些缺陷互相纠缠。想要用RL对齐安全性，可经典策略梯度需要，而流匹配的确定性ODE根本算不出。想要在推理时注入约束，可驾驶安全Reward不可微，无法用在梯度引导上。这套死锁让很多团队止步于论文里的干净仿真。

DriveAnchor却用一个巧妙到极点的组合式管线，将三个问题分别扔给了三个完全解耦的阶段，并且每一个阶段都可以独立更新。接下来，我们深入到每一个算子和每一个训练技巧的层面，把它的设计直觉拆个干干净净。

🛠 先看一个底层动机：为什么需要“Voronoi”般干净的空间划分？

驱动整个框架的灵魂不是Transformer，而是一个拥有2398种轨迹“单词”的Anchor词汇表。要理解为什么它这么重要，我们得先看看传统的ε-ball采样会闹出什么笑话。

图：ε-ball采样（左两列）存在重叠盲区，而Voronoi细胞（右两列）实现全空间无缝划分，这正是构建Anchor词汇表的核心动机。

回想一下，当模型需要从噪音输入生成轨迹时，它必须依赖一个参考“基座”——Anchor。如果Anchor分布不均匀，一些罕见驾驶动作根本找不到合适的“近邻”来引导生成，梯度信号就会把不同模式搅在一起，导致模式坍塌。论文用ϵ-ball和Voronoi细胞的可视化对比，斩钉截铁地告诉我们：只有像Voronoi图那样无重叠、无死角的划分，才能让每一个GT轨迹都能“认领”到最匹配的Anchor。DriveAnchor的第一步，就是用FPS（最远点采样）在超1亿帧的历史语料上，挑选出2398个运动学上可行的轨迹基元，天然覆盖了直行、转弯、变道等全部机动类别。这等于给了模型一本“轨迹字典”。

🏗️ 架构：三段式训练，一条推理流水线

接下来，我们把整个系统的脉搏摸一遍。下面这张架构图，强烈建议你配合下文讲解反复回看。

图：DriveAnchor三阶段训练与推理部署全景。第一阶段学习多样性，第二阶段注入几何可控性，第三阶段对齐安全Reward，三个阶段完全解耦。

架构图清晰地展示了从场景编码到最终轨迹选择的完整链路。场景编码器输入自车状态、道路图、障碍物和交通灯，输出场景特征。接下来的三阶段像三条独立的生产线：

• Stage 1：只靠流匹配让模型学会“根据Anchor预测GT”，训练出多样化的轨迹分布。
• Stage 2：引入一个**能量场（Energy Field, EF）**模块，它吃进静态道路几何和“多边形预设”（走廊约束），在FM生成前把Anchor重定位到指定区域，增加可控性——而且FM本身不用动。
• Stage 3：零阶强化学习上场，它对FM的输出进行安全Reward微调，但不需要计算，而是直接在Anchor空间做有限差分搜索，将碰撞率打到极低。

推理时，从在线场景特征出发，经过EF重匹配、FM+RL生成Top-K候选轨迹，最后交给独立的代价选择器。整个过程在NVIDIA Drive Orin上只需2.06毫秒。

下面，我们按训练的顺序，把每个阶段的“内功心法”一一剖开。

💡 Stage 1：用“轨迹词典”驯服多样性

流匹配的本质是学习一个速度场，将先验分布推到专家分布。传统做法是，然后预测。但DriveAnchor最胆大的修改是——扔掉时间步，直接利用Anchor近邻性：

其中就是结构化Anchor。损失仍然是均方误差，但模型不需要知道，它直接学预测。在推理时令，一次前传就恢复出轨迹。

由于每个GT都落在Anchor的“势力范围”内，残差极小，因此两次顺序前传（FM*2）就能把误差压低到接近精确解。

不过，单纯用KNN检索Anchor会出大问题。在Sparse Anchor区域，近邻可能来自完全不同的机动模式，梯度一混淆，模型就干脆躺平，只生成那种最“平均”的轨迹——模式坍塌。

DriveAnchor用了一个优雅的ϵ-ball滤波器来解决：只有距离小于阈值的Anchor才被允许成为邻居。这样无论局部密度如何，有效邻域永远被约束在同一个机动模式内部。

图：左侧在ϵ-ball约束下生成了多样的轨迹模式；右侧去掉约束后模式坍塌为单一主导轨迹。

看上面的可视化对比就一目了然。左边带着ϵ-ball，轨迹像一把伞一样散开，把路口可能的各种走向都覆盖到了；右边一摘掉约束，几乎全部收敛到一条最保险（但也最没用）的路径。这个设计，为后续安全微调铺好了方向丰富的搜索空间。

💡 Stage 2：几何驱动的“走廊导航仪”

第一阶段学出来的模型虽然花样多，但根本听不懂人话——你没办法告诉它“请在左数第二个空隙变道”。传统做法是从头训练或加可微引导，成本高得离谱。

DriveAnchor另辟蹊径，训练一个能量场EF模块，它的输入纯是静态道路几何（多边形预设），输出一个位移修正量：

重新匹配回词汇表后，再输给FM解码。这套流程最惊艳的地方在于，EF和FM处理正交信号：EF只看静态路型，FM专管动态博弈。当你要新增一个“短距硬截止变道”的预设时，只需用750万样本把EF后训练一下，FM纹丝不动。

图：六种驾驶场景下的EF多边形预设，不同的进出区域编码了车道保持、路口转向、变道等行为。

这六个子图展示了EF的多边形如何把驾驶意图翻译成几何约束。每个场景定义了一个轨迹必须进入的区域和必须离开的出口边。EF的训练损失也很直接：如果一个Anchor已经是“好轨迹”（进入指定区域并从正确边离开），位移修正量为0；否则把它拉向最近的好轨迹。整个过程没有碰撞检测，EF的唯一职责就是空间合规。

💡 Stage 3：用“方向试探”替代策略梯度

终于来到最硬核的第三阶段。强化学习的目标是最大化：

问题是是黑盒碰撞检测，根本没梯度。常规RL得算，但流匹配的确定性映射根本没法给你这个值——难道要强行套上高斯SDE做近似，引入一堆偏差？

DriveAnchor利用了一个关键性质：单步模式下，是确定性的FFN，一个Anchor唯一确定一条轨迹。于是，安全优化退化为在Anchor空间里做方向搜索。具体做法是这样的：

对于每个Query Anchor ，在它的ϵ-ball邻居里找N个相邻Anchor，计算它们的Reward差异，然后用加权有限差分估计梯度方向：

其中权重按距离排名指数衰减。这个公式相当于收集了N个方向上的安全提升信号，然后合成一个最优的“牵引向量”。将它作为停止梯度常数乘到输出上，就形成了RL损失，和FM损失联合训练。

整个过程中，不需要，不需要SDE转换，不需要可微Reward，只需要黑盒碰撞检测器就能跑。RL损失权重保持适度，确保模仿精度不崩塌。

📊 数据不会撒谎：碰撞率骤降，可控性起飞

我们用最直观的表格和可视化来验证三个阶段的叠加效果。

表：EF先验修改消融，EF1+FMRL2在轨迹精度、安全性和平均奖励上全面领先。

从表1可以读出几个关键信息：原始FM2的近距碰撞率高达27.2%，加入RL后（FMRL2）一脚踩到2.9%，远距碰撞也同步断崖下降，同时gt_ADE几乎不变，说明没有牺牲对专家轨迹的模仿质量。当EF介入后（EF1+FMRL2），近距碰撞进一步压到1.9%，而min_ADE@80从1.34缩到0.95，证明走廊引导不仅安全，还让生成轨迹更集中、更贴近道路拓扑。

表：对Top-50轨迹（按速度幅值排序）的性能评估，FMRL2将近距误差从13.7%打到0.47%。*

再缩小范围看Top-50候选，FMRL*2的表现更加暴力，近距碰撞率被压低了29倍。这意味着当最终的代价选择器做决策时，候选池里几乎全是安全的、高质量的轨迹。

图：四种配置下的Top-50轨迹分布。加入RL后轨迹高度集中、贴合道路结构，EF则提供了精确的走廊目标定位。

可视化四种配置的轨迹分布，能清晰感受到RL的“收束”效果：FM2的轨迹像炸开的烟花，很多都偏离了道路可行区域；而EF1+FMRL*1已经能精准聚焦到预定走廊内，整个轨迹簇整齐划一。

训练动态也很健康。下面这张图显示，三个阶段全部稳定收敛，第三阶段的FM loss和冻结基线几乎重叠，说明安全优化是在不破坏已有模仿技能的前提下额外注入的能力。

图：Stage 1 FM Loss收敛，Stage 2 EF Loss下降，Stage 3 Mean Reward快速提升，碰撞时间分布右移。

在锚点邻居数量N的消融中，N=4时方向覆盖仅2.5%，RL近乎无效；当N=16时，性能达到最优，且再增大收益甚微。这印证了只要2398个Anchor构建了多样化的基，适度的方向搜索就足够完成安全对齐。

表：锚点邻居数量N的消融，N=16获得最佳安全与Reward平衡。

最后，必须提一下实车验证。在NVIDIA Drive Orin上，整套模型以float16精度运行，推理仅2.06毫秒，已经在真车上跑过行人横穿、路口混行等复杂场景。成本和精度都对量产友好。

图：DriveAnchor在NVIDIA Drive Orin上的真实城市道路定性结果，覆盖行人横穿、密集并线等复杂工况。

⚖️ 局限与思考

这套框架并非完美。依赖海量内部数据集，没有在公开benchmark上评测，对罕见长尾动作的覆盖受限于FPS语料库。另外，EF目前只有空间约束，未来加入时间性引导（如要求在T秒内通过某个航点）将极大提升对时机的控制力，比如间隙选择场景。作者提出的基于Voronoi的Anchor采样方案，一旦落地，能让重匹配在构造上变得精确，彻底消除运动学退化，这又是一个有意思的演进方向。

你读到这里，是否也在思考：这套将多样性、可控性、安全性完全解耦的“三段式”思路，是不是也可以复用到你手头那些棘手的生成式任务上？欢迎在评论区分享你的构想。

🌟 三个核心收获，帮你10秒抓住本质

• Anchor词汇表：用2398个轨迹基元替代无结构高斯先验，给多样性套上结构化紧箍咒。
• 能量场EF：只靠静态几何做走廊引导，与FM独立更新，新增行为预设成本极低。
• 零阶RL：巧用确定性映射，把安全优化变成Anchor空间的方向搜索，无需，黑盒Reward直接可用。

🤔 互动时间：你认为这种三阶段解耦的设计，最可能率先颠覆自动驾驶的哪个细分场景？高速巡航、城区路口还是自动泊车？评论区留下你的观点！如果觉得这篇深度拆解对你有帮助，点赞+在看就是最好的支持，分享给你的技术伙伴，一起打破纯模仿学习的瓶颈。

#AI技术 #自动驾驶 #轨迹规划 #流匹配 #模型优化 #技术干货 #论文解读

参考

DriveAnchor: Progressive Anchor-based Flow Learning for Autonomous Driving Planning

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

参考

还在用Diffusion做端到端自动驾驶? 美团提出DriveAnchor:流匹配+Anchor才是量产答案

❓ 为什么你该花10分钟读完它？