当前位置：首页>自动驾驶>清华&地平线:自动驾驶“打分”就够了?SparseDriveV2用超密集候选集刷新SOTA

清华&地平线:自动驾驶“打分”就够了?SparseDriveV2用超密集候选集刷新SOTA

2026-04-21 18:09:35

🐉 龙哥读论文知识星球来了！
还在为自动驾驶领域日新月异的论文感到眼花缭乱吗？星球每日精选端到端驾驶、感知、规划、控制等前沿论文，核心方法、实验结果、代码开源，一站式速览！👇扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这篇论文挑战了一个自动驾驶领域的常见认知：动态轨迹生成比静态候选集打分更优。它通过一个巧妙的“分解-组合”思路，将看似简单的打分方法推向了新的高度，不仅在多个主流基准上刷新了SOTA，更用扎实的实验揭示了“大力出奇迹”在算法设计中的新内涵。对于追求简洁高效算法设计的同学来说，这是一篇极具启发性的工作。

原论文信息如下：

论文标题:
SparseDriveV2: Scoring is All You Need for End-to-End Autonomous Driving 发表日期:
2026年03月发表单位:
清华大学，地平线，大陆集团原文链接:
https://arxiv.org/pdf/2603.29163v1.pdf 开源代码链接:
https://github.com/swc-17/SparseDriveV2

静态词汇库真的不行吗？缩放研究揭示新洞见

在端到端自动驾驶规划中，打分法是种很自然的思路：就像你在多个导航路线里选一条最优的，模型也从一个候选轨迹集合里，根据当前环境给每条轨迹打分，然后选分最高的执行。

这个“候选轨迹集合”怎么来呢？业界有两派做法。一派用静态词汇库，就是从海量人类驾驶数据里聚类出几千条典型轨迹，当作固定“题库”。另一派用动态生成，比如用扩散模型当场生成几条候选。近几年，动态生成派似乎风头更劲，因为大家觉得静态词汇库的“题库”就那么几千条，太粗糙，覆盖不了复杂场景下千变万化的驾驶动作。

表1：基于Hydra-MDP的静态词汇库密度系统性缩放研究。我们报告了在NAVSIM v2上的EPDMS分数以及在48GB内存的NVIDIA L20 GPU上的训练内存消耗。EPDMS提升是相对于上一规模计算的。

但清华大学和地平线的这篇论文上来就问了句大实话：动态生成真的必要吗？还是说，只要我们把静态词汇库做得足够密，也能达到一样的效果？

他们做了个非常扎实的缩放研究，选了个代表性的打分法Hydra-MDP，然后不断增加它静态词汇库里轨迹锚点（Anchors）的数量。结果出人意料又合情合理：如上表所示，性能（EPDMS）随着词汇库变密而持续提升，在算力撑不住之前（32768个锚点时内存溢出OOM），完全没有饱和的迹象！

这个发现太关键了！它揭示了一个可能被长期忽视的事实：静态词汇库的瓶颈可能不在于“静态”这个属性本身，而仅仅在于“密度不够”。因为算力有限，以前大家只能做到几千个锚点，导致动作空间覆盖太粗，性能上不去，于是转头去搞更复杂的动态生成。但动态生成通常意味着更复杂的模型、额外的生成模块和迭代步骤。

那么，问题就变成了：如何优雅且高效地构建一个超级密集的静态词汇库并给它打分？这，就是SparseDriveV2要回答的问题。

化繁为简：轨迹分解与组合覆盖

把一条轨迹（比如未来4秒内车辆的行驶路线）直接当成一个整体来列举，想覆盖所有可能性，需要天文数字般的数量，完全不现实。

SparseDriveV2的核心洞察是：一条轨迹可以分解成两个几乎独立的部分：空间上的“几何路径”（Path）和时间上的“速度剖面”（Velocity Profile）。

几何路径（Path）

它只关心“车子要怎么拐弯”，是一系列按固定空间间隔（比如每隔1米）采样的位置点 (x, y)。它描述了运动的形状，但不包含任何“什么时候到哪儿”的时间信息。

速度剖面（Velocity Profile）

它只关心“车子要开多快”，是一系列按固定时间间隔（比如每隔0.5秒）的平均速度值 v_t。它描述了运动的节奏，但不关心车子是在直道还是弯道上。

这个分解妙在哪里呢？组合的力量！

图1：SparseDriveV2框架概览。SparseDriveV2将 (a) 一条时空轨迹分解为 (b) 一条几何路径和一个速度剖面，并通过 (c) 组合这两个分量来重建轨迹。这种表示使得 (d) 可以从一个紧凑的路径集和速度剖面集构造出一个超密集的轨迹词汇库。在 (e) 场景特征的条件下，可扩展的评分策略首先对路径和速度剖面进行 (f) 粗粒度的分解式评分以选择 Top-K 候选，然后对组合后的轨迹进行 (g) 细粒度评分以产生最终的规划决策。

以前，你想列举1000种不同的时空轨迹，就得实实在在存1000条。现在，你只需要存，比如说，32条典型的路径和32种典型的速度模式。当你需要一条完整轨迹时，只需要选一条路径和一个速度剖面，然后按照速度信息“行驶”在那条路径上，就能合成一条轨迹。这样，你只用 32 + 32 = 64 个基本元素，就能组合出 32 × 32 = 1024 种不同的轨迹！

在SparseDriveV2的实际实现中，规模要大得多。它从人类驾驶数据中分别聚类出 1024条路径锚点 和 256种速度锚点。通过组合，理论上可以得到 1024 × 256 = 262,144 条候选轨迹！这比之前方法常用的8192个锚点足足32倍！

这就好比餐厅以前要备1000道不同的套餐。现在，它只需要备32种主菜和32种饮料，顾客可以自由搭配，选择空间一下大了很多，但后厨的准备工作量（存储、管理）并没有爆炸式增长。这个“可扩展的词汇表示”，就是SparseDriveV2的第一个核心贡献。

高效评分秘诀：两阶段粗-细粒度筛选

词汇库是建好了，足足26万条候选。如果每条都让模型和复杂的场景信息进行精细交互来打分，计算量将是灾难性的。这时，SparseDriveV2的第二个核心设计——“可扩展的评分策略”就登场了，它采用了非常聪明的两阶段“漏斗式”筛选。

第一阶段：粗粒度分解式评分

模型分别对那1024条路径和256种速度剖面进行快速打分。这一步的逻辑非常直观：

路径打分：看看当前场景下，哪些“转弯方式”是合理的。比如，在一条直道上，那些需要急转弯的路径得分就会很低；而在十字路口，直行和左右转的路径可能都有较高的得分。

速度打分：看看当前场景下，哪些“行驶节奏”是安全的。比如，前方有障碍物或者交通拥堵时，高速行驶的速度模式得分会很低；而在畅通无阻的高速路上，低速模式可能就不是最优选择。

打完分后，模型从1024条路径里选出分数最高的K_p条（比如16条），从256种速度里选出最高的K_v种（比如16种）。

这一下子，候选空间就从 1024 × 256 = 262,144 种可能性，被“漏斗”缩小到了仅仅 16 × 16 = 256 种组合。绝大部分明显不合理的路径-速度组合（比如用最高速度去跑一个急转弯路径）在组合之前就被过滤掉了。

第二阶段：细粒度轨迹评分

现在，模型只需要对这256条由高分路径和高分速度组合而成的具体轨迹，进行精细化的评估。这里，模型不再是简单地认为路径和速度独立，而是让它们携带的信息与场景特征进行更深入的交互（论文中称为“轨迹再条件化”），以捕捉诸如“这条急转弯路径配上当前这个中速度，在湿滑路面上到底安不安全”这样的时空联合依赖关系。

公式：粗筛后的轨迹候选集 T_coarse，由选出的前 K_p 条路径和前 K_v 种速度组合而成。

最终，在这256条精英轨迹中，得分最高的那条被选出作为规划结果。

整个设计哲学清晰而优雅：先用低成本的方式（分解评分）过滤掉绝大部分“垃圾选项”，再对剩下的小部分“潜力股”进行高成本的精准评估。这使得模型能够利用一个极其庞大的候选库，但实际计算开销却与一个很小的候选库相当。

实验结果：轻量骨干也能超越SOTA

说了这么多巧妙的设计，实际效果到底如何？SparseDriveV2在两个主流的端到端驾驶基准上进行了测试：NAVSIM（开环评测）和Bench2Drive（基于CARLA的闭环评测）。

最令人印象深刻的一点是，它在几乎所有比较中都只使用了轻量级的ResNet-34作为图像主干网络。而许多对比方法，为了追求性能，使用了更强大但也更耗算力的主干，如V2-99。

表2：在NAVSIM v1 navtest排行榜上的性能。

在NAVSIM v1上（见表2），SparseDriveV2（ResNet-34）取得了92.0的PDMS分数，超越了所有使用ResNet-34的方法，包括当时最强的动态生成方法ipad（91.7）和DiffusionDriveV2（91.2）。甚至，它还超过了使用更强主干V2-99的Hydra-MDP（90.3）和GoalFlow（90.3）。

表3：在NAVSIM v2 navtest排行榜上的性能。

在指标更严格的NAVSIM v2上（见表3），SparseDriveV2（ResNet-34）的EPDMS达到了90.1，同样是使用ResNet-34方法中的第一名，并超过了使用V2-99主干的DriveSuprim（86.0）。

表4：Bench2Drive上的闭环规划性能。* 表示使用了专家特征蒸馏。

在更具挑战性的闭环仿真基准Bench2Drive上（见表4），SparseDriveV2同样表现优异，获得了89.15的驾驶分数（Driving Score）和70.00的成功率（Success Rate），在所有对比方法中名列前茅。

这些结果强有力地证明了：通过“分解-组合”构建超密词汇库，并辅以“两阶段打分”进行高效筛选，纯粹的、简单的打分法完全有能力达到甚至超越当前最先进的动态生成方法。这为自动驾驶规划模型的设计提供了一个新的、更简洁有力的范式。

图2：在急转弯场景中，SparseDriveV2比基线方法产生更平滑的轨迹。

图3：SparseDriveV2实现了更高的交通效率，而基线方法则保持静止。

方法局限与未来展望

当然，没有完美的方法。论文也诚实地列出了SparseDriveV2的一些局限性：

导航指令依赖：像许多端到端模型一样，SparseDriveV2的决策严重依赖输入的高层导航指令（比如“下一个路口左转”）。如果指令不明确或错误，模型可能会做出错误的全局路径选择（见图5）。

图5：失败案例：在某些场景下，SparseDriveV2因导航信息不足而产生了导航决策错误的轨迹。

真实世界验证：目前的所有实验都是在仿真环境中进行的。将这种方法部署到真实的自动驾驶汽车上，还需要应对传感器噪声、复杂的交通参与者行为等更多挑战。

长尾场景覆盖：尽管词汇库非常密集，但它仍然是从有限的数据中聚类得到的静态集合。对于一些极其罕见或特殊的驾驶行为（“长尾场景”），可能仍然无法完美覆盖。

展望未来，一个有趣的思路可能是将本文的“组合覆盖”思想与动态生成相结合。例如，可以维护一个基础的大规模静态组合词汇库，但在遇到不确定或复杂场景时，动态地、有针对性地在局部生成一些补充候选，从而兼具覆盖率、效率与灵活性。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

这篇论文最核心的创新点是什么？它不是发明了一个全新的模块，而是通过一个非常巧妙的视角转换，将看似过时的“静态词汇库打分法”推向了新的高度。核心创新有两个：1) 轨迹的分解与组合表示，使得可以用少量元素覆盖巨大的动作空间；2) 两阶段粗-细粒度打分策略，使得对超大规模候选集的高效评估成为可能。

“缩放研究”在这里有多重要？极其重要。它不仅仅是论文的动机，更是一个强有力的科学论证。它用实验数据“打脸”了“静态词汇库因为静态所以不行”的直觉，揭示了问题的本质是“密度不够”。这为后续所有的设计提供了坚实且令人信服的理论基础，让整个工作从“又一个改进”上升到了“澄清一个领域认知”的高度。

这个方法对硬件要求高吗？复现容易吗？从论文看，它在训练时对显存有一定要求（因为要处理大量候选），但推理时由于两阶段筛选，计算量是可控的。最棒的是，论文在开源代码中提供了完整的实现，包括数据预处理、词汇库构建、模型训练和评估脚本，复现难度相对较低，对社区非常友好。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~