
🐉 龙哥读论文知识星球来了!还在为自动驾驶领域日新月异的论文感到眼花缭乱吗?星球每日精选端到端驾驶、感知、规划、控制等前沿论文,核心方法、实验结果、代码开源,一站式速览!👇扫码加入「龙哥读论文」知识星球,前沿干货、实用资源一站式拿捏~

龙哥推荐理由:
这篇论文挑战了一个自动驾驶领域的常见认知:动态轨迹生成比静态候选集打分更优。它通过一个巧妙的“分解-组合”思路,将看似简单的打分方法推向了新的高度,不仅在多个主流基准上刷新了SOTA,更用扎实的实验揭示了“大力出奇迹”在算法设计中的新内涵。对于追求简洁高效算法设计的同学来说,这是一篇极具启发性的工作。
原论文信息如下:
论文标题:
SparseDriveV2: Scoring is All You Need for End-to-End Autonomous Driving
发表日期:
2026年03月
发表单位:
清华大学, 地平线, 大陆集团
原文链接:
https://arxiv.org/pdf/2603.29163v1.pdf
开源代码链接:
https://github.com/swc-17/SparseDriveV2
静态词汇库真的不行吗?缩放研究揭示新洞见
在端到端自动驾驶规划中,打分法是种很自然的思路:就像你在多个导航路线里选一条最优的,模型也从一个候选轨迹集合里,根据当前环境给每条轨迹打分,然后选分最高的执行。
这个“候选轨迹集合”怎么来呢?业界有两派做法。一派用静态词汇库,就是从海量人类驾驶数据里聚类出几千条典型轨迹,当作固定“题库”。另一派用动态生成,比如用扩散模型当场生成几条候选。近几年,动态生成派似乎风头更劲,因为大家觉得静态词汇库的“题库”就那么几千条,太粗糙,覆盖不了复杂场景下千变万化的驾驶动作。
表1:基于Hydra-MDP的静态词汇库密度系统性缩放研究。我们报告了在NAVSIM v2上的EPDMS分数以及在48GB内存的NVIDIA L20 GPU上的训练内存消耗。EPDMS提升是相对于上一规模计算的。
但清华大学和地平线的这篇论文上来就问了句大实话:动态生成真的必要吗?还是说,只要我们把静态词汇库做得足够密,也能达到一样的效果?
他们做了个非常扎实的缩放研究,选了个代表性的打分法Hydra-MDP,然后不断增加它静态词汇库里轨迹锚点(Anchors)的数量。结果出人意料又合情合理:如上表所示,性能(EPDMS)随着词汇库变密而持续提升,在算力撑不住之前(32768个锚点时内存溢出OOM),完全没有饱和的迹象!
这个发现太关键了!它揭示了一个可能被长期忽视的事实:静态词汇库的瓶颈可能不在于“静态”这个属性本身,而仅仅在于“密度不够”。因为算力有限,以前大家只能做到几千个锚点,导致动作空间覆盖太粗,性能上不去,于是转头去搞更复杂的动态生成。但动态生成通常意味着更复杂的模型、额外的生成模块和迭代步骤。
那么,问题就变成了:如何优雅且高效地构建一个超级密集的静态词汇库并给它打分?这,就是SparseDriveV2要回答的问题。
化繁为简:轨迹分解与组合覆盖
把一条轨迹(比如未来4秒内车辆的行驶路线)直接当成一个整体来列举,想覆盖所有可能性,需要天文数字般的数量,完全不现实。
SparseDriveV2的核心洞察是:一条轨迹可以分解成两个几乎独立的部分:空间上的“几何路径”(Path)和时间上的“速度剖面”(Velocity Profile)。
它只关心“车子要怎么拐弯”,是一系列按固定空间间隔(比如每隔1米)采样的位置点 (x, y)。它描述了运动的形状,但不包含任何“什么时候到哪儿”的时间信息。
它只关心“车子要开多快”,是一系列按固定时间间隔(比如每隔0.5秒)的平均速度值 vt。它描述了运动的节奏,但不关心车子是在直道还是弯道上。
图1:SparseDriveV2框架概览。SparseDriveV2将 (a) 一条时空轨迹分解为 (b) 一条几何路径和一个速度剖面,并通过 (c) 组合这两个分量来重建轨迹。这种表示使得 (d) 可以从一个紧凑的路径集和速度剖面集构造出一个超密集的轨迹词汇库。在 (e) 场景特征的条件下,可扩展的评分策略首先对路径和速度剖面进行 (f) 粗粒度的分解式评分以选择 Top-K 候选,然后对组合后的轨迹进行 (g) 细粒度评分以产生最终的规划决策。
以前,你想列举1000种不同的时空轨迹,就得实实在在存1000条。现在,你只需要存,比如说,32条典型的路径和32种典型的速度模式。当你需要一条完整轨迹时,只需要选一条路径和一个速度剖面,然后按照速度信息“行驶”在那条路径上,就能合成一条轨迹。这样,你只用 32 + 32 = 64 个基本元素,就能组合出 32 × 32 = 1024 种不同的轨迹!
在SparseDriveV2的实际实现中,规模要大得多。它从人类驾驶数据中分别聚类出 1024条路径锚点 和 256种速度锚点。通过组合,理论上可以得到 1024 × 256 = 262,144 条候选轨迹!这比之前方法常用的8192个锚点足足32倍!
这就好比餐厅以前要备1000道不同的套餐。现在,它只需要备32种主菜和32种饮料,顾客可以自由搭配,选择空间一下大了很多,但后厨的准备工作量(存储、管理)并没有爆炸式增长。这个“可扩展的词汇表示”,就是SparseDriveV2的第一个核心贡献。
高效评分秘诀:两阶段粗-细粒度筛选
词汇库是建好了,足足26万条候选。如果每条都让模型和复杂的场景信息进行精细交互来打分,计算量将是灾难性的。这时,SparseDriveV2的第二个核心设计——“可扩展的评分策略”就登场了,它采用了非常聪明的两阶段“漏斗式”筛选。
模型分别对那1024条路径和256种速度剖面进行快速打分。这一步的逻辑非常直观:
路径打分:看看当前场景下,哪些“转弯方式”是合理的。比如,在一条直道上,那些需要急转弯的路径得分就会很低;而在十字路口,直行和左右转的路径可能都有较高的得分。
速度打分:看看当前场景下,哪些“行驶节奏”是安全的。比如,前方有障碍物或者交通拥堵时,高速行驶的速度模式得分会很低;而在畅通无阻的高速路上,低速模式可能就不是最优选择。
打完分后,模型从1024条路径里选出分数最高的Kp条(比如16条),从256种速度里选出最高的Kv种(比如16种)。
这一下子,候选空间就从 1024 × 256 = 262,144 种可能性,被“漏斗”缩小到了仅仅 16 × 16 = 256 种组合。绝大部分明显不合理的路径-速度组合(比如用最高速度去跑一个急转弯路径)在组合之前就被过滤掉了。
现在,模型只需要对这256条由高分路径和高分速度组合而成的具体轨迹,进行精细化的评估。这里,模型不再是简单地认为路径和速度独立,而是让它们携带的信息与场景特征进行更深入的交互(论文中称为“轨迹再条件化”),以捕捉诸如“这条急转弯路径配上当前这个中速度,在湿滑路面上到底安不安全”这样的时空联合依赖关系。
公式:粗筛后的轨迹候选集 T_coarse,由选出的前 K_p 条路径和前 K_v 种速度组合而成。
最终,在这256条精英轨迹中,得分最高的那条被选出作为规划结果。
整个设计哲学清晰而优雅:先用低成本的方式(分解评分)过滤掉绝大部分“垃圾选项”,再对剩下的小部分“潜力股”进行高成本的精准评估。这使得模型能够利用一个极其庞大的候选库,但实际计算开销却与一个很小的候选库相当。
实验结果:轻量骨干也能超越SOTA
说了这么多巧妙的设计,实际效果到底如何?SparseDriveV2在两个主流的端到端驾驶基准上进行了测试:NAVSIM(开环评测)和Bench2Drive(基于CARLA的闭环评测)。
最令人印象深刻的一点是,它在几乎所有比较中都只使用了轻量级的ResNet-34作为图像主干网络。而许多对比方法,为了追求性能,使用了更强大但也更耗算力的主干,如V2-99。
表2:在NAVSIM v1 navtest排行榜上的性能。
在NAVSIM v1上(见表2),SparseDriveV2(ResNet-34)取得了92.0的PDMS分数,超越了所有使用ResNet-34的方法,包括当时最强的动态生成方法ipad(91.7)和DiffusionDriveV2(91.2)。甚至,它还超过了使用更强主干V2-99的Hydra-MDP(90.3)和GoalFlow(90.3)。
表3:在NAVSIM v2 navtest排行榜上的性能。
在指标更严格的NAVSIM v2上(见表3),SparseDriveV2(ResNet-34)的EPDMS达到了90.1,同样是使用ResNet-34方法中的第一名,并超过了使用V2-99主干的DriveSuprim(86.0)。
表4:Bench2Drive上的闭环规划性能。* 表示使用了专家特征蒸馏。
在更具挑战性的闭环仿真基准Bench2Drive上(见表4),SparseDriveV2同样表现优异,获得了89.15的驾驶分数(Driving Score)和70.00的成功率(Success Rate),在所有对比方法中名列前茅。
这些结果强有力地证明了:通过“分解-组合”构建超密词汇库,并辅以“两阶段打分”进行高效筛选,纯粹的、简单的打分法完全有能力达到甚至超越当前最先进的动态生成方法。 这为自动驾驶规划模型的设计提供了一个新的、更简洁有力的范式。
图2:在急转弯场景中,SparseDriveV2比基线方法产生更平滑的轨迹。
图3:SparseDriveV2实现了更高的交通效率,而基线方法则保持静止。
方法局限与未来展望
当然,没有完美的方法。论文也诚实地列出了SparseDriveV2的一些局限性:
导航指令依赖:像许多端到端模型一样,SparseDriveV2的决策严重依赖输入的高层导航指令(比如“下一个路口左转”)。如果指令不明确或错误,模型可能会做出错误的全局路径选择(见图5)。
图5:失败案例:在某些场景下,SparseDriveV2因导航信息不足而产生了导航决策错误的轨迹。
真实世界验证:目前的所有实验都是在仿真环境中进行的。将这种方法部署到真实的自动驾驶汽车上,还需要应对传感器噪声、复杂的交通参与者行为等更多挑战。
长尾场景覆盖:尽管词汇库非常密集,但它仍然是从有限的数据中聚类得到的静态集合。对于一些极其罕见或特殊的驾驶行为(“长尾场景”),可能仍然无法完美覆盖。
展望未来,一个有趣的思路可能是将本文的“组合覆盖”思想与动态生成相结合。例如,可以维护一个基础的大规模静态组合词汇库,但在遇到不确定或复杂场景时,动态地、有针对性地在局部生成一些补充候选,从而兼具覆盖率、效率与灵活性。
龙迷三问
这篇论文最核心的创新点是什么?它不是发明了一个全新的模块,而是通过一个非常巧妙的视角转换,将看似过时的“静态词汇库打分法”推向了新的高度。核心创新有两个:1) 轨迹的分解与组合表示,使得可以用少量元素覆盖巨大的动作空间;2) 两阶段粗-细粒度打分策略,使得对超大规模候选集的高效评估成为可能。
“缩放研究”在这里有多重要?极其重要。它不仅仅是论文的动机,更是一个强有力的科学论证。它用实验数据“打脸”了“静态词汇库因为静态所以不行”的直觉,揭示了问题的本质是“密度不够”。这为后续所有的设计提供了坚实且令人信服的理论基础,让整个工作从“又一个改进”上升到了“澄清一个领域认知”的高度。
这个方法对硬件要求高吗?复现容易吗?从论文看,它在训练时对显存有一定要求(因为要处理大量候选),但推理时由于两阶段筛选,计算量是可控的。最棒的是,论文在开源代码中提供了完整的实现,包括数据预处理、词汇库构建、模型训练和评估脚本,复现难度相对较低,对社区非常友好。
如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~龙哥点评
论文创新性分数:★★★★☆ (四星)
核心创新不在于发明前所未有之物,而在于通过一个极其优雅的分解组合思想和扎实的缩放分析,对一个经典范式进行了“文艺复兴”式的复兴和突破,视角新颖,洞察深刻。实验合理度:★★★★★ (五星)
实验设计全面,在两个主流权威基准(NAVSIM, Bench2Drive)上与SOTA方法进行了充分对比,并严格控制了主干网络等变量以进行公平比较。缩放研究部分数据扎实,极具说服力。学术研究价值:★★★★★ (五星)
价值巨大。它不仅提出了一个高性能方法,更重要的是挑战并可能改变了一个细分领域的技术路线认知,证明了“简单方法”的潜力远未被挖掘尽。其“分解-组合”和“两阶段筛选”的思想具有很好的启发性,可迁移到其他需要从大规模离散候选集中做决策的任务中。稳定性:★★★★☆ (四星)
作为一种基于学习的打分方法,其稳定性依赖于训练数据的质量和覆盖度。论文在仿真基准上表现出了很强的鲁棒性。但由于是纯粹的仿生学习,在面对完全超出训练分布的极端对抗性或规则冲突场景时,其行为确定性可能不如部分基于规则的混合方法。适应性以及泛化能力:★★★★☆ (四星)
方法本身对场景没有特殊假设,理论上可以适应各种驾驶环境。泛化能力主要受限于其静态词汇库的来源数据。如果在新地区(驾驶习惯、道路拓扑不同)部署,可能需要用当地数据重新构建或微调词汇库和模型。硬件需求及成本:★★★☆☆ (三星)
训练阶段由于需要处理超大规模候选集进行监督,对显存要求较高(见缩放研究表格)。推理阶段得益于高效的两阶段筛选,计算开销得到良好控制,但仍比一些极简的回归型方法要高。属于用一定的离线训练成本换取在线推理性能的权衡。复现难度:★★★★☆ (四星)
论文提供了完整的开源代码,步骤详细,极大地降低了复现门槛。主要难点可能在于准备大规模驾驶数据集和运行完整训练所需的计算资源。产品化成熟度:★★★☆☆ (三星)
在仿真环境中已证明其顶尖性能,具备了产品化的核心算法基础。但迈向真实车载应用,还需通过大量的实车路测来验证其对复杂传感器输入、极端天气、系统延迟等现实因素的鲁棒性,并进行相应的工程优化和稳定化部署。可能的问题:
论文本身非常扎实。若以顶会最高标准审视,或许可以在理论分析上更进一步,例如对“多密才算足够密”给出更形式化的边界分析,或对两阶段筛选策略的最优性进行探讨。但这更多是锦上添花的要求。[1] SparseDriveV2: Scoring is All You Need for End-to-End Autonomous Driving. Wenchao Sun, Xuewu Lin, Keyu Chen, Zixiang Pei, Xiang Li, Yining Shi, Sifa Zheng. arXiv:2603.29163v1, 2026.[18] Hydra-MDP: End-to-End Multimodal Planning with Multi-Target Hydra-Distillation. Yao et al., CVPR 2024.[3] NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking. Cai et al., ECCV 2024.[12] Bench2Drive: A Large-Scale 4D Benchmark for Closed-Loop Autonomous Driving. Lu et al., NeurIPS 2024.*本文仅代表个人理解及观点,不构成任何论文审核或者项目落地推荐意见,具体以相关组织评审结果为准。欢迎就论文内容交流探讨,理性发言哦~ 想了解更多原文细节的小伙伴,可以点击左下角的"阅读原文",查看更多原论文细节哦!
🚗 想和更多自动驾驶、机器人领域的小伙伴交流SparseDriveV2这样的前沿工作吗?欢迎加入龙哥读论文粉丝群,
扫描下方二维码或者添加龙哥助手微信号加群:kangjinlonghelper。
一定要备注:研究方向+地点+学校/公司+昵称(如 自动驾驶+北京+清华+龙哥),根据格式备注,可更快被通过且邀请进群。