当前位置：首页>自动驾驶>自动驾驶数据集的竞争点或许正悄然改变

自动驾驶数据集的竞争点或许正悄然改变

2026-06-08 03:57:23

自动驾驶数据集的竞争点或许正悄然改变

nuReasoning：面向长尾自动驾驶的推理数据集与 Benchmark

作者 | Zhiyu Huang、Johnson Liu、Rui Song、Zewei Zhou 等

机构 | University of California, Los Angeles；Motional

论文标题 | nuReasoning: A Reasoning-Centric Dataset and Benchmark for Long-Tail Autonomous Driving

项目主页 | https://nureasoning.github.io/

前言

端到端自动驾驶近几年发展很快，统一模型直接从传感器输入映射到未来轨迹，省去了传统模块化方案中大量工程堆叠。但在真实道路上，系统最容易出问题的地方往往不是常规直行、跟车或换道，而是施工区、临停车辆、弱势交通参与者、异常标志、紧急车辆等长尾场景。

这些场景对模型提出的要求，不只是识别目标类别和预测运动轨迹。模型还需要理解空间关系、交通语义、行动因果和潜在风险：哪个目标会影响自车？当前动作为什么合理？如果选择另一个动作，会不会带来碰撞或违规风险？

这正是 nuReasoning 试图解决的问题。论文将长尾自动驾驶场景组织成一个推理中心的数据集和 benchmark，不仅评估 VLM 能否回答驾驶推理问题，还进一步观察推理监督是否能改善 VLA 模型的规划性能。

图 1：nuReasoning 是一个大规模真实世界长尾驾驶数据集，包含 20K 个 20 秒驾驶片段，覆盖多种长尾场景类型。数据集提供高质量推理标注，涵盖空间推理、驾驶决策和反事实推理。相比既有数据集，nuReasoning 提供了更大规模的长尾驾驶数据和更丰富的推理标注，使基于该数据集训练的模型能够显著提升推理与规划性能。

研究背景

现有自动驾驶数据集大多围绕感知、预测或规划展开。它们能够告诉模型哪里有车、行人和车道线，未来轨迹应该如何拟合专家驾驶，但对“为什么这样开”以及“如果换一个动作会怎样”提供的监督相对有限。

与此同时，VLM/VLA 开始进入自动驾驶任务。一类方法让 VLM 输出高层意图或驾驶指令，再交给动作模块生成轨迹；另一类方法把 VLM 表征和视觉 backbone 特征融合，再由统一的动作专家解码轨迹。这些方法能够引入语义理解，但如果缺少面向驾驶场景的推理数据，模型仍然很难学到稳定的空间、因果和反事实判断。

nuReasoning 的思路是补上这块数据缺口：不仅构建长尾驾驶片段，还给每个片段配套结构化推理标注，并把 reasoning benchmark 和 planning benchmark 放在同一套数据里。这样，研究者可以同时回答两个问题：VLM 是否真正具备驾驶推理能力？推理监督是否能转化为更好的规划表现？

nuReasoning 数据集：从长尾挖掘到推理标注

nuReasoning 包含 20K 个真实驾驶片段，每个片段约 20 秒，总计约 105 小时，来自 Las Vegas、Pittsburgh、Los Angeles、Boston 等多个城市。每个片段围绕一个决策关键帧组织，包含同步多模态输入、目标标注和局部地图信息。

数据构建并不是简单从日志中随机抽样。论文先使用基于 VLM 的评估器对内部车队日志进行场景类型和难度评分，筛选出更有价值的长尾片段，再经过人工验证和关键帧选择。这样做的目的，是让数据集中更多样本落在“需要推理才能处理”的区域，而不是被大量普通驾驶片段稀释。

图 2：长尾数据挖掘与标注流程概览。（a）内部车队驾驶日志先被切分，并由基于 VLM 的评估器对场景类型和难度进行评分，随后经过人工验证和关键帧选择。（b）每个选中的 20 秒片段（10Hz）包含多视角相机图像、LiDAR 点云、高清地图、自车状态、目标标注、交通灯和路线信息。（c）标注流程结合 VLM 自动标注与人工验证/修正，以保证质量。（d）推理标注覆盖空间、决策和反事实维度，支持多类下游任务与推理能力评估。

论文将推理标注拆成三类。

第一类是 Spatial Reasoning，关注目标的 2D/3D 对应关系、车道拓扑、相对位置、运动状态以及潜在交互冲突。它回答的是“场景里有什么、它们在哪里、和自车是什么关系”。

第二类是 Decision Reasoning，关注驾驶决策的因果解释。它不仅标注自车应该采取什么 meta-action，还要求给出为什么需要这样做，例如当前是否应当轻微加速、保持车道、让行或避让。

第三类是 Counterfactual Reasoning，关注替代动作的后果分析。也就是说，数据不仅标注安全动作，还分析如果选择快速加速、向左移动或其他替代动作，会带来什么风险。这类标注对于长尾场景尤其重要，因为真实事故往往发生在“看似也能做，但其实不安全”的动作选择上。

从规模看，在 19K 个带标注片段中，nuReasoning 提供了 247K 个以 1Hz 采样的空间推理帧，以及 57K 个以 0.2Hz 采样的决策/反事实推理帧。论文还通过多类问题格式构建了超过 10M 个 QA 对，并抽样 167K 个用于训练，以平衡覆盖范围和训练效率。

Benchmark：同时考推理和规划

nuReasoning 的关键不只是数据集，而是 benchmark 设计。它把推理能力拆成 Geometry、Motion、Driving、Counterfactual 四类能力，对应几何理解、未来运动估计、驾驶决策和反事实风险评估。

这种设计比普通驾驶 VQA 更贴近自动驾驶系统。因为在真实规划中，模型不仅要知道图像中有什么，还要理解目标在 3D 空间中的位置、未来可能如何运动、当前动作是否合理，以及替代动作是否安全。

图 4：nuVLA 基线与推理评估 benchmark 概览。（a）nuVLA 以多视角、多帧相机图像和驾驶指令作为输入，编码后的隐藏状态输入轨迹 DiT，用于生成未来规划轨迹；VLM backbone 使用不同类型的推理监督进行训练。（b）在推理评估中，benchmark 覆盖 3D 几何理解、未来目标运动估计、决策制定和反事实推理等能力。

论文同时构建了 nuVLA 基线。nuVLA 使用多视角、多帧相机图像和驾驶指令作为输入，VLM backbone 负责学习场景语义和推理监督，轨迹 DiT 则负责生成未来规划轨迹。更重要的是，论文可以控制不同类型推理监督是否参与训练，从而观察空间、决策、反事实推理分别对规划性能的影响。

推理结果：通用 VLM 还不够懂驾驶

Table 2 的结果说明，通用 VLM 和驾驶专用推理之间仍然存在明显差距。Gemini 系列在部分选择题指标上表现较好，但在结构化 grounding 上仍然较弱：基础模型的几何坐标命中率低于 3%，轨迹命中率几乎为 0。这说明通用预训练能捕捉粗粒度语义，却很难可靠学习多视角驾驶场景中的几何关系和未来运动。

微调后的提升非常明显。以 Qwen3-VL-8B 为例，经过 nuReasoning 微调后，Geometry choice accuracy 从 41.2% 提升到 92.0%，Geometry numerical accuracy 从 2.8% 提升到 37.1%，Driving choice accuracy 从 53.6% 提升到 70.0%，Counterfactual choice accuracy 从 44.7% 提升到 81.6%。Qwen3.5-4B 和 Qwen3.5-9B 也呈现类似趋势，说明这种提升并不只依赖单一模型规模。

但论文也指出，未来运动推理仍然是主要难点。微调可以显著降低 trajectory L2 error，但严格的 trajectory hit 仍然接近 0。相比之下，坐标 grounding 的改善更明显。这意味着当前监督已经能帮助模型学习静态或瞬时空间关系，但对精确未来运动预测仍然不足。

表 2：四类主要能力下的推理结果。指标遵循原始答案格式，列按高层能力类别分组；默认使用多帧视觉输入。FT 表示微调，Ch. 为选择准确率，Num. 为容差内数值准确率，Coord. Hit 和 Traj. Hit 分别为坐标与轨迹命中率，Text F1 为 token 级 F1；所有数值均为百分比。Coord. L2 与 Traj. L2 为任务特定坐标单位下的平均 L2 误差，“—”表示缺失或无法解析的轨迹输出。

规划结果：推理监督确实影响轨迹规划

更值得关注的是 Table 3。论文不只证明 VLM 微调后更会回答问题，还进一步证明推理监督能够改善 VLA 的规划性能。这个结论比单纯提升 VQA 指标更重要，因为它说明语言推理有可能改变规划模型学到的中间表示。

在 nuReasoning 测试集上，最强的既有 baseline NPS 为 60.59，而只使用 planning supervision 的 nuVLA 可以达到 64.98。加入推理监督后，规划表现进一步提升。Decision reasoning 将 NPS 从 64.98 提升到 70.91，ADE 从 1.937 降到 1.676；Spatial reasoning 将 NPS 提升到 70.64，ADE 降到 1.597；Decision + Counterfactual 进一步将 NPS 提升到 72.04。

最佳结果来自 Spatial + Decision + Counterfactual 的组合，完整 nuVLA 达到 73.09 NPS 和 1.555 ADE，并在多数安全性和行驶进度指标上取得最好或接近最好的表现。这个结果说明三类推理监督是互补的：空间推理强化场景理解，决策推理改善动作选择，反事实推理帮助模型区分安全动作和不安全/次优动作。

更关键的一点是，测试时显式推理文本被关闭。也就是说，模型并不是靠推理阶段输出一段解释来提高分数，而是在训练阶段通过推理标注学到了更好的规划表示。

表 3：nuReasoning 测试集上的规划模型对比。Planning 表示轨迹规划监督；nuVLA 使用不同组成的推理监督：S 为空间推理，D 为决策推理，CF 为反事实推理。

图 5：nuReasoning 测试集上的推理与规划结果示例。推理评估使用微调后的 Qwen3.5-9B 模型，规划评估使用接受全部推理监督类型（S+D+CF）训练的 nuVLA 模型。

结论：自动驾驶数据集的竞争点正在变化

nuReasoning 的贡献可以概括为三点。

第一，它把长尾驾驶场景、结构化推理标注和规划评估放在同一套真实世界数据中。相比只做 VQA 的驾驶语言数据集，这更接近自动驾驶系统真正要解决的问题。

第二，它把推理拆成空间、决策和反事实三类，使“推理能力”不再是笼统概念，而是可以分别训练、评估和消融的监督信号。

第三，实验说明推理监督不只提升问答指标，也能改善规划模型的轨迹表现。尤其是在显式推理输出关闭的情况下，规划性能仍然提升，说明推理标注可能正在改变模型内部表示，而不只是提供可解释性展示。

当然，论文也留下了两个需要继续验证的问题。其一，nuReasoning 来自有限城市和驾驶条件，是否覆盖真实世界所有高风险长尾场景仍有待观察。其二，benchmark 主要是 open-loop evaluation，不能完全代表闭环驾驶中的行为稳定性。

总体来看，nuReasoning 的意义不在于“又多了一个自动驾驶数据集”，而在于它把自动驾驶数据集的竞争点从规模、传感器配置和轨迹标签，推进到风险、因果和决策逻辑的结构化标注。对于 VLM/VLA 进入自动驾驶规划这条路线来说，这是一个值得持续跟踪的方向。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

自动驾驶数据集的竞争点或许正悄然改变

nuReasoning：面向长尾自动驾驶的推理数据集与 Benchmark

前言

研究背景

nuReasoning 数据集：从长尾挖掘到推理标注

Benchmark：同时考推理和规划

推理结果：通用 VLM 还不够懂驾驶

规划结果：推理监督确实影响轨迹规划

结论：自动驾驶数据集的竞争点正在变化

最新文章

热门文章

随机文章

自动驾驶数据集的竞争点或许正悄然改变

nuReasoning：面向长尾自动驾驶的推理数据集与 Benchmark

前言

研究背景

nuReasoning 数据集：从长尾挖掘到推理标注

Benchmark：同时考推理和规划

推理结果：通用 VLM 还不够懂驾驶

规划结果：推理监督确实影响轨迹规划

结论：自动驾驶数据集的竞争点正在变化

30万级家用SUV标杆|理想L7,把家庭出行舒适度拉满

CVPR 2026 | 当自动驾驶遇到视觉语言导航!DriveVLN:一句指令实现裸车自主导航

最新文章

热门文章

随机文章