当前位置：首页>自动驾驶>nuReasoning:让自动驾驶学会“解释自己”

nuReasoning:让自动驾驶学会“解释自己”

2026-06-16 19:31:14

点击卡片关注我们，获取具身智能一手资讯

自动驾驶系统已经能够完成很多标准驾驶任务。

摄像头和 LiDAR 负责感知周围环境，检测模型识别车辆、行人、车道线和红绿灯，预测模块估计其他交通参与者的运动趋势，规划模块再生成未来几秒的驾驶轨迹。

在正常道路上，这套流程已经相当成熟，但真实道路从来不只由标准场景组成。

施工区域突然压缩车道，临停车辆挡住前方视野，行人从遮挡处走出，动物出现在路面上，紧急车辆正在靠近，交通标志临时变化，前方车辆突然减速，路口还同时存在红绿灯、斑马线和转向需求。

这些情况不一定高频出现，却往往决定自动驾驶系统能否真正可靠。面对这些情况我们需要的是：

推理。

在这类长尾场景里，模型只知道“看见了什么”远远不够。它还需要理解目标之间的空间关系，判断哪些对象真正影响驾驶，选择合适动作，并评估其他动作可能带来的后果。

这篇来自 UCLA 和 Motional 的工作，提出了一个面向长尾自动驾驶场景的推理数据集和基准。

论文标题nuReasoning: A Reasoning-Centric Dataset and Benchmark for Long-Tail Autonomous Driving
项目地址https://nureasoning.github.io/
论文地址https://arxiv.org/abs/2605.31572

它希望让自动驾驶模型在训练中接触到更完整的驾驶思考过程，包括场景结构、驾驶决策和替代动作风险。

换句话说，模型不只要学会输出轨迹，还要学会理解为什么应该这样开。

现有数据集的不足

自动驾驶领域已经有很多重要数据集。

nuScenes、Waymo、Argoverse 等数据集推动了 3D 感知、目标检测和轨迹预测的发展。nuPlan、NAVSIM 等数据集进一步服务于规划评测。

更进一步，Impromptu VLA 等工作已经开始面向驾驶 VLA 模型构建开放数据和动作监督，试图把视觉理解、语言描述和驾驶动作连接起来。它说明自动驾驶研究已经不再只关注感知和轨迹，也开始关注语言和动作之间的关系。

这些数据集都很有价值，然而它们大多还没有系统地覆盖驾驶推理。

传统标注通常告诉模型车辆在哪里、行人在哪里、自车未来轨迹是什么。模型能学到输入和输出之间的对应关系，却不一定能学到中间的决策依据。

在复杂场景中，这个中间过程非常重要。

前车减速时，自车为什么要减速？
施工桶收窄车道时，哪些区域不能进入？
一个行人站在路边时，他是否会影响当前决策？
保持速度、左变道、右变道分别会带来什么风险？

这些问题很难只靠轨迹监督学清楚。

nuReasoning 的目标就是把这些信息补进去。它把自动驾驶数据组织成一个更接近人类驾驶思考的结构，让模型同时学习场景理解、决策理由和风险判断。

三类推理标注

nuReasoning 的核心设计，是将驾驶推理拆成三类。第一类是空间推理，帮助模型理解道路场景的几何结构。

它描述场景中各个目标和自车之间的关系。例如，某辆车在自车前方 26.5 米，处于同一车道，正在减速；某个行人靠近斑马线；某个施工桶让当前车道变窄；某个图像中的 2D 框对应到自车坐标系下的某个 3D 位置。

第二类是决策推理，帮助模型理解驾驶动作背后的原因。

它说明自车应该采取什么动作，以及这个动作和当前场景之间的关系。比如，在前车减速且施工桶收窄车道时，自车应当轻微减速，并保持在车道中央，以维持安全距离和稳定行驶。第三类是反事实推理，让模型知道哪些动作不该做，以及不该做的原因。

它分析其他可能动作会带来的后果。比如，保持速度会让跟车距离快速缩短，之后可能需要急刹；向右变道可能撞上施工车辆或路障；快速加速会增加与前方行人或车辆冲突的风险。

三类标注合在一起，形成了一个更完整的驾驶学习信号。

模型先理解周围环境，再识别关键风险，然后选择动作，同时学习其他动作为什么更危险或更低效。

这比单纯模仿人类轨迹提供了更丰富的信息。

数据来源与长尾覆盖

nuReasoning 包含 20,000 个真实驾驶片段，每个片段约 20 秒，总时长约 105 小时。数据来自真实自动驾驶车队日志，覆盖 Las Vegas、Pittsburgh、Los Angeles 和 Boston 等城市。

每个片段都包含多视角摄像头图像、LiDAR 点云、车辆状态、3D 目标框、高清地图、交通灯状态、自车路线和高层导航指令。

论文没有把单帧图像作为最小单位，而是以 20 秒片段为单位组织数据。这样可以保留驾驶过程中的时间信息，让模型看到过去几秒发生了什么，也能对应未来几秒的场景演化。

这对驾驶很重要。

因为很多决策不能从单帧图像中看出来。前车是在正常行驶还是正在减速，行人是在等待还是准备过街，相邻车道车辆是否正在靠近，都需要结合时间上下文判断。

nuReasoning 还特别强调长尾场景覆盖。数据中包含施工区域、交通控制异常、静止车辆阻挡、弱势交通参与者、动物上路、紧急车辆等情况。

这些场景往往不常见，但对安全性影响很大。一个系统如果只在普通跟车和直行场景中表现良好，遇到施工、遮挡、临停和突发目标时仍然可能失效。

数据构建过程

nuReasoning 的数据构建可以拆成四个模块：长尾场景挖掘、数据结构整理、标注流水线和推理标注结果。从主线流程看，它可以概括为两个核心阶段。

第一阶段是长尾场景挖掘。

作者从 Motional 的自动驾驶车队日志中切分候选片段，然后使用基于 Gemini 3.1 Pro 的视觉语言模型评估每个片段的驾驶难度和场景类型。

评估器会给每个片段打 1 到 10 分。1 代表普通驾驶，10 代表高度复杂或罕见的场景。系统保留分数较高的片段，再由人类专家审核，并选出具有决策意义的关键帧。

最终，被保留下来的片段中，81.72% 被专家确认属于长尾和挑战性场景。

第二阶段是推理标注。

系统先通过 VLM 和几何匹配流程生成可扩展的预标注：空间推理依赖 2D 检测、2D-3D 关联和语义关系计算，决策推理与反事实推理则主要由 Gemini 3.1 Pro 基于多模态上下文生成。随后，人类专家对这些标注进行检查、修正或过滤，确保最终进入数据集的标注具有较高可靠性。

在空间推理中，模型会从多视角图像中检测驾驶相关目标，并把 2D 图像目标和 3D 标注目标对应起来，得到目标在自车坐标系中的位置、速度、类别和潜在冲突关系。

在决策推理中，系统结合多视角视频、自车真实轨迹、空间推理结果、地图上下文和导航指令，生成场景描述、关键因素、驾驶动作和推理解释。

在反事实推理中，系统枚举一些可能的替代动作，判断它们属于安全、次优还是危险，并给出具体原因。

这套流程的优势在于规模和质量之间的平衡。

如果完全依赖人工标注，成本高，很难覆盖大量长尾场景。完全依赖模型自动生成，又容易引入错误。nuReasoning 用模型负责大规模生成，用专家负责验证和修正，使数据能够在规模和可靠性之间取得相对合理的平衡。

驾驶推理与规划表现

nuReasoning 的实验主要评估模型在驾驶推理和规划上的表现。

推理能力的测评包括几何理解、运动理解、驾驶决策、反事实推理。模型需回答目标位置、速度、动作选择及替代动作风险等问题。指标包括准确率、坐标误差、轨迹误差和文本匹配分数。

实验结果显示，微调 nuReasoning 后，模型推理准确率显著提升。例如 Qwen3-VL-8B 的几何选择题从 41% 提升到 92%，反事实选择题从 45% 提升到 82%。未来运动预测仍有挑战，但坐标与静态理解提升明显。

规划能力方面评估 VLA 在长尾场景生成安全合理轨迹的能力，使用安全门控规划分数 NPS，考虑碰撞、可行驶区域、路线进展、舒适性和与人类驾驶相似性。

nuVLA 规划实验显示，加入空间、决策和反事实三类推理监督后，NPS 从 64.98 提升到 73.09，ADE 降至 1.555。即使测试阶段不输出推理文本，训练阶段的推理监督仍能改善规划效果，使轨迹更安全合理。

整体来看，实验表明，推理监督不仅改善问答准确率，也增强模型内部表示，使最终规划更可靠。反事实推理尤其关键，它让模型学习不同动作的潜在风险，提升复杂长尾场景的决策能力。

为什么是反事实推理？

人类驾驶时，很多判断并不只是在选择一个动作，也是在快速排除危险动作。

看到前车减速，我们会知道应该减速，也会知道继续加速会压缩安全距离。看到右侧有施工车辆和路障，我们会知道不能向右变道。看到行人接近斑马线，我们会知道抢行可能带来风险。

传统轨迹模仿数据通常只记录人类最后做了什么，却很少记录哪些动作被排除了，以及排除的原因。

这样会带来一个问题：模型可能学会某个场景下的表面动作，却没有真正理解动作背后的安全边界。

反事实推理补充的正是这一层信息。

它让模型在同一场景下看到多个动作选项的后果。哪些动作安全，哪些动作只是低效，哪些动作会导致碰撞、违规、偏离路线或阻塞交通。

这对长尾场景尤其关键。

长尾风险往往来自多个因素的组合。施工桶、临停车辆、行人、路线指令、红绿灯和相邻车道车辆共同构成一个复杂决策空间。模型只知道最终轨迹，未必能学清楚这个空间里的安全边界。

有了反事实标注，模型可以更明确地学习哪些动作不能做，以及原因是什么。

当自动驾驶开始学习“为什么”

nuReasoning 的价值不在于提出一个特别复杂的新网络结构。它更重要的贡献，是重新组织了自动驾驶数据和评测方式。

过去，自动驾驶模型主要学习人类驾驶轨迹。现在，这篇论文希望模型进一步学习轨迹背后的原因。

在长尾场景中，安全驾驶依赖的往往不是场景出现的频率，而是模型对空间关系、因果关系和动作后果的理解。

nuReasoning 把这些内容变成了可以标注、训练和评测的数据。

这对自动驾驶有意义，对具身智能也有意义。因为任何进入真实世界的智能体，最终都需要面对类似问题。它要理解空间，选择动作，预测后果，并避开风险。

过去的自动驾驶模型更多是在学习人类怎么开。

nuReasoning 指向了下一步：

让模型开始学习，人类为什么这样开。

“解释能力”会提升你对自动驾驶的信任吗？

欢迎在评论区分享观点~

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

nuReasoning:让自动驾驶学会“解释自己”

最新文章

热门文章

随机文章

nuReasoning:让自动驾驶学会“解释自己”

24.69万买272马力四驱SUV,大众这次给揽巡算是把底牌打出来了

【大庆之星】说到GLE SUV的实力

最新文章

热门文章

随机文章