当前位置：首页>自动驾驶>NORD:无需推理的高效自动驾驶模型,数据效率提升3倍

NORD:无需推理的高效自动驾驶模型,数据效率提升3倍

2026-03-12 13:20:49

编辑：陈萍萍的公主@一点人工一点智能

导语：

在自动驾驶领域，Vision-Language-Action (VLA) 模型正逐渐取代传统的模块化流水线，成为端到端自动驾驶的主流架构。然而，这些模型面临着两个高昂的代价：大规模数据收集和密集的推理标注。近日，由Applied Intuition、德州农工大学和加州伯克利大学的研究团队提出了一种名为NORD（No Reasoning for Driving）的创新模型，它成功解决了这两个问题——无需推理标注，且训练数据量减少60%以上，推理速度提升3倍。

NORD的核心创新在于识别并解决了强化学习优化中的"难度偏差"问题，通过引入Dr. GRPO算法，使得在小规模、无推理标注数据集上训练的模型也能实现高性能。这一突破不仅大幅降低了自动驾驶系统的训练和部署成本，也为未来更高效、更实用的自动驾驶系统铺平了道路。

论文地址：https://arxiv.org/abs/2602.21172

项目地址：https://nord-vla-ai.github.io/

为何需要NORD？当前VLA模型的两大痛点

传统VLA模型的训练通常采用两阶段流程：

1）监督微调(SFT)：在大规模、带有详细自然语言链式思维(CoT)推理标注的数据集上进行训练

2）强化学习(RL)微调：使用Group Relative Policy Optimization (GRPO)等算法对策略进行优化

图1：传统VLA训练流程与NORD高效训练流程对比。传统方法依赖大规模推理数据生成，随后进行广泛的SFT和RL微调；NORD则直接利用小规模驾驶数据集进行SFT，并对弱SFT策略进行定制化的RL微调。

这种范式虽然在复杂驾驶基准测试中取得了最先进的性能，但其对大规模数据和密集推理的依赖带来了三个非可扩展的成本：

1）数据成本：收集和整理大量专业驾驶场景的费用

2）标注成本：为这些数据生成高质量推理轨迹的费用

3）训练和推理成本：推理令牌导致的训练时间增加和推理延迟，对实际部署不实用

NORD的核心突破：解决"难度偏差"问题

研究团队发现，标准的GRPO算法在应用于小规模、无推理数据集训练的策略时效果不佳，这源于难度偏差（difficulty bias）问题。

当使用GRPO优化弱SFT策略（如NORD-BASE）时，其奖励分布呈现高度极化：

· 低方差样本：高或极低的组均值（≥0.8或≤0.15），对应低方差的回放

· 高方差样本：中间组均值（[0.2, 0.65]），对应高方差的回放

图2：弱SFT模型中的奖励分布。组均值PDM分数以带状表示，代表对应组标准差的均值。GRPO难以优化高方差区域（大多数），仅在低方差区域有效（绿色和红色轨迹分别代表真实值和NORD-BASE预测）。

GRPO的公式为：

其中，是给定输入x的样本i的奖励，G是组大小，std表示组内标准差。

问题在于，当组内奖励标准差较小时（<<1），组相对优势被不成比例地放大；而对高方差组，优势则被严重削弱。由于NORD-BASE是一个弱SFT模型，它在大多数样本上产生高方差回放，导致GRPO无法有效学习。

NORD的解决方案：Dr. GRPO

为了解决这一问题，研究团队采用了Dr. GRPO，一种专门设计用于缓解LLM推理中难度偏差的强化学习微调算法。

Dr. GRPO通过移除标准差项来修正GRPO的偏差：

该公式使Dr. GRPO能够有效优化高方差样本，从而显著提升弱SFT策略的性能。

图3：RL微调过程中组均值PDM分数的演变。(a) GRPO难以优化高方差样本（特别是[0.2-0.65]范围内）；(b) Dr. GRPO能有效优化高方差样本，带来显著的整体性能提升。

实验结果：性能与效率的双重突破

在Waymo和NAVSIM基准测试中，NORD实现了与现有最先进模型相当的性能，但使用了少于60%的训练数据，且无需任何推理标注。具体来说：

· NAVSIM基准：NORD达到85.62的PDM分数（相比NORD-BASE提升了11.68%）

· Waymo E2E基准：NORD获得7.709的RFS分数，排名第三，且是唯一无需推理或集成的顶级模型

图4：两个驾驶基准上的帕累托最优曲线。(a) NORD是NAVSIM中唯一在高性能、高数据效率区域运行的VLA，仅使用RGB输入。(b) NORD在Waymo E2E上以少量训练数据获得有竞争力的RFS，无需集成或推理监督。

NORD在数据效率方面表现尤为突出：

NORD不仅在性能上与现有模型竞争，还显著降低了推理延迟和计算成本。如图5所示，NORD是所有VLA中最高效的模型，在token效率和运行时效率上都遥遥领先。

图5：NORD在token和运行时效率方面的对比。NORD是所有VLA中效率最高的模型

为什么这个突破如此重要？

NORD的提出不仅解决了自动驾驶模型的效率问题，还对整个AI领域产生了深远影响：

1）重新思考推理的必要性：研究结果表明，推理可能不是自动驾驶性能的关键因素，而是规划的副产品。这与"推理-规划解耦假设"一致，即文本先验本身就能匹配全模态推理模型的性能。

2）数据效率的范式转变：NORD展示了在仅使用小规模、专业驾驶数据的情况下，也能训练出高性能的自动驾驶模型，这为更广泛的应用铺平了道路。

3）算法创新的跨领域应用：将LLM中解决难度偏差的Dr. GRPO算法成功应用于自动驾驶领域，展示了算法创新的跨领域价值。

结语：自动驾驶的未来更高效、更实用

NORD的提出标志着自动驾驶模型开发的一个重要转折点。通过消除对推理标注的需求并大幅减少数据要求，NORD使得高性能自动驾驶系统更易于开发、训练和部署。

正如论文作者所言："NORD并不暗示VLA不能从基于语言的推理中受益；相反，它表明高效、高性能的VLA可以在没有推理和大规模数据集的情况下进行训练，推动数据和推理效率的边界。"

在自动驾驶技术快速发展的今天，NORD不仅代表了一个技术突破，更代表着一种更高效、更实用的自动驾驶发展新范式。随着这项技术的进一步成熟和应用，我们有望看到更多高效、低成本、高安全性的自动驾驶系统走向现实。

—— 精彩推荐 ——

1.基于时空注意力Transformer的自动驾驶运动规划方法

2.面向可信自动驾驶策略优化: 一种对抗鲁棒强化学习方法

3.面向自动驾驶的安全评测数据生成技术综述

4.RainSense：带有降雨雨强标签的自动驾驶环境感知数据集

5.大语言模型协同强化学习的自动驾驶决策方法

点击“阅读原文”，解锁更多资料

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

NORD:无需推理的高效自动驾驶模型,数据效率提升3倍

为何需要NORD？当前VLA模型的两大痛点

NORD的核心突破：解决"难度偏差"问题

NORD的解决方案：Dr. GRPO

实验结果：性能与效率的双重突破

为什么这个突破如此重要？

结语：自动驾驶的未来更高效、更实用

最新文章

热门文章

随机文章

NORD:无需推理的高效自动驾驶模型,数据效率提升3倍

为何需要NORD？当前VLA模型的两大痛点

NORD的核心突破：解决"难度偏差"问题

NORD的解决方案：Dr. GRPO

实验结果：性能与效率的双重突破

为什么这个突破如此重要？

结语：自动驾驶的未来更高效、更实用

刚刚官宣!自动驾驶迎来关键突破,看懂手势就能开老司机都看呆了

自动驾驶卡车故障停车时自动广播警报信息!Kodiak集成HAAS Alert安全云

最新文章

热门文章

随机文章