编辑:陈萍萍的公主@一点人工一点智能
导语:
在自动驾驶领域,Vision-Language-Action (VLA) 模型正逐渐取代传统的模块化流水线,成为端到端自动驾驶的主流架构。然而,这些模型面临着两个高昂的代价:大规模数据收集和密集的推理标注。近日,由Applied Intuition、德州农工大学和加州伯克利大学的研究团队提出了一种名为NORD(No Reasoning for Driving)的创新模型,它成功解决了这两个问题——无需推理标注,且训练数据量减少60%以上,推理速度提升3倍。
NORD的核心创新在于识别并解决了强化学习优化中的"难度偏差"问题,通过引入Dr. GRPO算法,使得在小规模、无推理标注数据集上训练的模型也能实现高性能。这一突破不仅大幅降低了自动驾驶系统的训练和部署成本,也为未来更高效、更实用的自动驾驶系统铺平了道路。

论文地址:https://arxiv.org/abs/2602.21172
项目地址:https://nord-vla-ai.github.io/

传统VLA模型的训练通常采用两阶段流程:

图1:传统VLA训练流程与NORD高效训练流程对比。传统方法依赖大规模推理数据生成,随后进行广泛的SFT和RL微调;NORD则直接利用小规模驾驶数据集进行SFT,并对弱SFT策略进行定制化的RL微调。
这种范式虽然在复杂驾驶基准测试中取得了最先进的性能,但其对大规模数据和密集推理的依赖带来了三个非可扩展的成本:
1)数据成本:收集和整理大量专业驾驶场景的费用
2)标注成本:为这些数据生成高质量推理轨迹的费用
3)训练和推理成本:推理令牌导致的训练时间增加和推理延迟,对实际部署不实用

研究团队发现,标准的GRPO算法在应用于小规模、无推理数据集训练的策略时效果不佳,这源于难度偏差(difficulty bias)问题。
当使用GRPO优化弱SFT策略(如NORD-BASE)时,其奖励分布呈现高度极化:

GRPO的公式为:

其中,
是给定输入x的样本i的奖励,G是组大小,std表示组内标准差。
问题在于,当组内奖励标准差较小时(<<1),组相对优势被不成比例地放大;而对高方差组,优势则被严重削弱。由于NORD-BASE是一个弱SFT模型,它在大多数样本上产生高方差回放,导致GRPO无法有效学习。

为了解决这一问题,研究团队采用了Dr. GRPO,一种专门设计用于缓解LLM推理中难度偏差的强化学习微调算法。
Dr. GRPO通过移除标准差项来修正GRPO的偏差:

该公式使Dr. GRPO能够有效优化高方差样本,从而显著提升弱SFT策略的性能。

图3:RL微调过程中组均值PDM分数的演变。(a) GRPO难以优化高方差样本(特别是[0.2-0.65]范围内);(b) Dr. GRPO能有效优化高方差样本,带来显著的整体性能提升。

在Waymo和NAVSIM基准测试中,NORD实现了与现有最先进模型相当的性能,但使用了少于60%的训练数据,且无需任何推理标注。具体来说:
· NAVSIM基准:NORD达到85.62的PDM分数(相比NORD-BASE提升了11.68%)
· Waymo E2E基准:NORD获得7.709的RFS分数,排名第三,且是唯一无需推理或集成的顶级模型

图4:两个驾驶基准上的帕累托最优曲线。(a) NORD是NAVSIM中唯一在高性能、高数据效率区域运行的VLA,仅使用RGB输入。(b) NORD在Waymo E2E上以少量训练数据获得有竞争力的RFS,无需集成或推理监督。
NORD在数据效率方面表现尤为突出:

NORD不仅在性能上与现有模型竞争,还显著降低了推理延迟和计算成本。如图5所示,NORD是所有VLA中最高效的模型,在token效率和运行时效率上都遥遥领先。

图5:NORD在token和运行时效率方面的对比。NORD是所有VLA中效率最高的模型

NORD的提出不仅解决了自动驾驶模型的效率问题,还对整个AI领域产生了深远影响:
1)重新思考推理的必要性:研究结果表明,推理可能不是自动驾驶性能的关键因素,而是规划的副产品。这与"推理-规划解耦假设"一致,即文本先验本身就能匹配全模态推理模型的性能。
2)数据效率的范式转变:NORD展示了在仅使用小规模、专业驾驶数据的情况下,也能训练出高性能的自动驾驶模型,这为更广泛的应用铺平了道路。
3)算法创新的跨领域应用:将LLM中解决难度偏差的Dr. GRPO算法成功应用于自动驾驶领域,展示了算法创新的跨领域价值。

NORD的提出标志着自动驾驶模型开发的一个重要转折点。通过消除对推理标注的需求并大幅减少数据要求,NORD使得高性能自动驾驶系统更易于开发、训练和部署。
正如论文作者所言:"NORD并不暗示VLA不能从基于语言的推理中受益;相反,它表明高效、高性能的VLA可以在没有推理和大规模数据集的情况下进行训练,推动数据和推理效率的边界。"
在自动驾驶技术快速发展的今天,NORD不仅代表了一个技术突破,更代表着一种更高效、更实用的自动驾驶发展新范式。随着这项技术的进一步成熟和应用,我们有望看到更多高效、低成本、高安全性的自动驾驶系统走向现实。
