


本文提出ELF-VLA框架,通过显式学习失败并结合结构化反馈机制,突破了自动驾驶中VLA模型在强化学习优化中的性能瓶颈,实现了导航场景下的最优性能。



Computer Vision and Pattern Recognition (cs.CV)当前研究领域的背景自动驾驶系统正从传统模块化架构向端到端框架转型,Vision-Language-Action (VLA) 模型通过将视觉输入映射为车辆控制指令,在集成感知、规划和决策方面展现出潜力。然而,现有VLA模型依赖监督微调(SFT)和强化学习(RL)的两阶段训练范式,存在显著局限性。
现有方法存在的问题和局限性
方法概述ELF-VLA框架通过以下两阶段训练流程增强VLA模型:
技术实现细节
算法流程
实验设置与数据集
主要结果
主要贡献
对领域的影响
未来工作方向
用于自动驾驶的视觉-语言-动作(VLA)模型在强化学习(RL)优化过程中常常会遇到性能停滞的问题。这种停滞源于探索能力受到先前监督微调(SFT)的限制,导致在长尾场景中出现“持续失败”。在这些关键情况下,所有尝试的动作都会产生零价值的驾驶得分。这种信息稀疏的奖励信号表明了失败,但无法识别其根本原因——是由于错误的规划、推理缺陷还是轨迹执行不佳。为了解决这一局限性,本文提出了具有显式失败学习的VLA(ELF-VLA),这是一种通过结构化诊断反馈增强RL的框架。与依赖模糊标量奖励的方法不同,本文方法生成详细且可解释的报告,以识别特定的失败模式。然后,VLA策略利用这种显式反馈生成反馈引导的优化。通过将这些修正后的高奖励样本重新注入RL训练批次中,本文方法提供了一个有针对性的梯度,使策略能够解决无指导探索无法处理的关键场景。大量实验表明,本文方法释放了VLA模型的潜在能力,在公共NAVSIM基准的整体PDMS、EPDMS和高层规划准确性方面实现了最先进的(SOTA)性能。
自动驾驶系统的开发正在从传统的模块化架构向端到端框架转变 [4, 11]。视觉-语言-动作(VLA)模型正处于这一转变的前沿 [15]。这些模型通过应用监督微调(SFT)和强化学习(RL),将原始摄像头传感器输入映射为连贯的车辆运动指令。

图1. 通用VLA与ELF-VLA的RL微调比较。上:使用RL算法进行VLA训练时会出现性能停滞:在某些场景中,策略模型的rollout始终产生低分答案,困住智能体并阻止其发现更好的策略。下:ELF-VLA通过使用教师模型提供结构化反馈来解决这个问题,然后利用该反馈重新rollout优化,迫使策略突破这一性能瓶颈。
针对大型视觉-语言模型(VLMs)。这种集成设计消除了手动设计的接口,并支持大规模、数据驱动的策略学习。值得注意的是,VLA 模型可以通过一个“思考”模块生成中间推理轨迹,模仿人类的问题解决策略,为实现可解释和可信的自动驾驶提供了有前景的方向 [17, 25, 41]。
尽管取得了这些进展,强化学习微调仍然表现出性能停滞:本文观察到,在监督微调(SFT)之后,模型的策略探索能力受到 SFT 数据集局限性的严重限制,其中常见场景高度普遍,而严格测试自主系统能力的安全关键场景却非常稀少 [8, 23]。因此,在安全关键且具有挑战性的场景中(例如复杂的无保护左转或紧急避让),所有探索性 rollout 都会持续失败,产生零驾驶得分,如图 1 的第一行所示。现有的 VLA-RL 方法在训练期间将性能评估简化为单一标量奖励(例如 PDMS [7])。当模型失败时,这种信息稀疏的奖励不足以定位错误的根本原因,无法明确失败是源于“思考”模块中高层规划的累积误差,对关键目标的认知推理错误,还是低层轨迹的动态缺陷。
为了解决这些限制并实现持续学习,本文提出了一种用于自动驾驶的新型 VLA 训练框架,该框架连接了故障诊断与策略修正。如图 1 的最后一行所示,主要思想是提供结构化的故障分析反馈,以帮助 VLA 的“先思考后行动”架构,而不是依赖于简单的标量奖励。这种方法包含两个核心创新:
• VLA 能力对齐反馈:本文引入了一种使用教师模型的反馈机制,当 VLA 遇到持续失败时触发。该模型生成一份与 VLA 能力对齐的结构化诊断报告,能够精确定位 VLA 在规划、推理或执行层面的具体错误。• 反馈引导的优化与再注入:VLA 策略模型(学生)利用此诊断报告生成修正后的轨迹。然后,这个高奖励的修正样本被重新注入 GRPO 训练批次中。这一过程提供了一个此前 rollout 批次中不存在的目标导向梯度信号。
通过在Navsim基准上的广泛评估,本文的方法在现有的VLA基线之上展示了显著的性能提升。本文的方法在整体驾驶指标(PDMS)和高层规划准确性方面均达到了最先进的水平。通过将可解释的反馈与策略校正相结合,本文的工作为VLA模型克服自动驾驶中的性能瓶颈提供了一条实用路径。
用于自动驾驶的VLA模型。近年来,视觉和文本数据的整合以实现统一的感知、规划和决策引发了对自动驾驶中视觉语言模型(VLMs)的浓厚兴趣。目前该领域主要由两种范式主导。第一种专注于场景理解和高层推理 [13, 14, 26, 28, 33]。这种方法的一个例子是Senna [13],它处理感官输入以生成下游规划器的元动作,但实际驾驶性能的显著提升尚未完全实现。另一种范式则集中在从原始输入中直接预测驾驶轨迹 [10, 12, 19, 24, 30, 34, 35, 40]。一个值得注意的发展是为了提高模型的可解释性和准确性,越来越多地使用中间推理(例如,思维链,CoT)来揭示内部认知过程。来自EMMA [12]、ReasonPlan [24] 和 Sce2DriveX [40] 的证据表明,特定领域的推理显著提高了轨迹预测的精度。
VLA模型的强化学习微调。目前,自动驾驶中的VLA模型通常采用两阶段范式进行训练:首先在驾驶数据集上进行初始的监督微调(SFT)阶段,然后进行强化学习(RL)训练阶段。在此框架中,RL阶段的效果高度依赖于前一阶段SFT的表现。当前的方法[17, 25, 41]使用组相对策略优化(GRPO)[31]算法进行RL训练,其中奖励通过VLA的驾驶得分(例如PDMS)来衡量。这导致了一个显著的训练缺陷:经过SFT阶段后,VLA模型难以处理训练数据集中存在的罕见、长尾场景。因此,当模型进入RL阶段时,其在这些特定场景中的驾驶得分仍然极低,无论进行多少次轨迹模拟。这导致了模型整体学习停滞,从而出现性能瓶颈。在大型语言模型(LLM)文献中,已有方法成功利用非数值反馈,如文本批评,提供详细的指导[3, 39]。其他方法[27, 37]则使用混合策略方法,从高质量数据中内化知识,增强探索能力和策略质量。受这些方法的启发,本文提出了一种反馈机制,以解决自动驾驶领域中的这一限制,该机制采用教师模型,通过结构化反馈分析并纠正VLA模型的错误驾驶行为,将其修正为正确的动作。
在本节中,本文提出了所提出的方法(图2),该方法包含两个主要组件:(1)一个两阶段的监督微调(SFT)过程,以及(2)一种结合失败反馈的强化学习(RL)框架。
在本文的方法中,VLA模型同时作为生成器和优化器,设计用于接受两种不同类型的输入:原始的无反馈基础输入,以及包含校正指导的反馈输入。
基础输入。基础输入查询 包括一个前视图像,记为 ,高级导航命令 (例如,前进、左转、右转),自车状态信息 (例如,速度和加速度),以及最近三帧的历史轨迹 ,频率为 。
反馈输入。基于基础输入,VLA 模型输出一个包含 CoT 的原始响应 (详细内容见附录 6.2),然后根据阈值 进行分类:PDMS 超过 的响应被视为“正确” ,而得分低于 的响应被视为“错误” 。

图 2. ELF-VLA 概述。首先,模型在自动驾驶问答数据集上进行预训练,以提供基本的驾驶知识。随后,它在“基础输入”和“反馈输入”的混合数据集上进行 SFT,使其能够同时学习轨迹预测和基于反馈的优化。最后,在强化学习阶段,使用教师模型生成反馈,从而减少零奖励 rollout 的比例。
在正确响应的情况下,相应的反馈输入由三个部分组成:原始基础输入 、正确的响应 本身以及基于规则的正向反馈 。对于错误的响应,本文采用通过一个VLM教师模型进行外部干预。该教师模型以基础输入 、错误轨迹 和真值轨迹 为输入,生成结构化反馈 。此反馈包括(1)元动作分析,(2)思考过程分析,(3)安全性失败分析,(4)效率性失败分析和(5)可操作的修正(包括横向和纵向成分)。最终的反馈输入是通过将基础输入、原始错误响应 和生成的结构化反馈组合而成。基础输入和反馈输入的详细示例见附录6.2。
本文采用两阶段监督微调程序来开发一种结合驾驶知识和轨迹规划能力的模型。第一阶段旨在注入模型通用的驾驶知识。第二阶段则专注于赋予模型轨迹预测的能力,并使其能够根据接收到的反馈进行优化。
如图2所示,在第一阶段中,模型在一个大型驾驶相关问答对数据集上进行预训练,以增强其对驾驶领域认知的理解。
该数据集是从多种开源驾驶QA数据集中汇编而成,包括DriveLM [32]、LingoQA [28]、ImpromptuVLA [5]以及其他开源驾驶数据集[9, 29, 34]。此外,本文按照CoT范式为NAVSIM构建了一个多轮问答推理数据集。这一阶段处理的任务包括道路边界估计(可行驶区域)、关键对象识别(对象定位)、自我动作预测及相关交通语义。有关数据集组成的更多细节请参见附录6.1。
随后,第二阶段引入了轨迹预测与优化任务。对于每个查询 和 (在第3.3节中定义),模型的输出由真值轨迹 进行监督,旨在最大化条件似然:
表示包含 的数据集, 表示VLA模型。这种混合数据集训练方法使模型具备轨迹预测和基于反馈的轨迹优化双重能力,从而使得模型能够在强化学习阶段利用失败反馈。
本文的失败反馈机制应用于GRPO算法的rollout阶段,灵感来源于[39]。自动驾驶领域中的传统VLA模型通常在强化学习训练过程中会遇到性能瓶颈。这是因为它们无法处理复杂且长尾的场景;因此,在这些情况下采样的轨迹获得极低的驾驶评分,导致奖励稀疏问题。本文的方法通过引入一种反馈机制来解决这一问题,该机制成功提升了模型在这些关键场景中的驾驶评分,从而使智能体能够突破性能平台期。

图3. 带反馈的GRPO概述。策略模型生成初始响应。根据奖励,教师模型(Qwen3- VL-32B)提供反馈,指导策略模型采样改进后的优化响应。选择高质量的优化响应,并与初始响应集合并进行联合优化。对最终概率应用策略塑造。
高效困难样本筛选。在介绍具有反馈机制的GRPO之前,本文首先进行了一种成本效益高的数据筛选,以最大化训练效率。朴素的强化学习训练通常会将资源浪费在过于简单(已掌握)的场景上,这些场景提供的学习信号较弱。本文的筛选目标是过滤掉这些样本,并使智能体专注于高价值、信息丰富的场景,这些场景包括困难样本(模型持续失败)和模糊样本(模型最不确定)。为了实现这一点,本文利用SFT模型为每个查询采样个轨迹,估计其平均奖励和奖励方差。然后,本文丢弃那些具有高平均奖励和低方差的样本,因为这表明了持续的成功。这种策略有效地将训练集中在困难(低平均值,低方差)和模糊(高方差)的场景上。通过这种方法,本文将初始的训练条目减少到一个包含高价值场景的核心数据集。
奖励建模。为了激励VLA模型学习有效的驾驶行为并确保其输出格式的稳定性,本文设计了一个包含三个部分的奖励函数:PDMS奖励、格式奖励和目标奖励。PDMS奖励是一种基于预测驾驶员模型得分[7]的综合轨迹评估指标。它表示为0到1之间的连续值。用于计算该得分的具体公式在附录8.1中提供。格式奖励是一个二进制(1或0)奖励,旨在严格强制遵守所需的输出格式。最后,目标奖励通过根据与真值终点的L1距离分配分层奖励来激励终点准确性。每种奖励的详细计算方法在附录7.1中提供。强化学习过程中的总体奖励通过整合四个设计的奖励组件计算得出,如下所示:
GRPO的反馈机制。本文的方法采用了一种反馈机制,如图3所示,用于优化轨迹并提高奖励,从而使得VLA模型能够突破其性能瓶颈。更具体地说,该过程首先通过基础输入 采样一批轨迹响应 。然后计算这批样本的奖励 ,其中包括 、 和 。根据预定义的阈值 ,这些响应随后被分为两组:正确响应 和错误响应 。最后,按照第3.1节的方法,对正确的和错误的响应分别进行处理,并组装成最终的反馈输入 。
随后,VLA 模型根据反馈输入 生成一批新的响应 ,并计算它们的奖励值 。本文从子集 中随机选择 个响应,这些响应的轨迹奖励 超过了原始批次的最大轨迹奖励 。如果存在少于 个这样的“更好”响应,则剩余的位置通过复制达到该最大奖励的原始响应来填充。这最终形成了一个包含 个 rollout 样本的批次 ,然后从中计算相对优势 。rollout 更新算法的细节见算法 1。GRPO 的最终优化目标定义如下:
其中 , 是初始 SFT 模型的参考策略, 是一个超参数。本文仅将 CLIP 应用于原始批次 rollout 样本,而不是经过反馈优化后的响应。为了计算优势值,首先将两组奖励合并为一个统一集合 。然后使用该组合集合的均值和标准差对奖励进行归一化,并计算相对优势 和 ,如下所示:
对于反馈生成输出的 token 级概率比,一个挑战来自于条件不匹配。这些样本是使用反馈查询 生成的,但本文的优化目标是基于基础查询 的。这种差异可能导致精炼后的响应 在优化策略下的概率非常低,从而导致高方差、潜在的梯度爆炸和训练不稳定。因此,受 LUFFY [37] 启发,本文采用策略塑形 。该技术为 中低概率的 token 分配更高的权重。这种机制鼓励模型从罕见但正确的轨迹中学习有价值的知识,否则这些轨迹可能会被忽略。标准比率 和塑形后的比率 定义如下:
数据集。本文在NAVSIM [7] 上进行了全面的实验和评估,NAVSIM 是一个基于 OpenScene 构建的面向规划的自动驾驶数据集。除了从 NAVSIM 收集的推理数据外,本文还利用了几个开源数据集,如第 3.2 节所述。

评估指标。本文在自动驾驶的两个不同方面评估了方法的性能:高层规划和轨迹预测。
对于高层规划评估,本文使用高层规划准确率(High-Level Planning Accuracy),该指标严格要求整个元动作(包括纵向速度和横向路径)必须与真值完全匹配。此处的真值由GT轨迹生成,详细信息见附录8.1。
在NAVSIM基准上的轨迹预测评估中,本文利用NAV-SIMv1 [7] 的预测驾驶员模型得分(PDMS)和NAV-SIMv2 [2] 的扩展预测驾驶员模型得分(EPDMS)作为闭环规划指标。
训练细节。本文使用InternVL3-8B [42] 作为基础模型,并分三个阶段进行训练。首先,在大规模驾驶知识数据集上进行预训练。其次,在混合数据集上对模型进行微调,该数据集包含精心策划的Navsim规划数据集(带有CoT注释)以及第3节中的反馈数据集。最后,使用32块NVIDIA H20 GPU进行强化学习训练。本文采用Qwen3-VL-32B [1] 作为教师模型。关键的RL参数包括每批次8个rollouts、阈值 、策略塑造参数 以及 次响应优化。附加细节和超参数见附录8.1。
表1. 在NAVSIMv1上与最先进方法的比较(基于PDMS)。

表2. 在NAVSIMv2上与最先进方法的比较(基于EPDMS)。

Navsim基准测试。表1展示了ELF-VLA与当前领先方法在NAVSIMv1基准上的性能比较。在仅视觉设置下,ELF-VLA实现了91.0的PDMS,建立了新的最先进水平(SOTA)。这一结果比之前最佳的仅视觉方法DriveVLA提高了0.7 PDMS。此外,ELF-VLA分别比SFT-only(InternVL3-8B-SFT)和传统RL(InternVL3-8B-RL)基线高出3.6和2.0 PDMS。在NAVSIMv2基准(表2)上,ELF-VLA继续保持强劲表现,取得了87.1 EPDMS的新SOTA。这一分数超过了DriveVLA-W0之前的最佳成绩1.0 EPDMS。这些发现表明,本文的方法ELF-VLA显著增强了模型的驾驶能力,超越了传统的RL方法,特别是在处理具有挑战性的驾驶场景方面。此外,在两个基准上的出色表现确认了ELF-VLA不仅仅是在PDMS指标上过拟合;相反,它在不同的、更全面的EPDMS上也表现出色,展现了强大的泛化能力。
定量评估。本文将ELF-VLA(表3)的性能与几个精心设计的消融模型进行比较(详细定义见附录8.1):
表3. ELF-VLA与传统GRPO和其他反馈策略的性能比较。

• SFT(基线):仅使用监督微调训练的基础模型。• GRPO:SFT模型进一步使用传统GRPO算法进行微调。• GT-GRPO:SFT模型在添加了真值(GT)轨迹的响应集上进行微调。• Rule-GRPO:SFT模型在基于预定义规则反馈生成新响应的响应集上进行微调。• ELF-VLA:SFT模型在基于教师模型结构化反馈生成的新优化响应的响应集上进行微调。

图4. 在RL训练阶段测量的GRPO、GT-GRPO、Rule-GRPO和ELF-VLA的总失败样本比例。总失败表示一个样本的所有rollouts在特定指标上均失败(PDMS低于,NC为0且DAC为0)。
值得注意的是,ELF-VLA实现了最佳的整体性能。本文方法比传统的GRPO方法高出2.0 PDMS。这表明通过引入结构化反馈并重新生成优越的、符合分布的轨迹,本文的方法有助于模型解决持续失败的问题。此外,ELF-VLA分别超越了GT-GRPO和Rule-GRPO 1.8和1.4 PDMS。这突显了这两个基线方法的独特局限性。对于GT-GRPO,GT轨迹与原始VLA生成的响应之间存在显著的分布偏移。这些GT响应的可能性较低,使得优化变得困难。对于Rule-GRPO,来自预定义规则的反馈对模型的影响有限。这个过程类似于简单的自我改进,缺乏细致的指导,导致模型无法从这种简化的反馈中学习有效的轨迹校正。相比之下,ELF-VLA利用教师模型的广泛通用知识,对原始响应进行深入的结构化分析。VLA模型接收到这种全面的反馈,使其能够从失败中学习并改进轨迹。这一过程产生了更优越、更容易优化的改进轨迹。
总失败率分析。本文分析了这些模型在RL训练阶段的失败率,如图4所示。具体而言,本文测量了所有展开的轨迹在关键指标PDMS、DAC和NC上同时失败的样本比例。如图所示,虽然中间策略如GT-GRPO和Rule-GRPO有助于减少失败率,但ELF-VLA在所有指标上都表现出最显著的改进。ELF-VLA将总失败的PDMS率从(对于GRPO)降低到仅,NC和DAC也观察到了类似的显著下降。这一结果进一步验证了本文的方法使模型能够从其错误中学习,解决持续失败问题,并最终提高整体驾驶安全性和鲁棒性。
表4. 在NAVSIM上的高级规划比较。

表5. 强化学习中训练数据数量的消融研究。†: 随机采样。*: 按第3.3节整理。

高层规划评估。如表4所示,本文结果突显了ELF-VLA在高层规划方面的明显优势。ELF-VLA在纵向速度精度和横向路径精度方面均取得最佳结果,实现了最高的整体规划精度,比传统GRPO高出。此外,与开源模型相比,ELF-VLA在准确率上优于显著更大的Qwen2.5-VL-72B模型。这种改进源于教师模型提供精炼的元动作,VLA模型学会将其内化。这表明ELF-VLA能够从失败案例中学习以优化其高层规划。
关于GRPO与训练数据。本文研究了强化学习中训练数据量和组成的影响,如表5所示。使用完整的数据集(89.1 PDMS)或随机采样的子集(88.9 PDMS)都产生了次优结果。相比之下,本文精心整理的数据集,按照第3.3节指导,实现了91.0 PDMS的最佳性能。这表明完整的85k数据集主要由简单场景主导,提供了有限的学习信号,削弱了整体梯度信号,并导致对已掌握场景的关注策略更新效率低下。本文的数据筛选策略有效地提炼出最有价值的数据。结合本文的反馈机制,这些数据允许针对这些复杂场景进行有针对性的训练。这种方法最终提高了模型性能并增强了训练效率。
关于GRPO与反馈。表6分析了本文的反馈组件。首先论文改变精炼响应的数量。当时达到最佳性能(91.0 PDMS)。增加会降低性能,下降到

图5. ELF-VLA在NAVSIM数据集上轨迹优化过程的可视化。初始错误轨迹(红色)、真值(绿色)和最终优化轨迹(蓝色)的可视化。教师模型生成的反馈引导将错误轨迹优化为优化轨迹。反馈中的彩色文字详细说明了已应用的具体优化内容。
表6. 关于优化响应数量 和策略塑造(PS)使用的消融研究。

89.0 at 。这表明虽然单次针对性优化是有效的,但多次基于反馈的响应可能会分散策略。本文还评估了策略塑造(PS)。移除PS(在 时)会导致PDMS显著下降 ,从91.0降至89.3。这证实了PS对于防止训练崩溃和格式错误至关重要,确保模型能够正确地从高优势、低概率的优化轨迹中学习。
图5展示了一个定性示例,其中ELF-VLA在一个复杂的左转场景中纠正了故障轨迹。初始故障轨迹(红色曲线)导致潜在碰撞,其根源在于对关键障碍物的重大误判(预测:前方 ,左侧 )。本文的教师模型提供结构化反馈,精确识别出这一“思考过程”错误,并估计了更准确的位置(前方 ,左侧 )。同时,它提供了可操作的修正建议,例如目标横向位置和纵向速度的调整。基于此反馈,模型生成了优化轨迹(蓝色曲线)。优化计划中相应的“关键障碍物分析”反映了这种修正后的感知,使智能体能够规划出一条成功避开障碍物的安全轨迹。更多结果请参见附录8.2。
本文提出了ELF-VLA,这是一种从失败中进行显式学习的框架。当发生失败时,该方法通过一个强大的教师模型来增强VLA策略,生成结构化的诊断报告并识别潜在的失败模式。然后,策略利用这种显式的、类似人类的反馈来合成修正后的高奖励轨迹。通过将这些修正后的样本重新注入到强化学习训练批次中,ELF-VLA提供了有针对性的梯度,使策略能够解决那些无指导探索难以克服的复杂场景。
这种方法的主要局限性在于其依赖于外部教师模型,这本质上限制了学生模型的性能,使其受限于教师模型的分析能力。此外,所有实验都是在Navsim基准上进行的,这是一个非反应式的仿真环境。未来的工作将涉及探索不同教师模型的作用,并在更多样化的数据集上进行闭环评估。