当前位置：首页>自动驾驶>ELF-VLA算法:显式学习失败突破自动驾驶VLA性能瓶颈!

ELF-VLA算法:显式学习失败突破自动驾驶VLA性能瓶颈!

2026-03-17 00:02:19

公众号论文知识库问答助手

智驾人速藏！这个免费问答助手，能直接和最新精选智驾论文对话！告别论文大海捞针！

点击下方名片, 关注智驾通鉴公众号

长按识别下图二维码，加入智驾通鉴交流群

（合作交流投稿可加管理员微信insightagent01）

通过从失败中显式学习释放自主驾驶中的VLA潜力

论文卡片

本文提出ELF-VLA框架，通过显式学习失败并结合结构化反馈机制，突破了自动驾驶中VLA模型在强化学习优化中的性能瓶颈，实现了导航场景下的最优性能。

论文框架: ELF-VLA的概述。首先，模型在自动驾驶问答数据集上进行预训练，以提供基础驾驶知识。随后，它在“基础输入”和“反馈输入”的混合数据集上进行SFT，使其能够同时学习轨迹预测和基于反馈的优化。最后，在RL阶段，使用教师模型生成反馈，从而减少零奖励 rollout 的比例。

论文效果: 在RL训练阶段GRPO、GT-GRPO、Rule-GRPO和ELF-VLA的总失败样本比率。总失败表示某个样本的所有 rollout 在特定指标（PDMS低于s，NC为0和DAC为0）上均失败。

主要结果: Comparison with state-of-the-art methods on the NAVSIMv1 with PDMS

论文信息

• 标题: Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures
• 论文: https://arxiv.org/abs/2603.01063v1

• 日期: 2026-03-01 11:41:22
• 领域: Computer Vision and Pattern Recognition (cs.CV)
• 页数: 15 pages, 8 figures, 10 tables

论文概述

研究背景与问题

当前研究领域的背景自动驾驶系统正从传统模块化架构向端到端框架转型，Vision-Language-Action (VLA) 模型通过将视觉输入映射为车辆控制指令，在集成感知、规划和决策方面展现出潜力。然而，现有VLA模型依赖监督微调（SFT）和强化学习（RL）的两阶段训练范式，存在显著局限性。

现有方法存在的问题和局限性

1. 性能瓶颈：SFT阶段后，模型对长尾场景（如复杂左转、紧急避障）的探索能力受限，导致RL阶段出现“持续失败”——所有轨迹得分均为零，无法突破性能瓶颈。
2. 奖励信号稀疏：现有方法仅依赖单一标量奖励（如PDMS），无法定位失败的根本原因（如规划错误、推理缺陷或轨迹执行问题）。
3. 数据分布偏差：SFT数据集中常见场景占主导，安全关键场景稀缺，导致模型在复杂场景中泛化能力不足。

论文方法

方法概述ELF-VLA框架通过以下两阶段训练流程增强VLA模型：

1. 两阶段监督微调（SFT）：

• 第一阶段：预训练模型以掌握基础驾驶知识（如道路边界估计、目标识别）。
• 第二阶段：混合训练“基础输入”（原始传感器数据）和“反馈输入”（包含修正指导的结构化反馈），使模型同时学习轨迹预测和基于反馈的修正能力。

2. 强化学习（RL）与失败反馈机制：

• 结构化反馈生成：当模型输出低分轨迹时，教师模型（Qwen3-VL-32B）生成包含元动作分析、推理过程诊断、安全/效率失败分析及修正建议的结构化报告。
• 反馈引导的修正与再注入：模型根据反馈生成修正轨迹，并将其高奖励样本重新注入RL训练批次，提供目标导向的梯度信号。

技术实现细节

• 输入设计：

• 基础输入：前视图像、导航指令、车辆状态及历史轨迹。
• 反馈输入：包含原始轨迹、教师模型生成的结构化反馈及修正后的轨迹。

• 奖励设计：

• PDMS奖励：基于预测驾驶员模型得分（0-1连续值）。
• 格式奖励：二元奖励，确保输出格式严格符合要求。
• 目标奖励：基于终点与真实轨迹的L1距离分段奖励。

• 策略塑造（Policy Shaping）：通过函数赋予低概率修正轨迹更高权重，提升模型学习效率。

算法流程

1. 初始轨迹生成：使用基础输入生成轨迹并计算奖励。
2. 反馈生成与修正：对低分轨迹调用教师模型生成反馈，生成修正轨迹。
3. 样本合并与优化：将修正轨迹与原始轨迹合并，计算相对优势并更新策略。

核心创新点

1. 结构化失败诊断反馈：

• 教师模型生成多维度反馈（元动作、推理过程、安全/效率分析），明确失败根源，突破传统标量奖励的局限性。
• 与现有方法（如Rule-GRPO的二元反馈）相比，提供可操作的修正策略，而非简单指示正确性。

2. 反馈引导的修正与再注入：

• 将修正后的高奖励样本注入RL训练批次，直接提供梯度信号，解决无指导探索的稀疏奖励问题。
• 通过策略塑造（Policy Shaping）优化低概率修正轨迹的学习，避免训练不稳定。

3. 高效困难样本筛选：

• 在RL训练前过滤低价值样本（高均值奖励、低方差），聚焦于困难（低均值、低方差）和模糊（高方差）场景，提升训练效率。

实验结果

实验设置与数据集

• 基准：NAVSIMv1（PDMS）和NAVSIMv2（EPDMS）。
• 对比方法：DiffusionDrive、Hydra-NeXt、AutoVLA-3B等SOTA方法。
• 模型：基于InternVL3-8B，使用32块NVIDIA H20 GPU训练。

主要结果

1. 性能提升：

• NAVSIMv1：ELF-VLA达到91.0 PDMS，超越DriveVLA（89.1）和SFT基线（87.4）。
• NAVSIMv2：ELF-VLA达到87.1 EPDMS，超越DriveVLA-W0（86.1）。

2. 消融实验：

• 反馈机制有效性：ELF-VLA比传统GRPO提升2.0 PDMS，GT-GRPO和Rule-GRPO分别低1.8和1.4 PDMS。
• 数据筛选效果：精选24k高价值数据（24k*）比随机采样（24k†）和全数据集（85k）分别提升2.1和1.9 PDMS。
• 反馈阈值敏感性：阈值时性能最佳（91.0 PDMS），过高（0.9）或过低（0.5）均导致性能下降。

3. 失败率分析：

• ELF-VLA将总失败率（PDMS<0.8）从2.73%（GRPO）降至1.08%，显著提升复杂场景下的鲁棒性。

结论与影响

主要贡献

1. 提出ELF-VLA框架，通过结构化反馈和修正轨迹再注入，突破VLA模型在RL优化中的性能瓶颈。
2. 在NAVSIM基准上实现SOTA性能（PDMS 91.0，EPDMS 87.1），验证方法在复杂场景中的有效性。

对领域的影响

• 理论层面：为VLA模型提供可解释的失败诊断机制，推动自动驾驶系统的透明性和可信度。
• 实践层面：通过显式反馈优化策略，为端到端自动驾驶模型的训练提供新范式。

未来工作方向

1. 探索不同教师模型（如多模态大模型）对反馈质量的影响。
2. 在更多闭环数据集（如NuScenes）上验证方法的泛化性。
3. 优化策略塑造参数（如）以平衡训练稳定性与修正覆盖范围。

论文精读

摘要

用于自动驾驶的视觉-语言-动作（VLA）模型在强化学习（RL）优化过程中常常会遇到性能停滞的问题。这种停滞源于探索能力受到先前监督微调（SFT）的限制，导致在长尾场景中出现“持续失败”。在这些关键情况下，所有尝试的动作都会产生零价值的驾驶得分。这种信息稀疏的奖励信号表明了失败，但无法识别其根本原因——是由于错误的规划、推理缺陷还是轨迹执行不佳。为了解决这一局限性，本文提出了具有显式失败学习的VLA（ELF-VLA），这是一种通过结构化诊断反馈增强RL的框架。与依赖模糊标量奖励的方法不同，本文方法生成详细且可解释的报告，以识别特定的失败模式。然后，VLA策略利用这种显式反馈生成反馈引导的优化。通过将这些修正后的高奖励样本重新注入RL训练批次中，本文方法提供了一个有针对性的梯度，使策略能够解决无指导探索无法处理的关键场景。大量实验表明，本文方法释放了VLA模型的潜在能力，在公共NAVSIM基准的整体PDMS、EPDMS和高层规划准确性方面实现了最先进的（SOTA）性能。

1. 引言

自动驾驶系统的开发正在从传统的模块化架构向端到端框架转变 [4, 11]。视觉-语言-动作（VLA）模型正处于这一转变的前沿 [15]。这些模型通过应用监督微调（SFT）和强化学习（RL），将原始摄像头传感器输入映射为连贯的车辆运动指令。

图1. 通用VLA与ELF-VLA的RL微调比较。上：使用RL算法进行VLA训练时会出现性能停滞：在某些场景中，策略模型的rollout始终产生低分答案，困住智能体并阻止其发现更好的策略。下：ELF-VLA通过使用教师模型提供结构化反馈来解决这个问题，然后利用该反馈重新rollout优化，迫使策略突破这一性能瓶颈。

针对大型视觉-语言模型（VLMs）。这种集成设计消除了手动设计的接口，并支持大规模、数据驱动的策略学习。值得注意的是，VLA 模型可以通过一个“思考”模块生成中间推理轨迹，模仿人类的问题解决策略，为实现可解释和可信的自动驾驶提供了有前景的方向 [17, 25, 41]。

尽管取得了这些进展，强化学习微调仍然表现出性能停滞：本文观察到，在监督微调（SFT）之后，模型的策略探索能力受到 SFT 数据集局限性的严重限制，其中常见场景高度普遍，而严格测试自主系统能力的安全关键场景却非常稀少 [8, 23]。因此，在安全关键且具有挑战性的场景中（例如复杂的无保护左转或紧急避让），所有探索性 rollout 都会持续失败，产生零驾驶得分，如图 1 的第一行所示。现有的 VLA-RL 方法在训练期间将性能评估简化为单一标量奖励（例如 PDMS [7]）。当模型失败时，这种信息稀疏的奖励不足以定位错误的根本原因，无法明确失败是源于“思考”模块中高层规划的累积误差，对关键目标的认知推理错误，还是低层轨迹的动态缺陷。

为了解决这些限制并实现持续学习，本文提出了一种用于自动驾驶的新型 VLA 训练框架，该框架连接了故障诊断与策略修正。如图 1 的最后一行所示，主要思想是提供结构化的故障分析反馈，以帮助 VLA 的“先思考后行动”架构，而不是依赖于简单的标量奖励。这种方法包含两个核心创新：

• VLA 能力对齐反馈：本文引入了一种使用教师模型的反馈机制，当 VLA 遇到持续失败时触发。该模型生成一份与 VLA 能力对齐的结构化诊断报告，能够精确定位 VLA 在规划、推理或执行层面的具体错误。• 反馈引导的优化与再注入：VLA 策略模型（学生）利用此诊断报告生成修正后的轨迹。然后，这个高奖励的修正样本被重新注入 GRPO 训练批次中。这一过程提供了一个此前 rollout 批次中不存在的目标导向梯度信号。

通过在Navsim基准上的广泛评估，本文的方法在现有的VLA基线之上展示了显著的性能提升。本文的方法在整体驾驶指标（PDMS）和高层规划准确性方面均达到了最先进的水平。通过将可解释的反馈与策略校正相结合，本文的工作为VLA模型克服自动驾驶中的性能瓶颈提供了一条实用路径。

2. 相关工作

用于自动驾驶的VLA模型。近年来，视觉和文本数据的整合以实现统一的感知、规划和决策引发了对自动驾驶中视觉语言模型（VLMs）的浓厚兴趣。目前该领域主要由两种范式主导。第一种专注于场景理解和高层推理 [13, 14, 26, 28, 33]。这种方法的一个例子是Senna [13]，它处理感官输入以生成下游规划器的元动作，但实际驾驶性能的显著提升尚未完全实现。另一种范式则集中在从原始输入中直接预测驾驶轨迹 [10, 12, 19, 24, 30, 34, 35, 40]。一个值得注意的发展是为了提高模型的可解释性和准确性，越来越多地使用中间推理（例如，思维链，CoT）来揭示内部认知过程。来自EMMA [12]、ReasonPlan [24] 和 Sce2DriveX [40] 的证据表明，特定领域的推理显著提高了轨迹预测的精度。

VLA模型的强化学习微调。目前，自动驾驶中的VLA模型通常采用两阶段范式进行训练：首先在驾驶数据集上进行初始的监督微调（SFT）阶段，然后进行强化学习（RL）训练阶段。在此框架中，RL阶段的效果高度依赖于前一阶段SFT的表现。当前的方法[17, 25, 41]使用组相对策略优化（GRPO）[31]算法进行RL训练，其中奖励通过VLA的驾驶得分（例如PDMS）来衡量。这导致了一个显著的训练缺陷：经过SFT阶段后，VLA模型难以处理训练数据集中存在的罕见、长尾场景。因此，当模型进入RL阶段时，其在这些特定场景中的驾驶得分仍然极低，无论进行多少次轨迹模拟。这导致了模型整体学习停滞，从而出现性能瓶颈。在大型语言模型（LLM）文献中，已有方法成功利用非数值反馈，如文本批评，提供详细的指导[3, 39]。其他方法[27, 37]则使用混合策略方法，从高质量数据中内化知识，增强探索能力和策略质量。受这些方法的启发，本文提出了一种反馈机制，以解决自动驾驶领域中的这一限制，该机制采用教师模型，通过结构化反馈分析并纠正VLA模型的错误驾驶行为，将其修正为正确的动作。

3. 方法

在本节中，本文提出了所提出的方法（图2），该方法包含两个主要组件：（1）一个两阶段的监督微调（SFT）过程，以及（2）一种结合失败反馈的强化学习（RL）框架。

3.1. VLA输入的构建

在本文的方法中，VLA模型同时作为生成器和优化器，设计用于接受两种不同类型的输入：原始的无反馈基础输入，以及包含校正指导的反馈输入。

基础输入。基础输入查询包括一个前视图像，记为，高级导航命令（例如，前进、左转、右转），自车状态信息（例如，速度和加速度），以及最近三帧的历史轨迹，频率为。

反馈输入。基于基础输入，VLA 模型输出一个包含 CoT 的原始响应（详细内容见附录 6.2），然后根据阈值进行分类：PDMS 超过的响应被视为“正确” ，而得分低于的响应被视为“错误” 。

图 2. ELF-VLA 概述。首先，模型在自动驾驶问答数据集上进行预训练，以提供基本的驾驶知识。随后，它在“基础输入”和“反馈输入”的混合数据集上进行 SFT，使其能够同时学习轨迹预测和基于反馈的优化。最后，在强化学习阶段，使用教师模型生成反馈，从而减少零奖励 rollout 的比例。

在正确响应的情况下，相应的反馈输入由三个部分组成：原始基础输入、正确的响应本身以及基于规则的正向反馈。对于错误的响应，本文采用通过一个VLM教师模型进行外部干预。该教师模型以基础输入、错误轨迹和真值轨迹为输入，生成结构化反馈。此反馈包括（1）元动作分析，（2）思考过程分析，（3）安全性失败分析，（4）效率性失败分析和（5）可操作的修正（包括横向和纵向成分）。最终的反馈输入是通过将基础输入、原始错误响应和生成的结构化反馈组合而成。基础输入和反馈输入的详细示例见附录6.2。

3.2 认知与优化的两阶段SFT

本文采用两阶段监督微调程序来开发一种结合驾驶知识和轨迹规划能力的模型。第一阶段旨在注入模型通用的驾驶知识。第二阶段则专注于赋予模型轨迹预测的能力，并使其能够根据接收到的反馈进行优化。

如图2所示，在第一阶段中，模型在一个大型驾驶相关问答对数据集上进行预训练，以增强其对驾驶领域认知的理解。

该数据集是从多种开源驾驶QA数据集中汇编而成，包括DriveLM [32]、LingoQA [28]、ImpromptuVLA [5]以及其他开源驾驶数据集[9, 29, 34]。此外，本文按照CoT范式为NAVSIM构建了一个多轮问答推理数据集。这一阶段处理的任务包括道路边界估计（可行驶区域）、关键对象识别（对象定位）、自我动作预测及相关交通语义。有关数据集组成的更多细节请参见附录6.1。

随后，第二阶段引入了轨迹预测与优化任务。对于每个查询和（在第3.3节中定义），模型的输出由真值轨迹进行监督，旨在最大化条件似然：

表示包含的数据集，表示VLA模型。这种混合数据集训练方法使模型具备轨迹预测和基于反馈的轨迹优化双重能力，从而使得模型能够在强化学习阶段利用失败反馈。

3.3. 基于失败反馈的强化学习

本文的失败反馈机制应用于GRPO算法的rollout阶段，灵感来源于[39]。自动驾驶领域中的传统VLA模型通常在强化学习训练过程中会遇到性能瓶颈。这是因为它们无法处理复杂且长尾的场景；因此，在这些情况下采样的轨迹获得极低的驾驶评分，导致奖励稀疏问题。本文的方法通过引入一种反馈机制来解决这一问题，该机制成功提升了模型在这些关键场景中的驾驶评分，从而使智能体能够突破性能平台期。

图3. 带反馈的GRPO概述。策略模型生成初始响应。根据奖励，教师模型（Qwen3- VL-32B）提供反馈，指导策略模型采样改进后的优化响应。选择高质量的优化响应，并与初始响应集合并进行联合优化。对最终概率应用策略塑造。

高效困难样本筛选。在介绍具有反馈机制的GRPO之前，本文首先进行了一种成本效益高的数据筛选，以最大化训练效率。朴素的强化学习训练通常会将资源浪费在过于简单（已掌握）的场景上，这些场景提供的学习信号较弱。本文的筛选目标是过滤掉这些样本，并使智能体专注于高价值、信息丰富的场景，这些场景包括困难样本（模型持续失败）和模糊样本（模型最不确定）。为了实现这一点，本文利用SFT模型为每个查询采样个轨迹，估计其平均奖励和奖励方差。然后，本文丢弃那些具有高平均奖励和低方差的样本，因为这表明了持续的成功。这种策略有效地将训练集中在困难（低平均值，低方差）和模糊（高方差）的场景上。通过这种方法，本文将初始的训练条目减少到一个包含高价值场景的核心数据集。

奖励建模。为了激励VLA模型学习有效的驾驶行为并确保其输出格式的稳定性，本文设计了一个包含三个部分的奖励函数：PDMS奖励、格式奖励和目标奖励。PDMS奖励是一种基于预测驾驶员模型得分[7]的综合轨迹评估指标。它表示为0到1之间的连续值。用于计算该得分的具体公式在附录8.1中提供。格式奖励是一个二进制（1或0）奖励，旨在严格强制遵守所需的输出格式。最后，目标奖励通过根据与真值终点的L1距离分配分层奖励来激励终点准确性。每种奖励的详细计算方法在附录7.1中提供。强化学习过程中的总体奖励通过整合四个设计的奖励组件计算得出，如下所示：

GRPO的反馈机制。本文的方法采用了一种反馈机制，如图3所示，用于优化轨迹并提高奖励，从而使得VLA模型能够突破其性能瓶颈。更具体地说，该过程首先通过基础输入采样一批轨迹响应。然后计算这批样本的奖励，其中包括、和。根据预定义的阈值，这些响应随后被分为两组：正确响应和错误响应。最后，按照第3.1节的方法，对正确的和错误的响应分别进行处理，并组装成最终的反馈输入。

随后，VLA 模型根据反馈输入生成一批新的响应，并计算它们的奖励值。本文从子集中随机选择个响应，这些响应的轨迹奖励超过了原始批次的最大轨迹奖励。如果存在少于个这样的“更好”响应，则剩余的位置通过复制达到该最大奖励的原始响应来填充。这最终形成了一个包含个 rollout 样本的批次，然后从中计算相对优势。rollout 更新算法的细节见算法 1。GRPO 的最终优化目标定义如下：

其中，是初始 SFT 模型的参考策略，是一个超参数。本文仅将 CLIP 应用于原始批次 rollout 样本，而不是经过反馈优化后的响应。为了计算优势值，首先将两组奖励合并为一个统一集合。然后使用该组合集合的均值和标准差对奖励进行归一化，并计算相对优势和，如下所示：

对于反馈生成输出的 token 级概率比，一个挑战来自于条件不匹配。这些样本是使用反馈查询生成的，但本文的优化目标是基于基础查询的。这种差异可能导致精炼后的响应在优化策略下的概率非常低，从而导致高方差、潜在的梯度爆炸和训练不稳定。因此，受 LUFFY [37] 启发，本文采用策略塑形。该技术为中低概率的 token 分配更高的权重。这种机制鼓励模型从罕见但正确的轨迹中学习有价值的知识，否则这些轨迹可能会被忽略。标准比率和塑形后的比率定义如下：

4. 实验

4.1. 实现细节

数据集。本文在NAVSIM [7] 上进行了全面的实验和评估，NAVSIM 是一个基于 OpenScene 构建的面向规划的自动驾驶数据集。除了从 NAVSIM 收集的推理数据外，本文还利用了几个开源数据集，如第 3.2 节所述。

评估指标。本文在自动驾驶的两个不同方面评估了方法的性能：高层规划和轨迹预测。

对于高层规划评估，本文使用高层规划准确率（High-Level Planning Accuracy），该指标严格要求整个元动作（包括纵向速度和横向路径）必须与真值完全匹配。此处的真值由GT轨迹生成，详细信息见附录8.1。

在NAVSIM基准上的轨迹预测评估中，本文利用NAV-SIMv1 [7] 的预测驾驶员模型得分（PDMS）和NAV-SIMv2 [2] 的扩展预测驾驶员模型得分（EPDMS）作为闭环规划指标。

训练细节。本文使用InternVL3-8B [42] 作为基础模型，并分三个阶段进行训练。首先，在大规模驾驶知识数据集上进行预训练。其次，在混合数据集上对模型进行微调，该数据集包含精心策划的Navsim规划数据集（带有CoT注释）以及第3节中的反馈数据集。最后，使用32块NVIDIA H20 GPU进行强化学习训练。本文采用Qwen3-VL-32B [1] 作为教师模型。关键的RL参数包括每批次8个rollouts、阈值、策略塑造参数以及次响应优化。附加细节和超参数见附录8.1。

表1. 在NAVSIMv1上与最先进方法的比较（基于PDMS）。

表2. 在NAVSIMv2上与最先进方法的比较（基于EPDMS）。

4.2 性能比较

Navsim基准测试。表1展示了ELF-VLA与当前领先方法在NAVSIMv1基准上的性能比较。在仅视觉设置下，ELF-VLA实现了91.0的PDMS，建立了新的最先进水平（SOTA）。这一结果比之前最佳的仅视觉方法DriveVLA提高了0.7 PDMS。此外，ELF-VLA分别比SFT-only（InternVL3-8B-SFT）和传统RL（InternVL3-8B-RL）基线高出3.6和2.0 PDMS。在NAVSIMv2基准（表2）上，ELF-VLA继续保持强劲表现，取得了87.1 EPDMS的新SOTA。这一分数超过了DriveVLA-W0之前的最佳成绩1.0 EPDMS。这些发现表明，本文的方法ELF-VLA显著增强了模型的驾驶能力，超越了传统的RL方法，特别是在处理具有挑战性的驾驶场景方面。此外，在两个基准上的出色表现确认了ELF-VLA不仅仅是在PDMS指标上过拟合；相反，它在不同的、更全面的EPDMS上也表现出色，展现了强大的泛化能力。

定量评估。本文将ELF-VLA（表3）的性能与几个精心设计的消融模型进行比较（详细定义见附录8.1）：

表3. ELF-VLA与传统GRPO和其他反馈策略的性能比较。

• SFT（基线）：仅使用监督微调训练的基础模型。• GRPO：SFT模型进一步使用传统GRPO算法进行微调。• GT-GRPO：SFT模型在添加了真值（GT）轨迹的响应集上进行微调。• Rule-GRPO：SFT模型在基于预定义规则反馈生成新响应的响应集上进行微调。• ELF-VLA：SFT模型在基于教师模型结构化反馈生成的新优化响应的响应集上进行微调。

图4. 在RL训练阶段测量的GRPO、GT-GRPO、Rule-GRPO和ELF-VLA的总失败样本比例。总失败表示一个样本的所有rollouts在特定指标上均失败（PDMS低于，NC为0且DAC为0）。

值得注意的是，ELF-VLA实现了最佳的整体性能。本文方法比传统的GRPO方法高出2.0 PDMS。这表明通过引入结构化反馈并重新生成优越的、符合分布的轨迹，本文的方法有助于模型解决持续失败的问题。此外，ELF-VLA分别超越了GT-GRPO和Rule-GRPO 1.8和1.4 PDMS。这突显了这两个基线方法的独特局限性。对于GT-GRPO，GT轨迹与原始VLA生成的响应之间存在显著的分布偏移。这些GT响应的可能性较低，使得优化变得困难。对于Rule-GRPO，来自预定义规则的反馈对模型的影响有限。这个过程类似于简单的自我改进，缺乏细致的指导，导致模型无法从这种简化的反馈中学习有效的轨迹校正。相比之下，ELF-VLA利用教师模型的广泛通用知识，对原始响应进行深入的结构化分析。VLA模型接收到这种全面的反馈，使其能够从失败中学习并改进轨迹。这一过程产生了更优越、更容易优化的改进轨迹。

总失败率分析。本文分析了这些模型在RL训练阶段的失败率，如图4所示。具体而言，本文测量了所有展开的轨迹在关键指标PDMS、DAC和NC上同时失败的样本比例。如图所示，虽然中间策略如GT-GRPO和Rule-GRPO有助于减少失败率，但ELF-VLA在所有指标上都表现出最显著的改进。ELF-VLA将总失败的PDMS率从（对于GRPO）降低到仅，NC和DAC也观察到了类似的显著下降。这一结果进一步验证了本文的方法使模型能够从其错误中学习，解决持续失败问题，并最终提高整体驾驶安全性和鲁棒性。

表4. 在NAVSIM上的高级规划比较。

表5. 强化学习中训练数据数量的消融研究。†: 随机采样。*: 按第3.3节整理。

高层规划评估。如表4所示，本文结果突显了ELF-VLA在高层规划方面的明显优势。ELF-VLA在纵向速度精度和横向路径精度方面均取得最佳结果，实现了最高的整体规划精度，比传统GRPO高出。此外，与开源模型相比，ELF-VLA在准确率上优于显著更大的Qwen2.5-VL-72B模型。这种改进源于教师模型提供精炼的元动作，VLA模型学会将其内化。这表明ELF-VLA能够从失败案例中学习以优化其高层规划。

4.3. 消融研究

关于GRPO与训练数据。本文研究了强化学习中训练数据量和组成的影响，如表5所示。使用完整的数据集（89.1 PDMS）或随机采样的子集（88.9 PDMS）都产生了次优结果。相比之下，本文精心整理的数据集，按照第3.3节指导，实现了91.0 PDMS的最佳性能。这表明完整的85k数据集主要由简单场景主导，提供了有限的学习信号，削弱了整体梯度信号，并导致对已掌握场景的关注策略更新效率低下。本文的数据筛选策略有效地提炼出最有价值的数据。结合本文的反馈机制，这些数据允许针对这些复杂场景进行有针对性的训练。这种方法最终提高了模型性能并增强了训练效率。

关于GRPO与反馈。表6分析了本文的反馈组件。首先论文改变精炼响应的数量。当时达到最佳性能（91.0 PDMS）。增加会降低性能，下降到

图5. ELF-VLA在NAVSIM数据集上轨迹优化过程的可视化。初始错误轨迹（红色）、真值（绿色）和最终优化轨迹（蓝色）的可视化。教师模型生成的反馈引导将错误轨迹优化为优化轨迹。反馈中的彩色文字详细说明了已应用的具体优化内容。

表6. 关于优化响应数量和策略塑造（PS）使用的消融研究。

89.0 at 。这表明虽然单次针对性优化是有效的，但多次基于反馈的响应可能会分散策略。本文还评估了策略塑造（PS）。移除PS（在时）会导致PDMS显著下降，从91.0降至89.3。这证实了PS对于防止训练崩溃和格式错误至关重要，确保模型能够正确地从高优势、低概率的优化轨迹中学习。

4.4. 优化过程的可视化

图5展示了一个定性示例，其中ELF-VLA在一个复杂的左转场景中纠正了故障轨迹。初始故障轨迹（红色曲线）导致潜在碰撞，其根源在于对关键障碍物的重大误判（预测：前方，左侧）。本文的教师模型提供结构化反馈，精确识别出这一“思考过程”错误，并估计了更准确的位置（前方，左侧）。同时，它提供了可操作的修正建议，例如目标横向位置和纵向速度的调整。基于此反馈，模型生成了优化轨迹（蓝色曲线）。优化计划中相应的“关键障碍物分析”反映了这种修正后的感知，使智能体能够规划出一条成功避开障碍物的安全轨迹。更多结果请参见附录8.2。

5. 结论

本文提出了ELF-VLA，这是一种从失败中进行显式学习的框架。当发生失败时，该方法通过一个强大的教师模型来增强VLA策略，生成结构化的诊断报告并识别潜在的失败模式。然后，策略利用这种显式的、类似人类的反馈来合成修正后的高奖励轨迹。通过将这些修正后的样本重新注入到强化学习训练批次中，ELF-VLA提供了有针对性的梯度，使策略能够解决那些无指导探索难以克服的复杂场景。

这种方法的主要局限性在于其依赖于外部教师模型，这本质上限制了学生模型的性能，使其受限于教师模型的分析能力。此外，所有实验都是在Navsim基准上进行的，这是一个非反应式的仿真环境。未来的工作将涉及探索不同教师模型的作用，并在更多样化的数据集上进行闭环评估。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

ELF-VLA算法:显式学习失败突破自动驾驶VLA性能瓶颈!

公众号论文知识库问答助手

智驾人速藏！这个免费问答助手，能直接和最新精选智驾论文对话！告别论文大海捞针！

点击下方名片, 关注智驾通鉴公众号

长按识别下图二维码，加入智驾通鉴交流群

（合作交流投稿可加管理员微信insightagent01）

通过从失败中显式学习释放自主驾驶中的VLA潜力

论文卡片

论文信息

论文概述

研究背景与问题

论文方法

核心创新点

实验结果

结论与影响

论文精读

摘要

1. 引言

2. 相关工作

3. 方法

3.1. VLA输入的构建

3.2 认知与优化的两阶段SFT

3.3. 基于失败反馈的强化学习

4. 实验

4.1. 实现细节

4.2 性能比较

4.3. 消融研究

4.4. 优化过程的可视化

5. 结论

最新文章

热门文章

随机文章

ELF-VLA算法:显式学习失败突破自动驾驶VLA性能瓶颈!

公众号论文知识库问答助手

智驾人速藏！这个免费问答助手，能直接和最新精选智驾论文对话！告别论文大海捞针！

点击下方名片, 关注智驾通鉴公众号

长按识别下图二维码，加入智驾通鉴交流群

（合作交流投稿可加管理员微信insightagent01）

通过从失败中显式学习释放自主驾驶中的VLA潜力

论文卡片

论文信息

论文概述

研究背景与问题

论文方法

核心创新点

实验结果

结论与影响

论文精读

摘要

1. 引言

2. 相关工作

3. 方法

3.1. VLA输入的构建

3.2 认知与优化的两阶段SFT

3.3. 基于失败反馈的强化学习

4. 实验

4.1. 实现细节

4.2 性能比较

4.3. 消融研究

4.4. 优化过程的可视化

5. 结论

自动驾驶新动作,海南牵手百度

瞧瞧,重磅亮相的别克至境E7_SUV内饰!

最新文章

热门文章

随机文章