当前位置：首页>自动驾驶>自动驾驶VLA模型进化!北大&小鹏新作EvoDriveVLA:蒸馏技术让感知规划不再“打架”

自动驾驶VLA模型进化!北大&小鹏新作EvoDriveVLA:蒸馏技术让感知规划不再“打架”

2026-05-08 06:20:41

视觉-语言-动作模型（VLA）无疑是当前自动驾驶领域最火的研究方向之一。它不仅能输出轨迹，还能理解导航指令、进行场景问答，甚至用上思维链推理解决复杂驾驶问题。

然而，VLA模型的训练存在两个让人头疼的问题：解冻视觉编码器后感知性能退化，以及长程规划中轨迹稳定性的累积衰减。

简单来说，你越想让它“看懂”复杂路况，它就越容易忘记原本会看的东西；你越想让它“规划得远”，它就越容易在中途跑偏。

如何在不牺牲感知能力的前提下提升规划性能？北大与小鹏联合团队给出了一个漂亮的答案——EvoDriveVLA，一种融合自锚定蒸馏与Oracle引导蒸馏的协同感知-规划框架。

VLA模型的痛点：解冻与退化的两难困境

第一个问题：为什么解冻视觉编码器会导致感知退化？

VLA模型通常基于预训练的视觉语言模型（VLM）构建。在微调阶段，研究者面临一个选择：要不要解冻视觉编码器？

不解冻：视觉特征保持通用性，但可能无法充分适应自动驾驶领域的特殊场景（比如夜间、雨雪、特殊交通标志）。
解冻：模型能更好地适应自动驾驶数据，但大规模预训练习得的通用视觉特征会被破坏，导致过拟合训练集，泛化能力下降。

这就是所谓的退化-适配困境。

第二个问题——长程规划的累积衰减，则更加直观。VLA模型在预测未来轨迹时，每一步的微小误差都会随着时间步长累积放大。时间越长，轨迹偏差越严重，甚至出现违反物理规律的情况。

现有的知识蒸馏方法试图解决这些问题，但它们存在三个明显短板：

视觉编码器被忽视：大多数蒸馏方法只关注规划轨迹，对视觉感知模块关注不足。
教师模型不够“强”：教师模型与学生模型在同一设置下训练，能力上并无本质优势，难以提供高质量知识。
轨迹多样性不足：多轨迹方法依赖预定义的规划词汇表，难以覆盖真实驾驶的动态变化。

EvoDriveVLA正是针对这三个短板，提出了系统的解决方案。

EvoDriveVLA核心思想：双管齐下的协同蒸馏

EvoDriveVLA的核心理念可以用一句话概括：让感知守住底线，让规划仰望上限。

它包含两个并行模块：

自锚定视觉蒸馏：保护视觉编码器的原始感知能力，同时增强其对驾驶场景的敏感性。
Oracle引导轨迹蒸馏：构建具备“未来感知”能力的超级教师模型，为学生模型提供高质量的轨迹指导。

两者协同作用，让VLA模型在保留通用视觉知识的同时，学会更精准、更稳定的长程规划。

下面是2个模块的详解：

自锚定视觉蒸馏：让视觉编码器“不忘初心”

3.1 核心思路

自锚定视觉蒸馏的做法非常巧妙：用学生模型自身的“过去版本”作为教师。

具体来说，在微调开始前，团队复制了一份学生模型的视觉编码器，将其冻结作为自锚定教师模型。训练过程中，这个教师模型提供稳定的视觉特征作为“锚定约束”，防止学生模型的视觉编码器在适配自动驾驶数据时偏离太远。

通俗理解：你可以学习新知识，但不能忘了老本行。锚定约束就是那个“提醒你保持基本功”的教练。

3.2 AnchorFormer：轨迹引导的令牌级锚定

但简单的全局特征约束粒度太粗。不同区域对驾驶任务的重要性不同——车道线、交通标志、行人显然比远处的天空更重要。

为此，团队设计了AnchorFormer模块，它由两部分组成：

AnchorLayer：与大语言模型的解码层结构相同，用于融合视觉令牌、文本指令、自车状态和未来轨迹信息。
AnchorScorer：一个线性层，为每个视觉令牌计算自适应权重。

最终，模型会为每个视觉令牌分配一个锚定权重ω_i，权重越高，该区域受到的特征约束越强。而权重的分配依据是：该区域与规划轨迹的相关性。

这意味着，靠近规划路径的关键区域（如前方路口的行人）会被施加更强的锚定约束，而无关区域（如路边树木）约束较弱。

3.3 蒸馏损失

最终的自锚定视觉蒸馏损失采用加权MSE：

其中ω_i是令牌级锚定权重，f_i是视觉特征。这个设计既保留了全局特征结构，又强化了任务相关区域的约束。

Oracle引导轨迹蒸馏：让教师模型“开天眼”

4.1 什么是Oracle教师模型？

传统蒸馏中，教师模型与学生模型看到的信息完全相同，能力天花板被锁死。

EvoDriveVLA的做法是：给教师模型开“时间作弊器”。

Oracle教师模型除了当前的图像和自车状态，还能看到未来τ秒的图像和自车状态作为条件输入。这相当于让教师模型拥有“预知未来”的能力，自然能做出更精准的轨迹预测。

当然，这仅在训练阶段使用，学生模型推理时仍只依赖当前观测。但教师模型学到的精细推理路径，可以通过蒸馏迁移给学生。

4.2 由粗到精的轨迹优化

有了未来信息，如何最大化利用？

团队提出由粗到精的轨迹优化：Oracle教师先生成一个粗轨迹预测，然后将这个粗预测作为额外输入，重新输入模型进行细化修正。

这个过程可以递归进行，每轮修正都利用未来信息对轨迹进行时空一致性约束，生成更平滑、更符合物理规律的优化路径。

数学上可以表示为：

其中X包含当前和未来的观测，Y_coarse是粗轨迹，Y_fine是优化后的精细轨迹。

这种“生成-修正”的递归过程，本质上模拟了人类驾驶中的持续预判与微调机制。

4.3 蒙特卡洛丢弃采样：低成本高多样性

由粗到精的优化虽然精度高，但多样性有限。为了给学生模型提供更丰富的轨迹分布，团队引入了蒙特卡洛丢弃采样。

具体做法：对候选集中的每个隐藏状态，在固定模型参数的前提下，施加T次随机丢弃扰动，生成多样化的隐藏状态样本：

由于丢弃只作用于隐藏状态，且后续的语言模型头计算量极小，这种方法在引入极小计算开销的同时，显著提升了轨迹候选集的多样性。

4.4 最优轨迹筛选与蒸馏损失

从候选集中，团队计算每条轨迹与真实轨迹的交叉熵损失，选出最优轨迹：

然后，用这条最优轨迹对应的隐藏状态和对数几率作为软目标，对学生模型进行双层级对齐：

特征层对齐：学生模型的隐藏状态向教师模型对齐
输出层对齐：学生模型的预测分布向教师模型对齐

最终的轨迹蒸馏损失为：

这种设计让学生模型不仅能复刻教师的输出，还能内化复杂轨迹优化所需的底层推理能力。

实验结果：全面超越现有方法

5.1 开环评估：nuScenes SOTA

在nuScenes数据集上，EvoDriveVLA与三类基线方法进行了对比：传统方法、基于LLM的方法、基于蒸馏的方法。

结果：在所有对比方法中取得SOTA。

具体数据：

相比OpenDriveVLA，ST-P3设定下误差降低21%，碰撞率降低40%
相比OpenDriveVLA，UniAD设定下误差降低22%，碰撞率降低60%
相比DiMA，UniAD设定下误差降低9%

这是首个在感知和规划两个维度上都显著超越强基线的蒸馏方法。

5.2 闭环评估：NAVSIM全面领先

在NAVSIM闭环仿真评估中，EvoDriveVLA同样取得最佳成绩。

一个非常有意思的发现：蒸馏后的3B模型性能甚至超过了Qwen2.5-VL 8B和InternVL3-8B，PDM分数领先2.0分（相对提升2.4%）。

所以，好的蒸馏方法可以用更小的模型尺寸，达到甚至超越更大规模模型的效果。对于车载计算资源受限的场景，这无疑是个好消息。

5.3 消融实验：每个模块都不可或缺

消融实验验证了各组件的有效性：

Oracle引导轨迹蒸馏：显著提升预测精度，由粗到精优化和MC-Dropout采样各自贡献明显。
自锚定视觉蒸馏：进一步降低轨迹误差，证明感知能力的保留对规划确有帮助。

核密度估计可视化显示，由粗到精优化使轨迹损失分布向低数值区域显著偏移，异常值的长尾分布得到大幅缓解。而MC-Dropout则让近30%的教师预测轨迹与真实轨迹的损失小于0.1。

5.4 定性结果：长程规划明显更稳

可视化对比显示：在晴天/阴天、直道/弯道等不同场景下，EvoDriveVLA的长时域轨迹预测显著优于VAD和OmniDrive。

VAD的问题：纵向预测轨迹往往过短（规划保守）
OmniDrive的问题：横向偏移明显（方向稳定性差）
EvoDriveVLA：轨迹平滑、稳定，且能准确通过弯道

启发与思考：VLA蒸馏的新方法

EvoDriveVLA的价值不仅在于性能提升，更在于它为VLA模型的训练提供了一个新范式：

1. 感知与规划不能割裂：自锚定视觉蒸馏证明了，规划蒸馏需要与感知蒸馏协同进行，单独优化任何一方都会遇到瓶颈。

2. 教师模型需要“特权信息”：Oracle教师的设计表明，一个好的教师模型不应与学生模型“同质化”。引入额外的特权信息（哪怕是训练阶段不可用的），可以显著提升蒸馏质量。

3. 多样性采样是低成本高回报的策略：MC-Dropout以极小的计算开销换来了轨迹多样性和质量的双重提升，这个思路可以推广到更多生成任务中。

4. 小模型+强蒸馏 > 大模型+弱训练：3B蒸馏模型超越8B原始模型的结果，再次印证了“蒸馏比堆参数更高效”的观点。

当然，EvoDriveVLA也有其局限性。目前的开环和闭环评估仍基于nuScenes和NAVSIM等离线数据集或简化仿真，距离真实的实车部署还有距离。另外，Oracle教师依赖未来信息，如何将这种“预见能力”更高效地蒸馏给学生，仍有优化空间。

但无论如何，这项工作为VLA模型的演进提供了一个极具价值的思路：在感知与规划之间找到平衡点，通过协同蒸馏让两者共同进化。

论文：https://arxiv.org/abs/2603.09465
代码：https://github.com/hey-cjj/EvoDriveVLA
作者单位：北京大学 & 小鹏汽车

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。