很多做自动驾驶视觉语言模型的研究者都见过一个令人头疼的矛盾:你让模型在生成轨迹之前先"说出推理过程",预测精度确实更好了,但推理延迟也随之暴涨——在安全攸关的实时场景里,这个代价根本无法接受。反过来,如果你把推理步骤压缩成紧凑的潜在向量,速度是快了,但生成质量却总是追不上显式推理的水平。这种"推理质量与推理速度不可兼得"的困境,近两年已经成为 VLA 领域的核心矛盾之一。
小米具身智能团队发布的这篇 OneVL,给出了一个非常有意思的新答案。他们的核心论断是:过去的潜在推理方法之所以总是落后于显式推理,根本原因不在于压缩本身,而在于压缩的目标选错了。把语言描述压缩进潜空间,本质上是在压缩一个对物理世界的符号抽象,而不是世界本身的因果动态。OneVL 的解法是引入一个视觉世界模型解码器,强迫潜在表示去预测未来帧,从而让压缩的目标从"语言摘要"变成"物理因果结构"。最终结果是:OneVL 成为第一个在轨迹预测精度上超越显式思维链的潜在推理方法,同时推理延迟与"直接输出答案"的基线持平。
- 论文: https://arxiv.org/pdf/2604.18486
背景:为什么潜在推理一直追不上显式推理
要理解 OneVL 解决的问题,需要先把 VLA 框架里的推理链条讲清楚。
在基于视觉语言模型的自动驾驶系统中,模型接收前视摄像头图像和自车状态信息,输出未来的轨迹路点。Chain-of-Thought 推理的引入,让模型在输出轨迹之前先生成一段自然语言推理,描述当前场景的关键要素、周边车辆的运动状态、以及自车的驾驶意图。这种做法显著提升了轨迹预测的准确性,原因在于:显式写出中间推理步骤,迫使模型把对场景的理解压缩成结构化、可泛化的表示,而不是直接记忆输入输出的浅层映射。
但代价是显而易见的。自回归生成每一个推理 token 都需要时间,整个推理链越长,延迟越高。在实时驾驶场景中,这种延迟完全不可接受。
潜在推理方法试图绕开这个问题,把显式的推理 token 序列替换成少量连续的潜在向量。COCONUT 用课程学习逐步把离散推理步骤替换成连续向量;CODI 用自蒸馏让学生模型在潜空间里模仿教师模型的推理行为;SIM-CoT 给潜在推理附加了一个文本解码辅助解码器,引入直接的文本监督。这些方法在纯语言任务上取得了一定进展,但当被移植到 VLA 自动驾驶场景时,全部表现出严重退化——不仅追不上显式推理,甚至连直接输出答案的基线都打不过。
OneVL 的作者认为,这个失败有一个根本性的原因,而不是工程细节上的问题。

核心问题:语言压缩的目标天然不适合驾驶规划
自然语言对驾驶场景的描述,本质上是一种符号抽象。它告诉你"前方 18 米有一辆车正在快速行驶",但它不告诉你这辆车在接下来 0.5 秒里会在空间中的哪个位置、路面几何如何演变、自车的合理轨迹应该怎么弯曲。语言编码的是语义标签和关系,而不是决定未来结果的时空因果动态。
因此,当你把一个潜在向量训练成"能够解码出语言推理"时,你实际上是在让这个向量去压缩一个已经被抽象化了的世界描述。这个压缩目标本身就已经丢失了驾驶规划真正需要的几何信息和物理因果结构。用信息瓶颈的视角来说:这样的压缩满足了效率要求,但没有满足智能要求。
这就解释了为什么所有纯语言潜在推理方法在驾驶场景里都会失败——它们的压缩目标从一开始就不对。
方法:双模态辅助解码器与三阶段训练
OneVL 的架构建立在 Qwen3-VL-4B-Instruct 这个视觉语言模型主干上,并在此基础上引入了两类核心创新。
双模态潜在 token 设计
OneVL 在模型的助手回复中插入两类专用潜在 token,放置在轨迹答案之前。
第一类是视觉潜在 token,共 4 个,用来承载对未来场景视觉状态的隐式推理。第二类是语言潜在 token,共 2 个,用来承载对驾驶意图和场景语义的隐式推理。这两类 token 在训练时会被路由到各自对应的辅助解码器,在推理时则被直接预填充进提示词上下文,不需要自回归生成。
值得注意的是,作者发现把这些潜在 token 作为全新词表项加入模型会导致性能下降,因此选择用原有词表中的 token 来实现:4 个视觉潜在 token 实际上由 35 个原始 token 表示,2 个语言潜在 token 由 20 个原始 token 表示。
语言辅助解码器
语言辅助解码器的任务是从压缩的语言潜在隐状态中重建出人类可读的思维链文本。
它的输入由两部分拼接而成:当前帧的视觉编码器输出,以及语言潜在 token 在主模型最后一层的隐状态。两部分分别经过 MLP 映射到解码器的嵌入空间后拼接,输入解码器,以交叉熵损失对照标注的思维链文本进行训练。这个解码器的作用是给语言潜在 token 提供语义监督,确保它们编码了有意义的驾驶推理内容。
视觉辅助解码器
视觉辅助解码器是 OneVL 最关键的创新。它的任务是从视觉潜在隐状态中预测未来帧的视觉 token,具体是预测当前时刻之后 0.5 秒和 1.0 秒的场景图像。
这个设计的核心逻辑是:未来帧预测是一个具体的、物理上有根基的压缩目标。一个能够预测场景在接下来一秒里如何演变的潜在向量,必然已经内化了道路几何、智能体运动和环境变化的因果动态。这正是语言描述无法提供的东西。视觉辅助解码器扮演的是一个世界模型辅助的角色,它把压缩的目标从"语义摘要"变成了"物理预测"。
视觉辅助解码器的损失权重被设置为 0.1,远低于语言辅助解码器的 1.0,原因是视觉 token 重建是一个更难的任务,过高的权重会主导训练信号,反而干扰整体优化。
预填充推理机制
在推理阶段,两个辅助解码器被完全丢弃。所有潜在 token 被预填充进提示词上下文,作为固定的输入序列。现代 Transformer 的预填充阶段是并行处理的,因此这些额外的潜在 token 几乎不增加延迟。模型随后只需自回归地生成轨迹 token,整体延迟与直接输出答案的基线几乎完全相同。
这个机制的巧妙之处在于:虽然辅助解码器在推理时不存在,但主模型在训练时已经学会了通过潜在 token 的隐状态来激活推理路径,这些路径在推理时依然有效,只是不再需要显式解码出来。
三阶段训练流程
OneVL 的训练面临一个独特的优化挑战:主模型、语言辅助解码器和视觉辅助解码器有完全不同的学习目标,且从不同的初始对齐状态出发。直接进行端到端联合训练会导致灾难性失败,这在消融实验中得到了验证。
三阶段训练流程的设计正是为了解决这个问题。
第一步是视觉辅助解码器的自监督预训练。在主模型完全不参与的情况下,视觉辅助解码器仅以当前帧的视觉编码器输出为输入,学习预测未来帧。这一步让解码器先建立起对视觉动态的鲁棒先验,避免后续训练时面对完全无信息的潜在 token 而陷入病态优化。
第二步是主模型热身阶段。主模型端到端地在轨迹预测任务上训练,潜在 token 被嵌入每个训练样本的助手回复中。这一步的目的是让潜在 token 的位置开始承载有意义的中间表示,为后续辅助解码器的对齐提供稳定的语义分布。
第三步是辅助解码器热身阶段。主模型被冻结,两个辅助解码器分别针对各自的目标进行训练。主模型的冻结确保了辅助解码器在一个稳定的语义分布上进行优化,而不是追逐一个不断变化的目标。
第四步是联合端到端微调。所有组件同时训练,辅助解码器的梯度流回主模型,直接塑造潜在表示,使其同时服务于轨迹预测、语言解释和视觉预测三个目标。这一步之所以能够稳定进行,是因为前三步已经为所有组件建立了良好的初始化状态。
实验:四个基准上的全面验证
基准与评估设置
OneVL 在四个互补的基准上进行评估,覆盖了不同难度和场景类型的驾驶任务。
NAVSIM 是基于 nuPlan 驾驶日志的大规模基准,使用 PDM-score 作为综合评估指标,同时考量轨迹安全性、舒适性和行驶进度。ROADWork 专注于施工区域导航,包含临时标志、非标准车道配置和动态障碍物,使用平均位移误差和最终位移误差评估。Impromptu 是从八个开放驾驶数据集蒸馏而来的大规模基准,聚焦四类非结构化角落案例,同时报告位移误差和轨迹 L2 误差。APR1 引入了因果链标注,包含与复杂驾驶行为对齐的决策推理轨迹。
所有基线方法都基于相同的 Qwen3-VL-4B-Instruct 主干,确保比较的公平性。
主要结果

在 NAVSIM 上,OneVL 达到 88.84 的 PDM-score,超越了使用 8B 参数的前任最优方法 AdaThinkDrive 和 LaST-VLA,同时超越了显式思维链基线 AR CoT+Answer 的 88.29。推理延迟为 4.46 秒,与直接输出答案的基线 4.49 秒几乎完全相同,比显式思维链的 6.58 秒快了约 1.5 倍。
在 ROADWork 上,OneVL 的平均位移误差为 12.49 像素,显著优于前任最优 YNet 的 22.68 像素,也优于显式思维链基线的 13.18 像素。推理延迟 4.71 秒,与直接输出答案的 4.74 秒持平,比显式思维链的 10.74 秒快了约 2.3 倍。
在 Impromptu 和 APR1 上,同样的模式得到重复:OneVL 在精度上超越所有基线,延迟与直接输出答案的基线持平。
一个特别值得关注的对比是三种潜在推理基线的表现。COCONUT、CODI 和 SIM-CoT 在所有基准上都显著差于直接输出答案的基线,这印证了作者的核心诊断:纯语言潜在推理方法在多模态时空推理任务上存在根本性的局限,而不只是工程细节上的不足。
解释质量评估
OneVL 不仅提供轨迹预测,还通过辅助解码器提供语言和视觉两种形式的解释。
在语言解释质量上,作者在 NAVSIM 测试集上对比了 OneVL 的语言辅助解码器输出与显式思维链基线的输出。OneVL 在元动作准确率上达到 71.00,优于 SIM-CoT 的 67.20,略低于显式思维链的 73.20。在语义文本相似度和 LLM 评判分数上,OneVL 同样介于 SIM-CoT 和显式思维链之间,但与显式思维链的差距很小。
在视觉解释质量上,视觉辅助解码器生成的未来帧在空间上保持连贯,与场景布局和自车运动轨迹一致,提供了可视化的时空推理链。这种视觉解释在人机交互、安全审计和调试场景中具有独特价值。
消融分析
视觉解码器的贡献:去掉视觉辅助解码器后,PDM-score 从 88.84 下降到 87.97,下降幅度为 0.87 分。这个结果直接支持了世界模型监督的核心假设:视觉 token 重建提供了一种与轨迹预测的几何本质直接对齐的监督信号,是语言监督无法替代的。
语言解码器的贡献:去掉语言辅助解码器后,PDM-score 从 88.84 下降到 88.53,下降幅度为 0.31 分。这个贡献虽然小于视觉解码器,但依然稳定存在,说明语义层面的推理监督对轨迹预测仍有补充价值。
三阶段训练的必要性:去掉三阶段训练、直接进行端到端联合微调的结果是灾难性的:PDM-score 从 88.84 暴跌到 67.13,下降超过 21 分。
作者对训练动态的分析揭示了两个根本原因。第一,直接联合训练在初始化时产生了梯度爆炸,梯度范数高达 378.22,严重破坏了预训练主干的稳定性;而三阶段训练的梯度范数维持在 0.28。第二,直接联合训练导致了严重的任务干扰,主模型在同时优化相互冲突的目标时陷入局部最优,最终轨迹预测损失远高于三阶段训练的结果。
视觉解码器生成的未来帧质量也印证了这一点:三阶段训练下,解码出的未来帧与场景一致、空间连贯;直接联合训练下,解码出的"未来帧"与输入图像完全无关,是视觉上毫无意义的噪声图案。这说明没有三阶段训练的视觉解码器根本没有学到场景动态,只是在记忆训练数据的表面模式。
深层分析:为什么压缩反而能超越显式推理
OneVL 超越显式思维链这件事本身值得深入思考,因为它违反了一个直觉:更多的推理 token 应该带来更多的信息,怎么会反而更差?
作者提出了两个互补的解释机制。
第一个是压缩收益。紧凑的潜在 token 迫使模型把与轨迹最相关的推理内容蒸馏进一个小的表示瓶颈,过滤掉无关或冗余的内容。这正是信息瓶颈原理所预测的:更紧的压缩丢弃噪声,只保留对输出真正有预测力的因果特征,从而产生比冗长自由形式推理链更好的泛化能力。显式思维链中存在大量重复上下文或套路化表达,这些内容对轨迹预测没有贡献,但会引入噪声。
第二个是世界模型接地收益。视觉辅助解码器的训练目标明确要求视觉潜在 token 编码时空场景动态,这与轨迹预测的几何本质直接对齐。显式语言推理没有类似的空间接地机制,它用符号描述世界,把因果几何结构留在隐含层面。
这两个机制共同解释了为什么 OneVL 能在使用更少 token 的情况下超越显式推理:它压缩的是更正确的东西,而且压缩得更彻底。
面向实际部署的延伸探索
在实时车载部署场景中,即使是 4 秒多的推理延迟也仍然过高。作者在 OneVL 主干的最后一个潜在 token 的隐状态上附加了一个轻量 MLP 头,用单次前向传播直接回归轨迹路点,完全绕开自回归解码。
这个变体在 NAVSIM 上的推理延迟降至 0.24 秒,对应约 4.16 Hz 的端到端频率,仅为原始自回归版本延迟的 5.4%。代价是 PDM-score 从 88.84 下降到 86.83,但这个精度仍然优于多个使用 8B 参数的前任最优方法。这个结果表明,OneVL 的潜在表示质量足够高,即使用最简单的回归头也能产生竞争力强的轨迹预测,为实际车载部署提供了一条可行路径。
总结
OneVL 最有价值的地方,在于它把一个长期被当作工程权衡的问题——推理质量与推理速度的矛盾——重新定位成了一个表示学习问题。
过去的潜在推理方法之所以失败,不是因为压缩本身有问题,而是因为它们压缩的目标错了。把语言描述压缩进潜空间,是在压缩一个对物理世界的符号抽象,而不是世界本身的因果动态。这种压缩满足了效率要求,但没有满足智能要求。
OneVL 通过引入视觉世界模型解码器,把压缩目标从"语义摘要"变成了"物理预测"。未来帧预测是一个具体的、物理上有根基的压缩目标:一个能够预测场景在接下来一秒里如何演变的潜在向量,必然已经内化了道路几何和智能体运动的因果结构。这正是驾驶规划真正需要的东西,也是语言描述天然无法提供的东西。
三阶段训练流程则确保了这种双模态压缩能够稳定实现,避免了多目标联合优化时的梯度冲突和任务干扰。
一句话概括 OneVL 的核心结论:真正决定 VLA 驾驶模型规划质量的,不是推理链有多详细,而是潜在表示是否编码了场景的物理因果动态。视觉世界模型监督正是提供这种因果接地的关键,而紧凑的潜在压缩反而比冗长的显式推理更能保留这种结构。