当前位置：首页>自动驾驶>自动驾驶新探索!小米提出OneVL:首个超越显式思维链的潜空间推理方案

自动驾驶新探索!小米提出OneVL:首个超越显式思维链的潜空间推理方案

2026-05-16 08:06:57

在自动驾驶的研发中，进来人们希望寻找一种平衡：既希望模型像人类一样拥有深思熟虑的“思维链”（Chain-of-Thought, CoT），能解释为什么要左转或减速；又要求它反应极快，不能因为“思考”太久而错过刹车时机。

传统的显式思维链虽然聪明，但它必须一个词一个词地吐出推理过程，这种自回归（Autoregressive, AR）的特性带来了巨大的延迟。而之前的隐式推理（Latent CoT）虽然快，但在复杂的驾驶任务中往往表现不佳。

近日，小米具身智能团队（Xiaomi Embodied Intelligence Team）提出了一种名为 OneVL 的新框架，全称为 One-step latent reasoning and planning with Vision-Language explanations。其核心寓意在于实现“一步到位”的潜空间推理与规划，同时保留视觉和语言双重解释能力，旨在打破自动驾驶中“解释性”与“实时性”不可兼得的僵局。

论文地址: https://arxiv.org/abs/2604.18486
项目主页: https://xiaomi-embodied-intelligence.github.io/OneVL/
huggingface: https://huggingface.co/papers/2604.18486

为什么之前的隐式推理行不通？

之前的潜思维链方法在自动驾驶上“水土不服”。

像 COCONUT 或 SIM-CoT 这样的方法，主要是针对纯文本任务设计的。它们试图将推理过程压缩进几个连续的向量，即潜令牌（Latent Tokens）中。但自动驾驶不仅仅是语言逻辑，它本质上是一个时空预测任务。

作者观察到：纯语言的潜表征太抽象了。它压缩的是世界的符号化表达，而不是驱动现实的因果动力学。简单来说，模型可能学会了说“前面有车”，但它并没有真正“理解”车辆运动的物理规律。这种“符号化压缩”满足了效率，却丢掉了智能的深度。

OneVL：给推理装上“世界模型”

为了解决这个问题，OneVL 引入了一个非常精妙的设计：双模态辅助解码器。

在训练阶段，OneVL 不仅要求潜令牌能还原出推理文字（通过语言辅助解码器），还要求它们能预测出未来 0.5 秒和 1.0 秒的视觉画面（通过视觉辅助解码器）。

图2对比了三种CoT范式，OneVL通过预填充（Prefill）实现了速度与精度的双赢

这个视觉解码器实际上扮演了世界模型（World Model）的角色。它强制模型在潜空间内消化道路几何、物体运动和环境变化。如果潜令牌能成功预测出未来的画面，说明它已经捕捉到了物理世界的因果逻辑。这种物理层面的“验证”，正是语言辅助推理所欠缺的“灵魂”。

核心架构与输入输出流程

OneVL 的主干是 Qwen3-VL-4B-Instruct。其核心在于将推理路径路由到紧凑的潜令牌中，并由辅助解码器进行监督。

Input（输入）：当前帧图像、自车状态（Ego State）、导航命令（Command）以及历史轨迹（Historical Trajectory）。
潜空间处理：在模型生成答案之前，插入了 4 个视觉潜令牌（Visual Latent Tokens, ）和 2 个语言潜令牌（Language Latent Tokens, ）。
Output（输出）：

主要输出：未来轨迹点（Trajectory Waypoints）。
辅助输出（仅训练或审计时）：人类可读的 CoT 推理文本、未来帧视觉预览。

三阶段训练：稳扎稳打的进化

让一个模型同时学会开车、写推理还要预测未来，这在优化上是个挑战。研究团队设计了一个三阶段的训练流水线：

阶段 0：主模型预热。让视觉语言模型（VLM）先学会基本的轨迹预测，并在对应位置生成潜令牌。
阶段 1：辅助解码器预热。固定主模型，专门训练两个辅助解码器，让它们学会从潜令牌中提取文字和画面。此时视觉解码器开始展现其作为“世界模型”的预测能力。
阶段 2：联合端到端微调。全量训练，让辅助解码器的梯度回流，真正塑造潜空间的表征能力。

这种策略避免了训练初期的“梯度冲击”，确保了模型能够收敛到最优解。消融实验显示，如果不采用这种三阶段策略，模型的性能会发生灾难性下降（PDM-score 从 88.84 跌至 67.13）。

实验结果：速度与精度的双重提高

OneVL 在 NAVSIM、ROADWork、Impromptu 和 APR1 四个主流基准上都展现了极强的统治力。

在最受关注的 NAVSIM 榜单上，OneVL 取得了 88.84 的 PDM-score。这个分数不仅超过了此前的 SOTA 模型 AdaThinkDrive（86.20），更是第一次在潜空间推理中超越了显式 CoT（88.29）。

延迟表现当然是重头戏。得益于预填充推理（Prefill Inference）技术，OneVL 在推理时将潜令牌作为 Prompt 的一部分并行处理，其延迟仅为 4.46s。这与完全不进行推理的“仅答案”模型（4.49s）几乎一样快，而比显式 CoT 模型（6.58s）快了近 1.5 倍。

在处理施工区域等复杂场景的 ROADWork 任务中，OneVL 的优势更加明显，其推理速度比显式 CoT 快了 2.3倍。