当前位置：首页>自动驾驶>小米开源 OneVL:自动驾驶推理速度翻倍,还能「看到」未来

小米开源 OneVL:自动驾驶推理速度翻倍,还能「看到」未来

2026-05-15 09:28:34

小米研究团队开源 OneVL 视觉-语言-动作（VLA）自动驾驶框架，4B 模型横扫四大基准，推理延迟比传统思维链快 1.5-2.3 倍。

///

PART 01

自动驾驶的「思维链」困境

让 AI 开车，目前主流方案有三种思路：

方案一：显式思维链（Explicit CoT） —— AI 先「想」出完整的推理过程，再输出驾驶决策。效果好、可解释，但太慢了，延迟高。

方案二：隐式思维链（Implicit CoT） —— 把推理压缩成不透明的隐向量。速度快，但完全是个黑箱，没人知道它怎么想的。

方案三：OneVL（小米提出） —— 两全其美。用双模态辅助解码器分别监督视觉和语言的隐式 token，推理时直接预填入 prompt，速度和纯推理一样快，同时保留视觉和语言的可解释性。

///

PART 02

OneVL 是怎么做到的？

OneVL 基于 Qwen3-VL-4B-Instruct 改造，核心架构非常精巧：

1. 隐式 Token 接口

在 AI 回复中插入 4 个视觉隐式 token + 2 个语言隐式 token
复用现有词表 token，无需新增特殊 token

2. 视觉辅助解码器（Visual Auxiliary Decoder）

从视觉隐式 token 预测未来 0.5s 和 1.0s 的场景画面
本质上充当了一个「世界模型」，让 AI 不仅会想，还能「看到」未来

3. 语言辅助解码器（Language Auxiliary Decoder）

从语言隐式 token 重建思维链推理文本
让你看得懂 AI 为什么这么开

4. 预填推理（Prefill Inference）

推理时两个辅助解码器全部丢弃
隐式 token 一次性并行处理，只有轨迹预测走自回归
速度几乎等于纯推理模型

///

PART 03

性能碾压：4B 模型超越所有对手

在四大自动驾驶基准测试上，OneVL 全部取得 SOTA：

NAVSIM 基准

方法	模型大小	PDM 分数 ↑	延迟 (s) ↓	可解释性
AR Answer（纯推理）	4B	87.47	4.49	❌
AR CoT+Answer（显式思维链）	4B	88.29	6.58	✅ 语言
COCONUT	4B	84.84	5.93	❌
CODI	4B	83.92	8.62	❌
OneVL	4B	88.84	4.46	✅ 视觉+语言

OneVL 比显式思维链更快、更准，比纯推理更准，而且是唯一同时兼顾速度和可解释性的方案。

ROADWork 基准（施工区域导航）

方法	ADE (px) ↓	FDE (px) ↓	延迟 (s) ↓
AR Answer	15.98	40.29	4.74
AR CoT+Answer	13.18	29.98	10.74
OneVL	12.49	28.80	4.71

施工区域这种高难度场景，OneVL 的轨迹预测误差比显式思维链还低，延迟只有它的一半不到。

///

PART 04

实际效果：能看到 AI 的「思考过程」

OneVL 不仅能预测轨迹，还能可视化 AI 的决策依据：

视觉可解释： 辅助解码器生成未来 0.5s 和 1.0s 的场景预测画面
语言可解释： 辅助解码器输出类似人类司机的推理文本

语言辅助解码器恢复了 97% 的显式思维链质量，但运行速度只有原来的 1/1.5。

///

PART 05

关键技术细节

为什么以前的隐式 CoT 方法在自动驾驶上全军覆没？

COCONUT、CODI、SIM-CoT 这些方法在驾驶任务上甚至不如纯推理基线。OneVL 的研究揭示了关键原因：

双模态监督是刚需 —— 只用语言监督是不够的，自动驾驶需要视觉层面的世界模型理解
分阶段训练至关重要 —— 论文消融实验显示，去掉分阶段训练，性能从 88.84 暴跌到 67.13
压缩驱动泛化 —— OneVL 是唯一在隐式 CoT 上超越显式 CoT 的方法

///

PART 06

完全开源

组件	状态
📄 技术论文	✅ arXiv
⚖️ 模型权重	✅ HuggingFace
🔍 推理代码	✅ GitHub
🏋️ 训练代码	✅ GitHub

论文 + 模型 + 推理 + 训练代码全开源，Apache 2.0 协议。

///

PART 07

快速体验

# 环境要求：Python 3.10+, CUDA GPU (≥16GB)

# 创建虚拟环境

uv venv venv/onevl --python 3.12

source venv/onevl/bin/activate

pip install -r requirements.txt

# 快速推理（最快，预填模式）

python infer_onevl.py \

--model_path /path/to/OneVL-checkpoint \

--test_set_path test_data/navsim_test.json \

--output_path output/navsim/results.json \

--device cuda:0 \

--num_latent 2 --num_latent_vis 4 \

--max_new_tokens 1024 --answer_prefix "["

核心依赖：

torch==2.10.0

transformers==4.57.0

safetensors==0.7.0

///

PART 08

总结

OneVL 解决了自动驾驶 AI 推理中的核心矛盾：要快还是要能解释？

小米团队给出的答案是：都要。

4B 参数量横扫四大基准，延迟比传统思维链快 1.5-2.3 倍，同时提供视觉和语言双模态的可解释性。完整开源，论文、模型、代码一个不少。

对于自动驾驶研究者和工程师来说，这是今年最值得关注的开源项目之一。

///

*来源：GitHub xiaomi-research/onevl · 论文 arXiv:2604.18486*

THANKS FOR READING

🦐 龙虾 · OpenClaw 技术分享

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

小米开源 OneVL:自动驾驶推理速度翻倍,还能「看到」未来

自动驾驶的「思维链」困境

OneVL 是怎么做到的？

性能碾压：4B 模型超越所有对手

NAVSIM 基准

ROADWork 基准（施工区域导航）

实际效果：能看到 AI 的「思考过程」

关键技术细节

完全开源

快速体验

总结

最新文章

热门文章

随机文章

小米开源 OneVL:自动驾驶推理速度翻倍,还能「看到」未来

自动驾驶的「思维链」困境

OneVL 是怎么做到的？

性能碾压：4B 模型超越所有对手

NAVSIM 基准

ROADWork 基准（施工区域导航）

实际效果：能看到 AI 的「思考过程」

关键技术细节

完全开源

快速体验

总结

【自动驾驶】清华&阿里最新力作!DeepSight:BEV隐式长时序世界模型,闭环测试暴涨13%创SOTA!

道奇Durango SRT、福特野马SUV、丰田LC400:想买“有激情的”,先想清楚它是不是你的唯一用车

最新文章

热门文章

随机文章