当前位置：首页>自动驾驶>开源!Xiaomi OneVL 自动驾驶模型正式发布

开源!Xiaomi OneVL 自动驾驶模型正式发布

2026-05-14 17:44:17

先看一段视频:

目前市面上最常见的商用辅助驾驶，一般都会遇见两种情况，要么反应慢半拍，前车急刹还在往前冲；要么突然猛打方向、莫名急停。

自动驾驶大模型的推理，一直在快和准之间做取舍。这次小米推出了Xiaomi OneVL一步式潜空间语言视觉推理框架，目的就是解决上面说的问题。它直接把全套模型权重、训练和推理代码全部开源，全世界开发者免费用。

一、过去的自动驾驶，为啥又慢又笨？

先打个最通俗的比方：自动驾驶大模型做决策，就像学生做数学题。

过去行业有两种主流解法：

- 显式思维链（CoT）：相当于按步骤来。每一步推理要明明白白写出来，答案准，但写步骤太费时间。放到开车上，就是每一个决策都要逐字逐句想清楚再说，延迟高，遇到突发情况反应不过来。

- 仅答案预测：相当于蒙答案。跳过部分思考过程，直接出结果。速度是快了，但对错全靠运气，完全没有因果判断能力。你不知道它为啥突然变道，也不知道它下一秒会不会撞墙。

后来有个折中方案：潜空间思维链（Latent CoT）。在心里打草稿，不用写出来，直接出答案。这样既能保留思考过程，又能压缩时间。

但之前的潜空间方案，始终没突破瓶颈：要么草稿打得太潦草，答案精度还是赶不上写步骤的学霸；要么还是要分步骤打草稿，速度上不去。

小米OneVL这次改了种方式：心里打草稿又快又准，第一次全面超过了写步骤的显式推理，速度还和蒙答案的学渣一样快。

二、让模型“心里有数”，一步想清楚

OneVL是它第一次把自动驾驶领域两条完全独立的技术路线——VLA和世界模型，通过潜空间推理统一到了同一套框架里。

简单说，它让自动驾驶模型像老司机一样思考：不只是看见眼前的路，还要预判接下来会发生什么，然后做出最优决策。

主要依靠三个核心技术：

1. 两套系统，各司其职

人在开车的时候，脑子里同时在想两件事：一是别人会怎么动，二是我该怎么开。

OneVL给模型也配了两种方式：

- 视觉潜空间token：专门编码场景的物理因果，比如车辆运动、道路变化、障碍物移动；

- 语言潜空间token：专门编码驾驶意图的语义，比如右转、保持车速、避让行人。

它不用把这些想法逐字念出来，而是在自己的机器内部语言里快速整合，做到心里有数，而不是边说边想。

2. 训练时带双导师，推理时全丢掉

很多人担心心里打草稿会变成黑箱，不知道模型是怎么想的。小米的解法很聪明：训练的时候加监督，推理的时候全扔掉。

训练阶段，给模型配两个“监考老师”：

- 视觉解码器：盯着它预判未来0.5秒、1秒的画面对不对，这是世界模型能力；

- 语言解码器：盯着它的思考过程能不能翻译成人类能懂的文字，保证它不是瞎想。

等模型练熟了，真正上路的时候，这两个解码器全部移除，额外开销就没了。既保证了训练时的精度和可解释性，又实现了推理时的极致速度。

3. 预填充式一步推理，快到极致

之前的潜空间推理，还是要一步步打草稿。小米直接搞了个一次性打包思考：把所有要用到的历史轨迹、传感器数据、驾驶指令，一次性预填充进上下文，并行计算，一步就出最终决策。

速度有多夸张？

- 比显式CoT最高快2.3倍；

- 挂载轻量化变体后，延迟仅0.24秒（4.16Hz）；

- 这个速度，只有传统VLA自回归推理的5.4%，完全满足量产车的实时性要求。

所有测试全第一，量产直接能用

技术好不好，数据说了算。在涵盖感知、推理、规划的所有主流自动驾驶基准测试上，OneVL数据确实不错：

- ROADWork、Impromptu、Alpamayo-R1三项基准全部达到SOTA；

- 在最核心的NAVSIM测试中，PDM-score达到88.84，首次在潜空间推理中超越显式CoT；

- 是目前唯一一个在所有基准上全面超越显式自回归CoT的隐式推理方法。

更重要的是，它解决了自动驾驶最让人诟病的“黑箱问题”。虽然推理的时候不用写步骤，但你随时可以让它把心里的草稿拿出来：

- 既能用文字告诉你：因为绿灯亮了，且路口无行人，所以我将以1.5m/s的速度通过；

- 还能给你展示它预判的接下来1秒的路况画面，让你直观看到它觉得接下来会发生什么。

三、全面开源

最让人意外的是，小米没有把这个技术藏起来，而是直接全面开源了模型权重、训练代码和推理代码。

这意味着，全世界的车企、科技公司、开发者，都可以免费用OneVL来优化自己的自动驾驶系统。不用再从零开始摸索潜空间推理的路线。

这不是一次简单的技术发布，而是给整个自动驾驶行业指了一条新路：原来VLA和世界模型不用各走各的，潜空间推理真的能做到“精度超越显式CoT，速度对齐仅答案预测。

PS:

技术报告：https://arxiv.org/abs/2604.18486

项目主页：https://Xiaomi-Embodied-Intelligence.github.io/OneVL

开源代码：https://github.com/xiaomi-research/onevl

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

开源!Xiaomi OneVL 自动驾驶模型正式发布

最新文章

热门文章

随机文章

开源!Xiaomi OneVL 自动驾驶模型正式发布

【港股打新】躲在机场里搞自动驾驶,驭势科技(01511.HK)值不值得打?

五菱“华境S”:华为赋能下的六座大空间SUV,能否颠覆16万级市场?

最新文章

热门文章

随机文章