当前位置：首页>自动驾驶>自动驾驶“读心术”开源!小米 OneVL 震撼发布:既要快如闪电,又要透明可解释

自动驾驶“读心术”开源!小米 OneVL 震撼发布:既要快如闪电,又要透明可解释

2026-05-14 19:38:54

https://github.com/xiaomi-research/onevl

哈喽，大家好，我是 01墨客。

在自动驾驶（Autonomous Driving）领域，开发者一直面临着一个“鱼与熊掌不可兼得”的终极矛盾：解释性与速度。

传统的**显式思维链（Explicit CoT）虽然能让 AI 解释为什么要这么开，但生成推理链的过程太慢，根本跟不上瞬息万变的实时路况；而隐式思维链（Implicit CoT）**虽然快，但却是个“黑盒”，一旦出事，你根本不知道 AI 刚才在想什么。

就在最近，小米研究团队正式开源了其全新的 Vision-Language-Action (VLA) 框架 —— OneVL。

它用一种极其优雅的方式，破解了这个难题。

一、核心突破：既要“快”，又要“懂”

OneVL 最核心的创新在于它引入了双模态辅助解码器（Dual-modal Auxiliary Decoders）。

简单来说，它在训练阶段给 AI 安排了两个“监考老师”：

• 语言辅助解码器：监督 AI 生成人类可理解的文字推理。
• 视觉辅助解码器：监督 AI 预测未来的场景画面（世界模型）。

最绝的是，到了推理阶段，这两个解码器会被直接“扔掉”。AI 只需处理压缩后的潜变量（Latent Tokens），推理速度直接拉满，但其决策逻辑却已经深深烙印在了这些潜变量中。

指标	表现	开发者收益
推理速度	比显式 CoT 快 1.5~2.3 倍	满足自动驾驶的实时性要求
可解释性	视觉 + 语言双重解释	告别黑盒决策，易于回溯调试
准确率	横扫 NAVSIM、ROADWork 等四大榜单	性能超越传统 AR 模型
底座模型	Qwen3-VL-4B-Instruct	基于国产大模型底座，生态兼容性强

二、深度拆解：OneVL 的“三步走”战略

小米 OneVL 之所以能横扫榜单，靠的是三项关键技术创新：

1. 潜变量接口（Latent Token Interface）：在 Assistant 回复中插入 4 个视觉潜变量和 2 个语言潜变量。
2. 预填推理（Prefill Inference）：所有潜变量在一次并行 pass 中处理完毕，只有最终的轨迹是自回归生成的。这让它的延迟几乎等同于“不带推理”的纯预测模型。
3. 压缩驱动泛化：OneVL 是目前唯一一个在所有四个基准测试中，性能均优于显式自回归 CoT 的潜变量方法。

三、战力实测：性能与效率的“帕累托最优”

在自动驾驶的权威考场上，OneVL 展现了统治级的实力：

• NAVSIM 榜单：PDM-score 达到 88.84，延迟仅为 4.46s，完美平衡了精准度与实时性。
• ROADWork（施工区导航）：在极其复杂的路况下，其 ADE（平均位移误差）和 FDE（最终位移误差）均大幅领先同类模型。
• 解释质量：语言辅助解码器恢复了显式 CoT 97% 的解释质量，但速度却提升了数倍。

四、避坑指南：开发者接入的三点建议

OneVL 已在 GitHub 全量开源（包括权重、推理代码和训练代码），但在实战中建议：

• 硬件门槛：推理建议配置 16GB 以上显存的 GPU，以确保辅助解码器运行流畅。
• 分阶段训练：消融实验证明，**分阶段训练（Staged Training）**对 OneVL 至关重要，跳过此步性能会大幅崩塌。
• 环境版本：务必使用 transformers >= 4.57.0，以获得对 Qwen3-VL 的原生支持。

五、总结

没有永远的王者，只有在特定赛道上跑得最快的选手。

小米 OneVL 的开源，不仅是提供了一个高效的自动驾驶框架，更重要的是它证明了：AI 的深度推理与实时响应并不冲突。 当自动驾驶能够像人类一样边观察、边思考、边解释，我们离真正的“全无人驾驶”时代，又近了一大步。

你认为自动驾驶最需要“解释”的场景是什么？是复杂的路口博弈，还是突发的紧急避障？欢迎在评论区留言分享！

参考资料

[1] Xiaomi Research. OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanations. https://github.com/xiaomi-research/onevl[2] OneVL Technical Report. https://arxiv.org/abs/2502.12134 (注：根据GitHub描述推测)

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

自动驾驶“读心术”开源!小米 OneVL 震撼发布:既要快如闪电,又要透明可解释

一、核心突破：既要“快”，又要“懂”

二、深度拆解：OneVL 的“三步走”战略

三、战力实测：性能与效率的“帕累托最优”

四、避坑指南：开发者接入的三点建议

五、总结

最新文章

热门文章

随机文章

自动驾驶“读心术”开源!小米 OneVL 震撼发布:既要快如闪电,又要透明可解释

一、 核心突破：既要“快”，又要“懂”

二、 深度拆解：OneVL 的“三步走”战略

三、 战力实测：性能与效率的“帕累托最优”

四、 避坑指南：开发者接入的三点建议

五、 总结

2026款宝马7系:给想买旗舰轿车的人一个冷静问题,豪华科技都拉满,真是你的高频刚需吗?

好看的燃油轿车推荐:东风本田英仕派,流畅线条与精致细节并存

最新文章

热门文章

随机文章

一、核心突破：既要“快”，又要“懂”

二、深度拆解：OneVL 的“三步走”战略

三、战力实测：性能与效率的“帕累托最优”

四、避坑指南：开发者接入的三点建议

五、总结