当前位置：首页>自动驾驶>小米突发王炸!OneVL横空出世:自动驾驶的＂GPT时刻＂来了?

小米突发王炸!OneVL横空出世:自动驾驶的＂GPT时刻＂来了?

2026-05-14 19:18:29

📌 快速入口

📄 arXiv论文：https://arxiv.org/abs/2604.18486
💻 GitHub代码：https://github.com/xiaomi-research/onevl
🏠 项目主页：https://xiaomi-embodied-intelligence.github.io/OneVL

导语：就在2026年4月，小米悄咪咪在arXiv上投了一篇论文，直接引爆了自动驾驶圈——OneVL，一个能把"思考"藏进隐藏状态里的Vision-Language-Action模型，关键是：推理比人快，还比人准！👇

🤖 OneVL是什么？

一句话总结：小米发布的端到端自动驾驶大模型，能边"思考"边开车，响应速度还快到飞起！

项目	内容
全称	Xiaomi OneVL
中文	单步潜在推理与规划
定位	VLA + World Model
发布	2026年4月 (arXiv:2604.18486)
代码	开源可查

🔥 OneVL凭啥这么牛？

传统自动驾驶的"心脏病"

┌─────────────────────────────────────────────┐
│        自动驾驶的"三大难题"                    │
├─────────────────────────────────────────────┤
│                                             │
│  ❌ 慢：思考=一个字一个字往外蹦              │
│     ("接下来...左转...然后...加速...")        │
│                                             │
│  ❌ 笨：只记答案，不懂因果                 │
│     知道"要左转"，不知道"为什么左转"        │
│                                             │
│  ❌ 憨：想快就傻傻输出，不想慢成🐌       │
│     要么快但错，要么准但慢                 │
│                                             │
└─────────────────────────────────────────────┘

OneVL的杀手锏：把思考"压缩"进隐藏状态里！

OneVL的核心创新

💡 创新1：隐式思考（Latent CoT）

┌─────────────────────────────────────────────┐
│        三种"思考"方式对比                  │
├─────────────────────────────────────────────┤
│                                             │
│  显式CoT：                                  │
│  "前方有行人"→"需要减速"→"向左转"         │
│  ⏱️ 慢但准                                  │
│                                             │
│  纯Answer：                                 │
│  "左转"                                     │
│  ⏱️ 快但可能错                              │
│                                             │
│  OneVL隐式CoT：                             │
│  [压缩的思考状态]→"左转"                    │
│  ⏱️ 快且准！                                │
│                                             │
└─────────────────────────────────────────────┘

关键突破：把思考"压缩"成看不见的"潜token"，输出时一起并行处理！

💡 创新2：双辅助解码器

OneVL不仅"压缩"思考，还让模型同时学两件事：

解码器	学什么	效果
语言解码器	生成"思考过程"	理解因果
视觉解码器	预测未来帧	看懂物理

相当于：既报了补习班，又报了体育课 → 文武双全！

💡 创新3：三阶段训练

┌─────────────────────────────────────────────┐
│        OneVL训练三阶段                      │
├─────────────────────────────────────────────┤
│                                             │
│  第1️⃣阶段：轨迹对齐                         │
│     先学会"怎么开"                          │
│                                             │
│  第2️⃣阶段：语言对齐                       │
│     再学会"为什么开"                         │
│                                             │
│  第3️⃣阶段：视觉对齐                        │
│     最后学会"将来会怎样"                   │
│                                             │
│  渐进式学习，稳如老狗！                     │
└─────────────────────────────────────────────┘

📊 实验效果：直接吊打！

四大benchmark屠榜

┌─────────────────────────────────────────────┐
│        OneVL  vs  显式CoT  vs  纯Answer       │
├─────────────────────────────────────────────┤
│                                             │
│  📊 NAVSIM (PDM-score ↑，越高越好)           │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  OneVL:     88.84 ⭐ (4.46s)                │
│  显式CoT:   88.29   (6.58s)               │
│  纯Answer:  87.47   (4.49s)               │
│                                             │
│  📊 ROADWork (ADE ↓，越低越好)              │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━    │
│  OneVL:     12.49 ⭐ (4.71s)               │
│  显式CoT:   13.18  (10.74s)               │
│                                             │
│  结论：更快！更准！                         │
│  OneVL = 第一个超越显式CoT的隐式方法         │
└─────────────────────────────────────────────┘

延迟对比

方案	延迟	精度
OneVL	~4.5s	⭐⭐⭐⭐⭐
显式CoT	~6.5s	⭐⭐⭐⭐
纯Answer	~4.5s	⭐⭐⭐⭐

可怕的是：OneVL用纯Answer的速度，干赢了显式CoT的精度！

🎯 OneVL为什么重要？

自动驾驶的"GPT时刻"

┌─────────────────────────────────────────────┐
│     OneVL = 自动驾驶的"GPT-4"                 │
├─────────────────────────────────────────────┤
│                                             │
│   GPT-3 → ChatGPT：                          │
│   简单问答 → 会"思考"的对话                 │
│                                           │
│   OneVL之前 → OneVL之后：                 │
│   纯模仿 → 会"推理"的驾驶                 │
|                                           │
│   区别：                                   │
│   不再只是"记住答案"，                      │
│   而是"理解为什么"                         │
└─────────────────────────────────────────────┘

三大意义

意义	说明
🔥 隐式CoT可行	第一次证明压缩思考比显式更好
🚀 实时有望	响应速度满足实时要求
🌍 开源可查	小米真的卷死同行

📸 论文图表（可插入公众号）

图号	描述	建议放置位置
图1	teaser封面	开头引入
图2	三种CoT范式对比	"核心创新"章节
图3	OneVL架构图	"双解码器"章节
图4	benchmark对比	"实验效果"章节

高清大图获取

📄 arXiv原文：https://arxiv.org/abs/2604.18486
🏠 项目主页：https://xiaomi-embodied-intelligence.github.io/OneVL
💻 GitHub：https://github.com/xiaomi-research/onevl

💬 吃瓜总结

维度	评价
🔥 创新性	⭐⭐⭐⭐⭐ 隐式CoT逆袭
🚀 实用性	⭐⭐⭐⭐⭐ 实时可用
🏭 工程价值	⭐⭐⭐⭐⭐ 开源+三阶段
🔮 想象力	⭐⭐⭐⭐⭐ VLA+WorldModel

一句话总结

OneVL可能是自动驾驶的分水岭：以后谁再吹"我能思考"，OneVL表示"我都压缩到隐藏状态里了"...

🤔 互动话题

你觉得自动驾驶的"GPT时刻"会在什么时候到来？2026？2027？还是更久？

欢迎评论区甩出你的猜测！

本文整理自arXiv论文及公开信息，转载需授权

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

小米突发王炸!OneVL横空出世:自动驾驶的＂GPT时刻＂来了?

🤖 OneVL是什么？

🔥 OneVL凭啥这么牛？

传统自动驾驶的"心脏病"

OneVL的核心创新

💡 创新1：隐式思考（Latent CoT）

💡 创新2：双辅助解码器

💡 创新3：三阶段训练

📊 实验效果：直接吊打！

四大benchmark屠榜

延迟对比

🎯 OneVL为什么重要？

自动驾驶的"GPT时刻"

三大意义

📸 论文图表（可插入公众号）

高清大图获取

💬 吃瓜总结

一句话总结

🤔 互动话题

最新文章

热门文章

随机文章

小米突发王炸!OneVL横空出世:自动驾驶的＂GPT时刻＂来了?

🤖 OneVL是什么？

🔥 OneVL凭啥这么牛？

传统自动驾驶的"心脏病"

OneVL的核心创新

💡 创新1：隐式思考（Latent CoT）

💡 创新2：双辅助解码器

💡 创新3：三阶段训练

📊 实验效果：直接吊打！

四大benchmark屠榜

延迟对比

🎯 OneVL为什么重要？

自动驾驶的"GPT时刻"

三大意义

📸 论文图表（可插入公众号）

高清大图获取

💬 吃瓜总结

一句话总结

🤔 互动话题

涉及烟台28条道路!低速自动驾驶装备测试示范道路公示了

新疆汽车托运运车帮轿车托运有限公司

最新文章

热门文章

随机文章