📌 快速入口
- 📄 arXiv论文:https://arxiv.org/abs/2604.18486
- 💻 GitHub代码:https://github.com/xiaomi-research/onevl
- 🏠 项目主页:https://xiaomi-embodied-intelligence.github.io/OneVL
导语:就在2026年4月,小米悄咪咪在arXiv上投了一篇论文,直接引爆了自动驾驶圈——OneVL,一个能把"思考"藏进隐藏状态里的Vision-Language-Action模型,关键是:推理比人快,还比人准!👇
🤖 OneVL是什么?
一句话总结:小米发布的端到端自动驾驶大模型,能边"思考"边开车,响应速度还快到飞起!
| |
|---|
| 全称 | |
| 中文 | |
| 定位 | |
| 发布 | 2026年4月 (arXiv:2604.18486) |
| 代码 | |
🔥 OneVL凭啥这么牛?
传统自动驾驶的"心脏病"
┌─────────────────────────────────────────────┐
│ 自动驾驶的"三大难题" │
├─────────────────────────────────────────────┤
│ │
│ ❌ 慢:思考=一个字一个字往外蹦 │
│ ("接下来...左转...然后...加速...") │
│ │
│ ❌ 笨:只记答案,不懂因果 │
│ 知道"要左转",不知道"为什么左转" │
│ │
│ ❌ 憨:想快就傻傻输出,不想慢成🐌 │
│ 要么快但错,要么准但慢 │
│ │
└─────────────────────────────────────────────┘
OneVL的杀手锏:把思考"压缩"进隐藏状态里!
OneVL的核心创新
💡 创新1:隐式思考(Latent CoT)
┌─────────────────────────────────────────────┐
│ 三种"思考"方式对比 │
├─────────────────────────────────────────────┤
│ │
│ 显式CoT: │
│ "前方有行人"→"需要减速"→"向左转" │
│ ⏱️ 慢但准 │
│ │
│ 纯Answer: │
│ "左转" │
│ ⏱️ 快但可能错 │
│ │
│ OneVL隐式CoT: │
│ [压缩的思考状态]→"左转" │
│ ⏱️ 快且准! │
│ │
└─────────────────────────────────────────────┘
关键突破:把思考"压缩"成看不见的"潜token",输出时一起并行处理!
💡 创新2:双辅助解码器
OneVL不仅"压缩"思考,还让模型同时学两件事:
相当于:既报了补习班,又报了体育课 → 文武双全!
💡 创新3:三阶段训练
┌─────────────────────────────────────────────┐
│ OneVL训练三阶段 │
├─────────────────────────────────────────────┤
│ │
│ 第1️⃣阶段:轨迹对齐 │
│ 先学会"怎么开" │
│ │
│ 第2️⃣阶段:语言对齐 │
│ 再学会"为什么开" │
│ │
│ 第3️⃣阶段:视觉对齐 │
│ 最后学会"将来会怎样" │
│ │
│ 渐进式学习,稳如老狗! │
└─────────────────────────────────────────────┘
📊 实验效果:直接吊打!
四大benchmark屠榜
┌─────────────────────────────────────────────┐
│ OneVL vs 显式CoT vs 纯Answer │
├─────────────────────────────────────────────┤
│ │
│ 📊 NAVSIM (PDM-score ↑,越高越好) │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ OneVL: 88.84 ⭐ (4.46s) │
│ 显式CoT: 88.29 (6.58s) │
│ 纯Answer: 87.47 (4.49s) │
│ │
│ 📊 ROADWork (ADE ↓,越低越好) │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ OneVL: 12.49 ⭐ (4.71s) │
│ 显式CoT: 13.18 (10.74s) │
│ │
│ 结论:更快!更准! │
│ OneVL = 第一个超越显式CoT的隐式方法 │
└─────────────────────────────────────────────┘
延迟对比
可怕的是:OneVL用纯Answer的速度,干赢了显式CoT的精度!
🎯 OneVL为什么重要?
自动驾驶的"GPT时刻"
┌─────────────────────────────────────────────┐
│ OneVL = 自动驾驶的"GPT-4" │
├─────────────────────────────────────────────┤
│ │
│ GPT-3 → ChatGPT: │
│ 简单问答 → 会"思考"的对话 │
│ │
│ OneVL之前 → OneVL之后: │
│ 纯模仿 → 会"推理"的驾驶 │
| │
│ 区别: │
│ 不再只是"记住答案", │
│ 而是"理解为什么" │
└─────────────────────────────────────────────┘
三大意义
📸 论文图表(可插入公众号)
高清大图获取
- 📄 arXiv原文:https://arxiv.org/abs/2604.18486
- 🏠 项目主页:https://xiaomi-embodied-intelligence.github.io/OneVL
- 💻 GitHub:https://github.com/xiaomi-research/onevl
💬 吃瓜总结
一句话总结
OneVL可能是自动驾驶的分水岭:以后谁再吹"我能思考",OneVL表示"我都压缩到隐藏状态里了"...
🤔 互动话题
你觉得自动驾驶的"GPT时刻"会在什么时候到来?2026?2027?还是更久?
欢迎评论区甩出你的猜测!
本文整理自arXiv论文及公开信息,转载需授权