EAI前沿|小米发布并开源自动驾驶模型OneVL

2026-05-14 17:15:13

在自动驾驶的VLA模型中，思维链（CoT）推理能大幅提升轨迹预测的准确性，但需要逐词生成，推理速度慢，无法满足实时驾驶要求。现有方法尝试用潜在向量压缩推理过程来提速，但效果往往不如显式思维链。

5月13日，小米汽车具身智能团队正式发布并开源自动驾驶模型Xiaomi OneVL 图2。OneVL作为一步式视觉语言推理模型，通过在潜空间（Latent Space）内部完成推理，将VLA、世界模型统一到同一套框架中图3。

在NAVSIM、Alpamayo等主流基准上，OneVL全面刷新了推理方法的性能上限，是领域内首个在精度上超越显式 CoT、在速度上对齐Answer-Only预测的自动驾驶方案。

● 模型架构

OneVL基于一个预训练的多模态视觉语言模型Qwen3-VL-4B-Instruct构建，增加了一个潜在token接口，还增加了语言辅助解码器、视觉辅助解码器，完整架构如图4。

● 三阶段训练

OneVL面临一个难题，主VLM、语言辅助解码器和视觉辅助解码器必须联合优化，但它们的学习目标却不同，因此采用三阶段训练逐步将这些组件对齐。阶段0，在轨迹预测任务上对主VLM进行端到端训练；阶段1，辅助解码器Warmup；阶段2，对全部三个模型组件进行联合微调。

● 关键实验结果

OneVL只用 4B 参数，就在NAVSIM、ROADWork、Impromptu和Alpamayo-R1四个基准上均达到了顶尖水平，超越了此前的 8B 大模型。在推理速度方面，推理速度和只给答案一样快。切到轻量模式后，单次轨迹预测只需要 0.24 秒，满足实时驾驶要求。

在NAVSIM基准上实验效果如图5；在ROADWork基准上实验效果如图6；在Impromptu基准上实验效果如图7；在Alpamayo-R1基准上实验效果如图8。

● 解释质量

此外，OneVL还能给出人能看懂的语言视觉双模态的解释。图9、图10、图11、图12 依次展示了 NAVSIM、ROADWork、Impromptu 和 Alpamayo-R1 上的结果，并对比了轨迹预测、视觉辅助解码器生成的两张未来帧，以及语言辅助解码器还原的思维链文本。

技术报告：https://arxiv.org/pdf/2604.27792
项目主页：https://xiaomi-embodied-intelligence.github.io/OneVL/

#小米EV #VLA #世界模型 #自动驾驶 #EAI前沿 #OneVL

名称已清空

微信扫一扫赞赏作者

喜欢作者其它金额

赞赏后展示我的头像

作品

暂无作品

喜欢作者

其它金额

最低赞赏 ¥0

其它金额

赞赏金额

最低赞赏 ¥0

收录于EAI前沿

北京,12分钟前,

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

EAI前沿|小米发布并开源自动驾驶模型OneVL

EAI前沿|小米发布并开源自动驾驶模型OneVL

最新文章

热门文章

随机文章

EAI前沿|小米发布并开源自动驾驶模型OneVL

EAI前沿|小米发布并开源自动驾驶模型OneVL

雷克萨斯LX800h:想买全尺寸豪华SUV的人,最该先想清楚它是不是你的“唯一用车”

零跑D19开启盲订:想买大型新能源SUV的人,别只被续航和大空间带着走

最新文章

热门文章

随机文章