在自动驾驶的VLA模型中,思维链(CoT)推理能大幅提升轨迹预测的准确性,但需要逐词生成,推理速度慢,无法满足实时驾驶要求。现有方法尝试用潜在向量压缩推理过程来提速,但效果往往不如显式思维链。
5月13日,小米汽车具身智能团队正式发布并开源自动驾驶模型Xiaomi OneVL图2。OneVL作为一步式视觉语言推理模型,通过在潜空间(Latent Space)内部完成推理,将VLA、世界模型统一到同一套框架中图3。
在NAVSIM、Alpamayo等主流基准上,OneVL全面刷新了推理方法的性能上限,是领域内首个在精度上超越显式 CoT、在速度上对齐Answer-Only预测的自动驾驶方案。
● 模型架构
OneVL基于一个预训练的多模态视觉语言模型Qwen3-VL-4B-Instruct构建,增加了一个潜在token接口,还增加了语言辅助解码器、视觉辅助解码器,完整架构如图4。
● 三阶段训练
OneVL面临一个难题,主VLM、语言辅助解码器和视觉辅助解码器必须联合优化,但它们的学习目标却不同,因此采用三阶段训练逐步将这些组件对齐。阶段0,在轨迹预测任务上对主VLM进行端到端训练;阶段1,辅助解码器Warmup;阶段2,对全部三个模型组件进行联合微调。
● 关键实验结果
OneVL只用 4B 参数,就在NAVSIM、ROADWork、Impromptu和Alpamayo-R1四个基准上均达到了顶尖水平,超越了此前的 8B 大模型。在推理速度方面,推理速度和只给答案一样快。切到轻量模式后,单次轨迹预测只需要 0.24 秒,满足实时驾驶要求。
在NAVSIM基准上实验效果如图5;在ROADWork基准上实验效果如图6;在Impromptu基准上实验效果如图7;在Alpamayo-R1基准上实验效果如图8。
● 解释质量
此外,OneVL还能给出人能看懂的语言视觉双模态的解释。图9、图10、图11、图12 依次展示了 NAVSIM、ROADWork、Impromptu 和 Alpamayo-R1 上的结果,并对比了轨迹预测、视觉辅助解码器生成的两张未来帧,以及语言辅助解码器还原的思维链文本。
技术报告:https://arxiv.org/pdf/2604.27792
项目主页:https://xiaomi-embodied-intelligence.github.io/OneVL/
#小米EV #VLA #世界模型 #自动驾驶 #EAI前沿 #OneVL