
小米又搞大事情。雷军深夜发文宣布,Xiaomi OneVL自动驾驶模型正式发布并全面开源。这一次,小米在智能驾驶领域终于亮出了真正的“大杀器”。

先来说说这事为什么值得关注。
Xiaomi OneVL到底是什么?通俗点说,它是一个“让车自己看得懂、想得通、开得稳”的大脑。以前自动驾驶走的是两条路——一边是VLA模型,负责看路和开车;另一边是世界模型,负责预判下一秒路上会发生什么。这两条路各干各的,谁也不管谁。但Xiaomi OneVL干了一件大事:它把这两个模型塞进了同一套框架里,让它们一块干活。
这可不是简单的“合并”。技术报告里写得很清楚,小米团队的核心洞察是:开车这件事真正重要的不是文字描述,而是对因果关系的理解。你不能只告诉车“前面有辆车”,你得让它能判断那辆车下一秒会往哪拐、会不会插队、刹车灯亮没亮。这些信息靠语言是说不完的。
性能数据就更厉害了。据官方介绍,Xiaomi OneVL的推理延迟最低只有0.24秒,是传统VLA自回归推理的5.4%。什么意思呢?差不多就是以前车要想1秒才能做决定,现在0.05秒就够了。在NAVSIM基准测试中,它拿到了88.84分的成绩,成为首个在潜空间推理中超越显式CoT的方案。通俗解释一下——显式CoT就是模型一字一句地把思考过程写出来再决策,就像人写作文一样,虽然思路清晰但速度太慢。而潜空间推理相当于让模型用自己内部的“机器语言”思考,又快又准。在ROADWork、Impromptu、Alpamayo-R1三个主流基准上也做到了SOTA水平。
雷军本人也在社交平台上发了话。他说,在推理、规划等多个主流基准上,Xiaomi OneVL全面刷新了潜在推理方法的性能上限。模型与代码全面开源,欢迎全球开发者、研究人员一起探索自动驾驶大模型的更多可能性。
开源才是最狠的一招。

这不是那种“放几个官方demo”式的开源。模型权重、训练代码、推理代码全放出来了。GitHub仓库、技术报告、项目主页全齐。技术报告49页,22张图、10张表,写得明明白白。小米这是真的想把东西交给行业。
对比一下行业现状就知道了。特斯拉FSD是封闭生态,你的车能用但你别想看代码;华为ADS走商业授权,要掏钱的。小米直接把整个模型扔出来,谁都能拿来用。这种打法在智能驾驶圈子里不多见。
有研究机构分析指出,OneVL的发布意味着三个信号:第一,小米在VLA认知大模型架构上的技术积累达到了新的高度;第二,“潜空间推理+世界模型”的组合路线正在成为行业新的探索方向;第三,开源策略很可能加速整个行业在端到端智驾上的落地速度。
当然也不能神话一步。OneVL目前还在学术验证阶段,从模型开源到量产上车还有不少路要走。比如在城市复杂路况里,模型能不能应对各种突发状况?和不同芯片的适配优化怎么做?这些都是下一步要解决的问题。
但不管怎么说,小米这一波确实走到了行业前面。当大家都在追显式思维链时,小米已经用潜空间推理走出了新路。当特斯拉坚持封闭、华为走商业授权时,小米选择了开源。这种差异化打法会不会撬动整个端到端智驾的格局,还真值得好好想想。
一个有意思的问题: 当自动驾驶AI的思考速度压缩到0.24秒以内,人类驾驶员的反应速度(大约0.8秒)会被彻底碾压。未来有一天,你会放心把方向盘完全交给它吗?欢迎在评论区聊聊你的看法。
哦对了,所有链接在这里,感兴趣的朋友可以直接冲:
技术报告:https://arxiv.org/abs/2604.18486
项目主页:https://Xiaomi-Embodied-Intelligence.github.io/OneVL
开源代码:https://github.com/xiaomi-research/onevl
可以把模型下载下来自己玩玩看。开源的世界,就是动手的世界。
公告:各位小主,由于网站www.amtbbs.org访问量越来越大服务器负荷严重过载,为了适当限流,我们要求您登录后才能访问!我们正在计划引进外部资本扩大我们的运营、服务和规模!衷心感谢大家一直以来的厚爱和支持!------小艾
内容来源:网络
本期编辑:小艾
论文投稿:作为领先的高科技先进制造技术产业服务平台,AMT接受学术论文投稿;稿件的发布完全是公益和免费的;论文投稿邮箱:info@amtbbs.org
版权声明:AMT尊重版权并感谢每一位作者的辛苦付出与创作;除无法溯源的作品,我们均在文末备注了来源;如文章、视频、图片、文字涉及版权,请原创作者第一时间联系我们,我们将根据您提供的证明材料确认版权后立即删除内容或按国家规定标准支付稿酬!





