2026 年 5 月 13 日,小米技术团队正式发布并全面开源了自动驾驶模型Xiaomi OneVL(一步式潜空间语言视觉推理框架),这一消息在自动驾驶行业引发了巨大反响。小米创办人、董事长兼 CEO 雷军在社交平台发文宣布,将该模型的权重及训练、推理代码全面开源,并邀请全球开发者、研究人员共同参与,探索自动驾驶大模型的更多可能性。
这一技术发布的背景是小米在自动驾驶领域的持续投入和技术积累。2026 年 3 月,小米正式发布了全新的小米XLA 认知大模型架构,标志着小米辅助驾驶技术路线从 "感知与模仿" 迈向 "理解与推理"。在 XLA 技术方向下,一个核心问题随之浮现:当大模型具备了推理能力,如何让这种推理既快又准?为了解决这一关键问题,小米技术研发团队在潜空间思维链(Latent CoT)的基础上进一步探索,最终推出了 Xiaomi OneVL。
Xiaomi OneVL 技术实力与实际表现
1.1 技术架构创新:首次统一三大技术路线
Xiaomi OneVL 的最大技术突破在于业内率先实现了 VLA(视觉 - 语言 - 动作)、世界模型、潜空间推理三大技术路线的统一。过去,VLA 专注于理解场景并输出驾驶动作,世界模型专注于预测未来场景的演变,这两条路线相对独立。小米通过潜空间推理机制,首次将两者统一到同一套框架中。
该模型基于Qwen3-VL-4B-Instruct构建,采用了独特的双模态潜空间令牌设计:包含35 个视觉潜空间令牌和20 个语言潜空间令牌。这种设计创造了一个紧密的信息瓶颈,迫使模型提炼场景的因果结构而非简单记忆,从而实现了更强的泛化能力。
技术架构的核心创新体现在三个方面:
双模态 latent token 机制:视觉 latent token 编码 "场景的物理因果结构",语言 latent token 编码 "驾驶意图的语义表达",让模型 "在心里想清楚",而不是 "边说边想"。这种设计避免了传统显式思维链逐字生成带来的延迟问题。
双辅助解码器架构:视觉解码器预测未来 0.5 秒和 1 秒的画面,让模型同时具备世界模型的未来预测能力;语言解码器重建人类可读的思维链文字,保障可解释性。这两个解码器在训练中提供双重监督信号,但在推理时会被全部移除,实现零额外开销。
预填充式一步推理:推理时丢掉两个解码器,所有 latent token 直接预填充进上下文,一次并行完成。这种设计使得推理延迟与 "仅答案" 模型几乎一致,比显式 CoT 最高快 2.3 倍。
1.2 性能表现:多项指标达到 SOTA 水平
Xiaomi OneVL 在多个主流自动驾驶基准测试中均达到了当前最优水平(SOTA),展现出了卓越的技术实力。
在NAVSIM基准测试中,OneVL 的PDM-score 达到 88.84,首次实现了潜空间推理精度超越显式思维链的 88.29 分。更重要的是,其推理延迟仅为4.46 秒,几乎等同于只输出答案的 AR Answer 的 4.49 秒。
在其他基准测试中,OneVL 同样表现出色:
ROADWork:达到 12.49 ADE(像素)和 28.80 FDE(像素),显著优于之前的 SOTA 方法 YNet(22.68/80.78)
Impromptu:达到 1.34 ADE(米)和 3.70 FDE(米),优于 Impromptu VLA(1.60/4.28)和显式 AR CoT(1.42/3.96)
Alpamayo-R1:达到 2.62 ADE(米),在所有方法中表现最佳
特别值得关注的是,在英伟达的 Alpamayo-R1 基准测试中,OneVL 作为4B 参数模型,在 ADE 平均轨迹误差指标上取得 2.62 米,优于英伟达自家10B 参数级的 Cosmos-Reason 的 2.86 米。这一结果充分说明了 OneVL 在模型效率和性能平衡方面的优势。
在推理速度方面,OneVL 展现出了革命性的突破。挂载 MLP 回归头变体后,延迟可进一步压降至0.24 秒(4.16 Hz),仅为传统 VLA 自回归推理的5.4%。这一速度完全满足了量产车端实时部署的需求,为自动驾驶技术的大规模商业化应用扫清了关键障碍。
1.3 功能能力:支持多模态可解释性
Xiaomi OneVL 不仅在性能上表现优异,还具备了独特的多模态可解释性能力。该模型能为决策提供语言和视觉双维度的可解释性 —— 既能用文字说明 "为什么这样开",也能用预测画面展示 "接下来会发生什么"。
具体而言,语言辅助解码器能够从压缩的 latent 状态中重建高质量的思维链文本,恢复97% 的显式 CoT 质量,同时保持答案级别的速度。视觉辅助解码器则能生成空间连贯的未来帧预览,让用户直观地理解模型对未来场景的预测。
这种可解释性对于自动驾驶系统的安全性和用户信任度具有重要意义。在实际应用中,系统可以清晰地向用户展示决策逻辑,比如 "因为右侧有行人即将进入斑马线,所以选择减速保持车道",同时还能直接输出预判的未来 1 秒内的路面画面,相当于把 AI"看到的未来" 直接展示给用户。
1.4 开源状态:全面开放的技术生态
小米对 Xiaomi OneVL 采取了全面开源的策略,开放了包括模型权重、训练代码和推理代码在内的全部资源。开源采用了宽松的Apache 2.0/MIT 协议,这意味着任何开发者都可以自由使用、修改和分发代码,仅需保留原作者版权声明。
开源的具体内容包括:
技术报告:详细的技术架构说明和实现细节
模型权重:完整的预训练模型参数
推理代码:用于实际部署的推理程序
训练代码:包括数据处理、模型训练等完整流程
这种全面开源的策略在自动驾驶行业中极为罕见,特别是在特斯拉 FSD、华为乾昆智驾等巨头纷纷通过闭源构建技术壁垒的当下,小米的做法显得尤为特别。
自动驾驶大模型领域竞品分析
2.1 主要竞品技术方案概览
当前自动驾驶大模型领域的竞争格局呈现出多元化的特点,主要玩家包括传统车企、新势力车企和第三方供应商三大阵营。
传统车企代表:特斯拉 FSD 无疑是最具代表性的产品。特斯拉 FSD V14 采用纯视觉感知方案,通过多摄像头输入和大规模神经网络实现环境建模和决策。其核心架构为多模态自回归 Transformer,由特斯拉 Dojo 超算支持训练。从 V12 版本开始,FSD 实现了关键的范式转变,将原有 30 万行 C++ 驾驶逻辑代码几乎完全替换为端到端深度神经网络。
新势力车企方案:小鹏、蔚来、理想等品牌都推出了自己的自动驾驶大模型方案:
小鹏 XNGP 2.0:基于 BEV+Transformer + 大语言模型,实现 "无图区域 100% 覆盖",复杂路口通行成功率提升至 98.7%
理想 AD Max:采用融合感知系统 + VLA 架构,搭载双马赫 100 芯片,总算力高达 2560TOPS
蔚来 NAD:采用四 Orin X 超高算力方案(1016 TOPS),在算力上处于行业领先地位
第三方供应商方案:百度 Apollo 和华为 MDC 是国内最主要的两家供应商:
2.2 与特斯拉 FSD 的对比分析
特斯拉 FSD 作为自动驾驶领域的标杆产品,与 Xiaomi OneVL 在多个维度上形成了鲜明对比。
在技术路线上,特斯拉坚持纯视觉方案,而小米采用激光雷达 + 视觉融合方案。特斯拉 FSD V14 通过重写 AI 编译程序,采用 MLIR 技术优化运行时环境,使整个系统的反应和推理速度提升了约 20%。而小米 OneVL 则通过潜空间推理技术,实现了推理延迟仅 0.24 秒的突破,比传统 VLA 快 94.6%。
在模型架构上,特斯拉 FSD 采用端到端的神经网络架构,而小米 OneVL 则创新性地统一了 VLA、世界模型和潜空间推理三大技术路线。这种统一架构使得 OneVL 在保持高精度的同时,实现了极快的推理速度。
在开源策略上,两者形成了最鲜明的对比。特斯拉 FSD 完全闭源,依靠全球海量车队产生的 "影子模式" 数据驱动算法迭代,核心壁垒是数据规模和工程能力。而小米则选择了完全开源的策略,将所有技术细节向全行业开放。
2.3 与国内新势力车企的对比
在国内新势力车企中,小鹏、蔚来、理想都在自动驾驶大模型领域投入了大量资源,各有特色。
小鹏 XNGP在无图化技术方面处于领先地位,其 XNGP 2.0 实现了 "无图区域 100% 覆盖",复杂路口通行成功率达到 98.7%。小鹏还率先宣布车端大模型参数量突破 70 亿,采用自研 "图灵" 芯片,AI 算力达到 2000TOPS。相比之下,小米 OneVL 虽然参数量仅为 4B,但在多个基准测试中都达到了 SOTA 水平,展现出了更高的模型效率。
理想 AD Max采用了独特的 "端到端 + 视觉语言模型(VLM)" 双系统架构,在 500 TOPS 左右的算力平台上实现了极高的算法效率。其特点是主打稳重顺滑,刹车不点头,转弯不顿挫,百公里接管率几乎为零。小米 OneVL 在技术架构上更加先进,首次实现了三大技术路线的统一,在推理速度上具有明显优势。
蔚来 NAD在算力配置上最为激进,采用四 Orin X 方案,总算力达到 1016 TOPS,在行业内处于领先地位。但高算力并不等同于高性能,小米 OneVL 以 4B 的参数量实现了超越许多大模型的性能,证明了算法创新的重要性。
2.4 与第三方供应商的对比
百度 Apollo 和华为 MDC 作为国内主要的第三方自动驾驶解决方案提供商,在技术路线和商业模式上各有特点。
百度 Apollo在 2024 年发布了 Apollo ADFM 大模型,这是全球首个支持 L4 级自动驾驶的大模型,据称安全性高于人类驾驶员十倍以上,覆盖城市级全域复杂场景。百度还逐步开源了 ADFM 的部分核心模块,包括基于大规模真实路测数据构建的驾驶行为生成模型与场景库。相比之下,小米 OneVL 的开源更加彻底,开放了全部代码和模型权重。
华为 ADS在硬件配置上具有优势,采用 MDC 810 / 昇腾 910 芯片方案,配备 192 线激光雷达,算力达到 400+ TOPS。华为 ADS 4.0 疑似采用 VLA 大模型架构,预计 2026 年发布。小米 OneVL 在技术架构上与华为未来的方向相似,但在推理速度上已经实现了显著突破,0.24 秒的延迟仅为传统方案的 5.4%。
2.5 与开源竞品的对比
在开源自动驾驶模型领域,英伟达的 Alpamayo 系列是最主要的竞品。英伟达 Alpamayo 1.5 是一个开放的推理 VLA 模型,能够处理视频、自车运动历史、导航和文本提示输入,应用基于语言的因果推理,并生成驾驶轨迹,同时解释其决策过程以提高透明度和安全性审计。
Alpamayo 系列的核心是 Alpamayo R1,这是一款拥有100 亿参数、基于思维链技术的视觉 - 语言 - 动作(VLA)模型,也是全球首个用于自动驾驶的开源推理 VLA 模型。相比之下,小米 OneVL 仅用 4B 参数就达到了甚至超越的性能表现,在模型效率上具有明显优势。
此外,还有一些其他开源项目,如 OpenDriveVLA 等,但这些项目大多仍处于研究阶段,在实际性能和工程化程度上与小米 OneVL 存在差距。
2.6 综合优劣势分析
通过与主要竞品的全面对比,小米 OneVL 展现出了以下核心优势:
技术架构领先:首次实现 VLA、世界模型、潜空间推理三大技术路线统一,这种创新架构在行业内独一无二。
模型效率极高:4B 参数量在多个基准测试中达到 SOTA 水平,甚至超越了英伟达 10B 参数的 Cosmos-Reason,证明了算法创新的价值。
推理速度优势明显:0.24 秒的推理延迟仅为传统 VLA 的 5.4%,为量产车端实时部署提供了可行路径。
开源策略独特:全面开源的策略在行业内极为罕见,展现了小米对技术开放的决心和对自身技术实力的信心。
可解释性强:提供语言和视觉双维度的可解释性,这对于提升用户信任度和满足监管要求具有重要意义。
同时,小米 OneVL 也存在一些相对劣势:
数据积累不足:相比特斯拉等拥有海量车队数据的公司,小米在实际路测数据积累上仍有差距。
商业化时间较短:小米进入自动驾驶领域的时间相对较晚,在商业化经验和市场认知度上不如传统厂商。
生态建设初期:作为一个新的开源项目,OneVL 的开发者社区和生态系统还需要时间来建设和完善。
硬件依赖度高:虽然算法先进,但仍需要高性能硬件支持,在成本控制上面临挑战。
Xiaomi OneVL 对小米集团的意义与开源决策
3.1 对小米自动驾驶业务的战略价值
Xiaomi OneVL 对小米自动驾驶业务具有里程碑式的战略意义。作为 XLA 认知大模型架构的核心组成部分,OneVL 标志着小米辅助驾驶技术从 "感知与模仿" 向 "理解与推理" 的重大跨越。
首先,OneVL 解决了自动驾驶大模型领域的一个核心难题 ——如何让推理既快又准。在传统方案中,显式思维链(CoT)虽然能显著提升轨迹规划质量,但逐 token 生成带来的额外时延对实时决策提出了严峻挑战;而跳过推理直接输出答案,又会丢失关键的因果判断能力。OneVL 通过潜空间推理技术,成功在精度和速度之间找到了最优平衡点,为自动驾驶技术的实用化奠定了坚实基础。
其次,OneVL 的技术突破直接支撑了小米汽车的产品竞争力。截至 2026 年 5 月,小米 SU7 和 YU7 系列累计交付已超过66.5 万辆。OneVL 通过提升自动驾驶的智能化水平和用户体验,将成为维持小米汽车高溢价和销量增长的关键因素。根据高盛 2026 年 5 月的研报,预计小米 2026 年电动汽车出货量将达到56 万辆。
最重要的是,OneVL 代表了小米在自动驾驶领域的技术自信。通过开源最核心的技术,小米向行业证明了其在算法创新方面的实力,有助于提升品牌在智能汽车领域的技术形象和话语权。
3.2 对小米人车家全生态的支撑作用
Xiaomi OneVL 不仅是一个自动驾驶模型,更是小米 "人车家全生态" 战略的重要技术基石。小米的核心战略是打通 "人(手机)、车、家(智能家居)" 的全场景智能生态,而 OneVL 在其中扮演着关键的连接角色。
在技术层面,OneVL 基于小米自研的Xiaomi MiMo-Embodied 具身基座大模型构建,这个基座模型能够同时在辅助驾驶场景数据和室内机器人物理交互数据上进行训练。这种设计使得 OneVL 具备了跨场景的知识迁移能力,能够将自动驾驶场景中学习到的空间感知、因果推理等能力应用到智能家居等其他场景中。
在生态协同方面,OneVL 作为 XLA 架构的核心,是实现车与手机、AIoT 设备智能协同的底层技术支撑。例如,当用户说 "我要出门了",系统可以联动米家设备关闭灯光、空调,同步给小米汽车发送导航指令、调节车内温度,实现 "一句话触达全生态"。这种跨设备的无缝协同体验,正是小米生态系统的核心竞争力所在。
此外,OneVL 还为小米构建了一个跨场景的 AI 能力复用平台。通过统一的技术架构,小米可以在不同场景中快速部署和优化 AI 能力,大大降低了技术研发成本和周期。这种技术复用能力对于小米这样一个同时涉足手机、汽车、智能家居等多个领域的企业来说,具有极高的战略价值。
3.3 开源决策的深层动机分析
小米选择将 OneVL 全面开源,背后有着深思熟虑的战略考量,绝非简单的技术分享或 "慈善行为"。
构建生态护城河是小米开源 OneVL 的核心动机。小米试图将手机领域的开源生态打法完整复制到汽车行业,把汽车从单一的交通工具变成其庞大生态系统中一个可自我进化的 "移动智能节点"。通过开源降低技术使用门槛,小米希望吸引全球开发者共同优化自动驾驶算法,形成社区驱动的技术迭代飞轮,最终构建以小米技术标准为中心的开放生态壁垒。
降低行业研发成本,实为降低自身生态门槛。通过开源,小米将自动驾驶大模型的研发成本部分 "社会化"。这种策略的巧妙之处在于,当整个行业都基于 OneVL 进行开发时,小米就成为了事实上的技术标准制定者,其在生态系统中的地位将得到极大巩固。
提升品牌影响力和技术话语权。在特斯拉 FSD、华为乾昆智驾等巨头纷纷通过闭源构建技术壁垒的当下,小米反其道而行之,选择完全开源,这种差异化策略能够快速提升品牌在全球自动驾驶领域的知名度和影响力。通过将前沿底层技术无偿贡献给整个行业,小米展现了技术领导者的姿态,有助于提升其在产业链中的地位。
加速技术迭代和创新。开源能够吸引全球最优秀的开发者参与到 OneVL 的改进和优化中来,这种众包式的研发模式往往能够产生超出预期的创新成果。对于小米而言,这意味着能够以更低的成本获得更快的技术进步。
3.4 开源带来的风险与应对策略
尽管开源策略带来了诸多好处,但也伴随着不可忽视的风险。
技术泄露风险是最直接的担忧。当核心技术完全公开后,竞争对手可以轻易获取小米的技术细节,这可能削弱小米的技术优势。对此,小米采取了多项应对措施:首先,通过持续的技术创新保持领先,确保即使技术被复制,也能通过快速迭代维持优势;其次,将最核心的商业机密和优化细节保留在闭源的产品实现中;最后,通过专利布局保护核心技术创新。
竞争加剧风险。开源可能导致更多竞争者进入市场,加剧行业竞争。小米的应对策略是通过生态建设构建更高的竞争壁垒。当开发者社区形成规模后,转换成本将变得很高,这将成为小米的护城河。同时,小米还可以通过提供更好的技术支持、开发工具和商业合作机会来维持开发者的忠诚度。
生态失控风险。开源项目的发展方向可能偏离小米的预期,甚至出现与小米竞争的分支。为了控制这种风险,小米需要在开源社区中保持核心影响力,通过技术领导力和社区治理机制来引导项目发展方向。同时,小米还可以通过商标和品牌管理来保护 "OneVL" 这一技术品牌的价值。
3.5 开源后的商业模式与盈利路径
小米通过 OneVL 开源构建的商业模式是一个清晰的 "三步走" 策略:技术输出→生态构建→硬件增值 。
短期盈利路径主要体现在硬件销售的提升上。OneVL 通过提升自动驾驶能力,直接增强了小米汽车的产品竞争力和市场吸引力。根据数据显示,小米已经在大模型服务收费上跑通了模式,其 MiMo 大模型收费后用户留存率超过35%,Pro/Max 版本收入占比超过50%。
中期盈利路径包括技术服务和生态增值。一旦 OneVL 生态成熟,小米可以为高端智驾功能设立订阅制,车主为持续的 OTA 升级和更高级的自动驾驶能力付费,这能带来持续、高毛利的软件收入。此外,对于寻求差异化或深度定制的车企,小米可以提供基于 OneVL 框架的深度技术授权、联合研发或定制化开发服务。
长期盈利路径则更加多元化。小米可以通过技术服务、数据流通佣金、应用分成等方式获利。特别值得注意的是,小米已经在探索新的商业模式,如自定义动作支持上传至小米模型商店,其他车主 0.99 元即可下载,上线 30 天已产生270 万元 "模型分成",硬件第一次变成持续盈利的 "数字地产"。
小米的核心收入始终是手机、汽车、智能家居等硬件,开源顶尖模型本质上是为 "人车家全生态" 的未来销售铺路。通过开源策略,小米正在从 "硬件一次性盈利" 转向 "硬件 + 软件 + 服务" 的长期可持续盈利模型。
3.6 对行业生态的影响与展望
Xiaomi OneVL 的开源对整个自动驾驶行业生态产生了深远影响。
首先,它降低了自动驾驶技术的进入门槛。在此之前,自动驾驶技术被少数巨头垄断,中小企业很难独立开发出具有竞争力的方案。OneVL 的开源使得更多企业能够基于成熟的技术框架快速开发自己的自动驾驶产品,这将加速整个行业的创新和发展。
其次,它推动了技术标准的统一。当越来越多的开发者基于 OneVL 进行开发时,OneVL 将逐渐成为事实上的行业标准。这种技术标准化有助于降低开发成本、提高产品兼容性,并促进整个产业的健康发展。
最重要的是,它开创了一种新的产业合作模式。小米通过开源构建的生态系统,不是传统的上下游关系,而是一个平等合作、共同创新的社区。这种模式有望成为未来自动驾驶产业发展的重要趋势。
展望未来,随着 OneVL 生态的不断成熟和完善,我们可以期待看到更多基于 OneVL 的创新应用和商业模式出现。小米通过这一战略布局,有望在未来的智能出行时代占据更加重要的地位。
小米通过 Xiaomi OneVL 的发布和开源,不仅展现了其在自动驾驶领域的技术实力,更重要的是开创了一种新的产业发展模式。这种以技术创新为驱动、以开放合作为基础、以生态共赢为目标的发展路径,有望引领自动驾驶行业进入一个全新的时代。我们有理由相信,在小米等创新企业的推动下,自动驾驶技术将更快地走向普及,为人类的出行带来革命性的改变。