当前位置：首页>自动驾驶>小米正式发布并全面开源自动驾驶模型!

小米正式发布并全面开源自动驾驶模型!

2026-05-14 17:44:21

引言：一个悬而未决的行业“斯芬克斯之谜”

在自动驾驶的世界里，一直横亘着一个古老的斯芬克斯之谜：要快，还是要准？

选择“准”的人，寄希望于VLA（视觉-语言-动作模型）——它像一位饱读交规的优等生，面对复杂路况，先在脑海中用语言逐字逐句推演：“左侧有车靠近，前方绿灯还剩3秒，右侧行人可能横穿……”然后做出决策。这个方案逻辑清晰，可解释性强，但有一个致命的软肋——慢。逐字推理的过程，每一步都在耗费宝贵的毫秒。

选择“快”的人，则拥抱了世界模型——它像一个凭直觉开车的老司机，在云端预演未来几秒的场景演变，然后迅速做出反应。它快，快得几乎不需要思考。但它的软肋同样明显：一旦遇到训练数据之外的“非常规”场景，比如交警打出一个不标准的手势，它就可能束手无策。

这两条路线，在2025年到2026年间，将整个自动驾驶行业撕裂为两大阵营。双方的领军人物各执一词，争论日趋白热化，甚至到了“血战”的前夜。行业一度陷入僵局：似乎选择VLA就放弃了速度，选择世界模型就放弃了认知推理——鱼与熊掌，不可兼得。

直到2026年5月13日，小米发布并开源了Xiaomi OneVL。

它用一个答案，同时回应了这两个问题。

这个被命名为“一步式潜空间语言视觉推理框架”的模型，在业内首次将VLA、世界模型和潜空间推理三大技术路线统一到同一框架中。更令人瞩目的是，它在精度上超越显式思维链方案，同时在速度上对齐了“仅答案”预测——推理延迟最低仅0.24秒，仅为传统VLA自回归推理的5.4%，为量产车端实时部署提供了可行路径。

它究竟是怎么做到的？

第一章：十字路口——两大路线的“傲慢与偏见”

1.1 两大流派的本质

要理解这场路线之争的激烈程度，首先要理解两条路线的根本差异。

VLA：爱“思考”的优等生。VLA是视觉（Vision）、语言（Language）、动作（Action）的缩写，它遵循着“看→想→做”的串行架构。车辆先通过摄像头感知环境，再将视觉信息转化为语言层面的语义理解，借助大语言模型进行逻辑推理，最后输出驾驶动作。这条路线的核心优势在于：它像人类一样“理解了再行动”。早在2023年，英国自动驾驶公司Wayve就推出了LINGO-2，这是全球首个在公共道路上测试的视觉语言动作模型，开创了“自然语言解释驾驶决策”的先河。此后，小鹏、理想、元戎启行等国内企业相继成为这条路线的主要拥趸。

世界模型：靠“直觉”的老司机。世界模型走的则是另一条完全不同的路。它的底层逻辑基于物理引擎的动态模拟，先在云端构建车辆周围的实时路况模型，再进行物理推演，最终下达行动决策——整个过程更像一台高精度运转的“交通模拟器”。华为车BU CEO靳玉志曾明确表态，VLA依赖语言大模型将互联网信息转化为认知的做法“看似取巧，其实并不是走向真正自动驾驶的路径”，华为更看重世界行为模型路线。Momenta CEO曹旭东也在北京车展期间公开表示，世界模型能够将互联网海量视频转化为驾驶知识，这是VLA架构所不具备的优势。华为、吉利、Momenta、蔚来等企业站队这条路线。

两条路线的差异可以概括为：VLA相信“理解是驾驶的前提”，世界模型则认为“预测才是关键”。一个追求逻辑推理，一个追求物理直觉——它们都在某种程度上“像人”，但模仿的是人类驾驶能力的不同侧面。

1.2 路线之争的白热化

2026年3月，在英伟达GTC大会上，这场路线之争公开激化。

吉利汽车集团CTO李传海在介绍其世界行为模型时，公开指出VLA的三大问题：第一，VLA只会背标准答案，却不能掌握真正规律，泛化性不够；第二，VLA依赖具体的汽车驾驶操作数据，不能像世界模型那样处理互联网海量视频；第三，VLA建构的是语言或符号与驾驶动作之间的关系，不能像世界模型那样对物理世界规律有深刻的认知。

Momenta CEO曹旭东也在同期表态，直言VLA只能是锦上添花，对于智驾的提升不会那么大，“世界模型+强化学习”才能给智驾带来十倍、百倍的提升。

华为车BU CEO靳玉志则在更早之前就亮明了立场：VLA的“云端大模型蒸馏成车端小模型”是取巧，幻觉在驾驶场景里致命。

更有戏剧性的是，前理想智驾研发负责人、至简动力CEO贾鹏也在GTC 2026上抛出一句重话：“很多VLA模型训练出来之后，泛化能力几乎为零”。而他随后公布的新方案，恰恰是将世界模型和VLA融合在一起的“大一统基座模型”——这一微妙转变，已经暗示了融合即将到来。

第二章：潜空间的曙光——Xiaomi OneVL的技术核爆

2.1 核心洞察：人开车时，心里会“默念”吗？

在深入解读OneVL之前，让我们问一个扎心的问题：当你开车时遇到突发状况紧急刹车，你心里想的是一句完整的话——“注意，前方有危险，我需要踩刹车”——还是一种说不清道不明的“瞬间直觉”？

答案是显而易见的。绝大多数驾驶决策，特别是应急反应，根本不经过语言中枢。它们发生在意识层面之下，是数以万计小时驾驶经验凝结而成的“肌肉记忆”和“直觉判断”。

传统的VLA方案，恰恰走错了方向——它要求AI在每次决策前都生成一段人类可读的推理文字。这相当于要求一个车手在过弯的同时，口头叙述每一个操作的理由。这不仅是时间的浪费，更是信息的损耗：将所有丰富的视觉和时空信息强制压缩为离散的文字，会不可避免地丢失大量细节。

OneVL的技术报告一针见血地指出了这个问题的本质：纯语言化的潜空间表征，压缩的只是对世界的“符号抽象”，而不是真正支配驾驶行为的“因果动态”。

2.2 OneVL的解题思路：用“直觉”替代“默念”

基于这一洞察，小米提出了一条全新的技术路线：潜空间思维链。

所谓“潜空间”，可以理解为大脑的“潜意识层”——一个高度抽象的、连续的特征世界。在这个世界里，信息不需要被翻译成语言就能被处理。而“潜空间思维链”，就是让推理过程在这个潜意识层中并行完成，而非在输出语言的“工作记忆”中串行进行。

更妙的是训练方式。OneVL在训练阶段引入了双重监督机制：

老师一（语言解码器）：负责重建文本思维链，确保潜空间里有“逻辑”——让模型具备可解释性。

老师二（视觉世界模型解码器）：负责预测未来帧的token，迫使潜空间内化道路几何、智能体运动和环境的因果动态变化规律。

到了推理阶段，两个辅助解码器全部丢弃，潜空间token通过单次并行填充就能完成全部推理——与“仅输出答案”的速度完全相同，却能保持超越显式思维链的推理质量。

OneVL提出的三项关键技术可以用一句话概括：让模型用自己的“内部语言”思考、让它学会预测未来画面、并把整个推理过程压缩到一步完成。正如小米在技术解读中所说的：“自动驾驶要压缩的，不只是语言推理，而是对未来世界变化的理解。驾驶决策真正依赖的，并不只是‘前方有车’‘道路变窄’这样的语义描述，而是车辆运动、道路几何、障碍物演变等时空因果信息。”

这个视觉世界模型解码器的作用，不是锦上添花，而是让OneVL首次超越显式CoT的根本原因。消融实验的结果表明，压缩物理世界的动态信息能显著提升性能。潜空间不再只是压缩语言符号，而是真正学到了物理世界的因果动态。

2.3 用数据说话：速度与精度的双重胜利

OneVL的性能数据，有力地支撑了这个技术判断。

速度方面：推理延迟最低仅0.24秒，仅为传统VLA自回归推理的5.4%。作为参考，人类从看到突发状况到踩下刹车的平均反应时间约为0.3-0.5秒——OneVL比人类快了一倍。

精度方面：在涵盖感知、推理与规划的多个主流基准上，OneVL全面刷新了潜在推理方法的性能上限。在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA；在NAVSIM测试中，PDM-score达到88.84，超越了显式CoT方案。这是行业首次有潜空间推理方案在精度上超越显式思维链。

可解释性方面：OneVL能为模型决策提供语言和视觉双维度的可解释性——既能用文字说明“为什么这样开”，也能用预测画面展示“接下来会发生什么”。这意味着OneVL在安全审核和用户信任层面都具有重要价值。

2.4 冷靜審視：潛空間推理的挑戰與邊界

然而，在充分肯定OneVL技术突破的同时，也需要保持冷靜的审视。

其一，潜空间推理的可解释性上限。虽然OneVL保留了语言解码器作为可解释性监督，但推理本身在潜空间中完成。当遇到从未见过的极端场景（如前所未见的交通事故形态）时，潜空间是否能稳定泛化？前理想智驾研发负责人贾鹏在GTC 2026上的警示——“很多VLA模型训练出来之后，泛化能力几乎为零”——这条批评对任何新模型同样适用。

其二，开源的长期可持续性。将核心模型开源意味着放弃直接的模型授权收入。小米如何从开源中获取商业回报？谷歌开源安卓、Meta开源Llama的历史表明，可能的路径是通过“开源吸引生态→生态反哺服务与硬件”。但这一路径在智驾领域尚无可验证的成功先例。小米可能需要依托“人车家”全场景生态来构建变现闭环。

其三，OneVL是“统一”还是“融合的第一步”？有技术社区观点认为，OneVL目前主要解决了推理阶段的统一，但在训练阶段，VLA与世界模型仍需分工协作。真正的“大一统”可能需要更大的模型规模和更底层的数据架构革新。技术演进的路径远比单次发布更长。

第三章：上帝的骰子——路线之争何以被“融合”终结？

3.1 理论辨析：V、L、A缺一不可

事实上，OneVL的出现并非偶然，而是行业技术演进逻辑的必然产物。

一个根本性的理论问题，早就在技术社区中被反复讨论：只要机器人需要在物理世界中执行任务，V（视觉感知）、L（语言推理）、A（动作执行）这三个要素就永远存在。世界模型并没有替代L和A的功能——它本质上是VLA框架的增强组件，而非独立替代方案。真正的创新方向，应该是将世界模型的预测能力深度融入VLA内部，实现感知-预测-执行的一体化。

来自资本市场的研判也为融合路径提供了有力背书。2026年4月，华金证券发布智能驾驶专题报告，明确指出：在经历2025年端到端大模型上车后，高阶智驾算法逐渐衍生出VLA和世界模型两条路线，两者高度互补，未来有望深度融合，共同助力智驾能力提升。摩根士丹利也在2026年3月发布研报，对小鹏第二代VLA技术路线给出积极评价，认为其正具备与特斯拉正面竞争的能力。这些来自独立第三方机构的判断，比企业自身的表态更具说服力。

3.2 从对立到统一：行业的集体转向

行业的共识转向，有一个关键的转折点。

2025年底，特斯拉推送FSD V14，将xAI的Grok大模型能力整合进导航和决策系统。V14版本的模型参数量比上一代提高了10倍，导航与路径规划功能全面整合至神经网络。这不是让座舱变得能聊天——而是让FSD的决策系统多了一层语言理解能力。这一举动，让国内智驾公司第一次直观地看到：大模型能力不是“VLA”和“世界模型”之间的二选一，两者都可以做，而且可以一起做。

此后，行业迅速形成了一套广泛接受的共识：视觉语言大模型做“大脑”负责认知推理，端到端小模型做“小脑”负责快速执行。

从各家头部玩家的动作中可以清晰地看到这一趋势：

理想汽车早在2025年就将空间理解、语言理解与行动决策统一到同一框架，构建了基于VLA、世界模型与强化学习的VLA司机大模型。2026年GTC上，理想进一步发布MindVLA-o1，引入预测式隐世界模型——一个被极度压缩的世界模型，在隐空间中高效模拟未来数秒场景演化，实现时空联合建模。该模型采用VLA-MoE架构，包含“动作专家”模块，将感知、思考、行动与进化整合为完整闭环。

华为虽然公开立场一直坚持世界模型路线、反对VLA，靳玉志在2026年4月ADS 5发布会上仍然明确选择世界模型路径、强调“反对VLA架构”，但其与上海交通大学合作的一项研究成果却耐人寻味：一个统一VLA和世界模型的框架，2B模型规模，在ADS 5即将上线之际尝试将两者融合。这种“台面上反对、实验室里融合”的双轨策略，恰恰说明融合已是大势所趋。

小鹏汽车自2025年8月随X9车型交付第二代VLA以来，已积累了大量真实路测数据。极端场景接管率下降62%，二代VLA被称为“智驾新标杆”。

元戎启行在2026年北京车展期间宣布全面转向统一基座大模型架构。其首席科学家阮翀（前DeepSeek多模态技术核心研究员）介绍，公司正从多个小模型转向一个40B参数规模的统一基座大模型，将驾驶决策、场景理解与行为评估统一在同一架构中，数据闭环迭代周期从过去的约5天缩短至约12小时。

就连一直坚称“VLA是取巧方案”的华为，也在ADS 5即将上线之际，尝试把VLA和世界模型融合了——这条路线与很多玩家不谋而合。

黑芝麻智能CEO单记章更是公开判断：VLA加上世界模型，是高阶智能驾驶未来最有可能的技术路线。

3.3 OneVL的历史坐标：融合的终极形态

在这一行业共识转向的背景下，OneVL的历史意义就变得非常清晰了。

行业目前存在着两种融合路径：理想代表的是“显式融合”——将VLA、世界模型、强化学习作为不同模块拼接在一起；而OneVL实现的是“隐式统一”——在一个模型架构的内部，通过视觉世界模型解码器将预测能力内化到VLA的推理空间中。

这种统一，比显式融合更彻底、更优雅。它不是拼凑，而是化学反应。正如小米技术团队的自我定位：OneVL进一步验证了XLA架构方向的技术潜力——“真正面向现实世界的辅助驾驶，不只要看见当下，更要理解因果、预判未来，并在有限时间内完成高质量决策”。

第四章：开源阳谋——小米的AI野心与行业新范式

4.1 不止于车：小米的AI全栈蓝图

如果说OneVL的技术突破是小米的“手”，那么开源的决策则是其“棋局”的关键一步。

雷军在官宣中明确表态：“欢迎全球开发者、研究人员一起参与，探索自动驾驶大模型的更多可能性。”这不是一次孤立事件。就在OneVL发布前的2026年4月，小米已在投资者日上宣布了一系列AI战略布局：未来三年AI投入超过600亿元（仅为保底数字），并规划2026-2030年整体研发投入超2000亿元。

小米集团副总裁屈恒表示，小米拥有AI时代的全栈能力：基建层、数据层、模型层、框架层和生态层。此前，小米已宣布MiMo v2.5即将开源，几乎适配国内所有芯片。小米智驾的XLA本身也使用了开源跨域具身基座模型Xiaomi MiMo-Embodied。OneVL则是其在自动驾驶垂直领域的开源旗舰项目。从基座模型到垂直领域模型，这种系统性开源策略在车企中极为罕见。

4.2 开源的深层逻辑

在国内车企中，愿意把核心智驾模型开源的本就极少。OneVL的开源，背后有着清晰的战略考量。

生态卡位：在行业标准尚未统一的窗口期，开源能够推动自身技术框架成为事实标准。开源意味着将模型暴露在全球开发者的审视和优化之下，在真实场景和多元反馈中迭代，远比闭门造车高效。

人才磁场：顶级AI人才更愿意加入一个技术栈领先且保持开放的公司。开源本身就是最有力的人才招募令。

后来者的破局之道：小米选择开源，还有一个不容忽视的战略背景。截至OneVL发布时，小米SU7交付量尚在爬坡期，与华为ADS系统已搭载于问界、阿维塔、深蓝等多品牌车型的规模相比，自有智驾车队的数据飞轮尚未成型。开源能够吸引更多开发者参与，弥补自研生态的规模劣势。这本质上是“后来者以开放换生态”的经典打法。

4.3 开源与闭源：一场新的路线博弈

如果说VLA与世界模型之争是算法的路线分歧，那么开源与闭源的分岔路，则是商业模式的深层对决。

放眼全球自动驾驶赛道，核心模型的开闭源策略泾渭分明。特斯拉至今未开源FSD的核心模型权重，仅开放部分推理API，以垂直整合的封闭生态构筑护城河。华为WEWA架构的核心模型同样未开源，ADS系统通过与车企的“智选车模式”深度绑定，以技术优势换取市场份额。小鹏第二代VLA虽已随X9交付并积累了大量真实路测数据，核心模型权重同样未对外开源。理想MindVLA-o1在GTC 2026上公布了技术架构，但尚未宣布开源计划。

小米却选择了截然不同的道路——全面开源模型权重、训练及推理代码。这种策略与当年安卓以开放策略对抗苹果封闭生态有高度相似性：通过降低准入门槛，快速扩大生态版图；通过吸引开发者群体，形成技术迭代的规模优势。当然，这条路也伴随着风险——参考谷歌开源安卓、Meta开源Llama的模式，小米可能需要依托“人车家”全场景生态来构建变现闭环，而这一路径在智驾领域尚无可验证的成功先例。

4.4 “卖铲子”的DeepSeek与“递枪”的小米

如果说DeepSeek和小米都在深刻影响自动驾驶行业，那么两者的角色可以用一个比喻来区分：DeepSeek是“卖铲子”的底层赋能者，小米则是“递枪”的垂直突破者。

DeepSeek在过去数月通过技术接入悄然布局，比亚迪的整车智能“璇玑架构”已全面引入DeepSeek R1大模型，吉利、东风、智己、长安、零跑等十余家车企也先后接入。特斯拉中国更是选择了豆包+DeepSeek组合方案“上车”。业内专家指出，DeepSeek的本质是“算力平权”，让中小车企也能以低成本接入顶尖AI能力，打破技术垄断壁垒。

DeepSeek降低的是“造模型的成本”，让更多车企有能力训练自己的智驾模型。而小米OneVL直接给出了一个已训练好、精度极高、且全面开源的VLA模型——这相当于直接递出了一把上膛的枪。两者共同降低了高阶智驾的准入门槛。对处在犹豫期的中型车企而言，它们现在可以直接基于小米开源的融合模型进行二次开发，而不必从零开始探索VLA和世界模型的融合之路。

智驾平权的时代，正在加速到来。

结语：智驾的“顿悟时刻”

Xiaomi OneVL的意义，不只是一款性能更强的模型。

它用一次漂亮的工程实践，回答了一个悬而未决的行业之问：VLA和世界模型，真的只能二选一吗？答案是否定的。不是模拟人类的语言思维，而是复现人类基于物理直觉的潜意识——这才是通向通用智驾的更优路径。

从更宏观的视角看，OneVL发布的时间点本身就是一个隐喻。就在它问世的前一天，一份深度技术辨析报告还在指出：真正的创新方向是将世界模型深度融入VLA内部，实现感知-预测-执行一体化。而OneVL，恰恰就是沿着这条路实现了突破。

真正的革命，往往不是告诉我们一个已知答案的对错，而是直接改变我们提出问题的维度。当行业还在为VLA和世界模型争吵时，小米用一个开源的“潜空间”方案，把问题直接带到了下一个时代。更值得注意的是，就连此前公开反对VLA路线的华为，也在实验室中探索VLA与世界模型的融合——这从一个侧面印证了融合方向的时代必然性。

当然，我们也需要保持一份清醒。潜空间推理的泛化边界在哪里？开源策略在智驾领域能否走通商业闭环？从推理阶段的统一到训练阶段的真正大一统，还有多长的路要走？这些问题的答案，不会由一次模型发布来全部揭晓。技术演进的路径，永远比单次发布更长。

自动驾驶的竞赛，从此不再是“脑”与“眼”的分工之争，而是谁的“直觉”更准、更快——以及，谁能在开放与封闭的博弈中，率先找到可持续的答案。

Xiaomi OneVL的代码已全面开源，模型权重与训练、推理代码均托管于GitHub，技术报告也已上传至arXiv。正如小米官方所言：“我们希望通过开源的力量，和全球开发者一起，推动自动驾驶模型走向可用、可信、可扩展的未来。”

这或许才是一个新技术时代，真正值得期待的开场。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

小米正式发布并全面开源自动驾驶模型!

第一章：十字路口——两大路线的“傲慢与偏见”

1.1 两大流派的本质

1.2 路线之争的白热化

第二章：潜空间的曙光——Xiaomi OneVL的技术核爆

2.1 核心洞察：人开车时，心里会“默念”吗？

2.2 OneVL的解题思路：用“直觉”替代“默念”

2.3 用数据说话：速度与精度的双重胜利

2.4 冷靜審視：潛空間推理的挑戰與邊界

第三章：上帝的骰子——路线之争何以被“融合”终结？

3.1 理论辨析：V、L、A缺一不可

3.2 从对立到统一：行业的集体转向

3.3 OneVL的历史坐标：融合的终极形态

第四章：开源阳谋——小米的AI野心与行业新范式

4.1 不止于车：小米的AI全栈蓝图

4.2 开源的深层逻辑

4.3 开源与闭源：一场新的路线博弈

4.4 “卖铲子”的DeepSeek与“递枪”的小米

结语：智驾的“顿悟时刻”

最新文章

热门文章

随机文章

小米正式发布并全面开源自动驾驶模型!

第一章：十字路口——两大路线的“傲慢与偏见”

1.1 两大流派的本质

1.2 路线之争的白热化

第二章：潜空间的曙光——Xiaomi OneVL的技术核爆

2.1 核心洞察：人开车时，心里会“默念”吗？

2.2 OneVL的解题思路：用“直觉”替代“默念”

2.3 用数据说话：速度与精度的双重胜利

2.4 冷靜審視：潛空間推理的挑戰與邊界

第三章：上帝的骰子——路线之争何以被“融合”终结？

3.1 理论辨析：V、L、A缺一不可

3.2 从对立到统一：行业的集体转向

3.3 OneVL的历史坐标：融合的终极形态

第四章：开源阳谋——小米的AI野心与行业新范式

4.1 不止于车：小米的AI全栈蓝图

4.2 开源的深层逻辑

4.3 开源与闭源：一场新的路线博弈

4.4 “卖铲子”的DeepSeek与“递枪”的小米

结语：智驾的“顿悟时刻”

4月六座SUV销量榜前十正式出炉,燃油车彻底出局!

4月六座SUV销量榜前十正式出炉,燃油车彻底出局!

最新文章

热门文章

随机文章