引言:一个悬而未决的行业“斯芬克斯之谜”
在自动驾驶的世界里,一直横亘着一个古老的斯芬克斯之谜:要快,还是要准?
选择“准”的人,寄希望于VLA(视觉-语言-动作模型)——它像一位饱读交规的优等生,面对复杂路况,先在脑海中用语言逐字逐句推演:“左侧有车靠近,前方绿灯还剩3秒,右侧行人可能横穿……”然后做出决策。这个方案逻辑清晰,可解释性强,但有一个致命的软肋——慢。逐字推理的过程,每一步都在耗费宝贵的毫秒。
选择“快”的人,则拥抱了世界模型——它像一个凭直觉开车的老司机,在云端预演未来几秒的场景演变,然后迅速做出反应。它快,快得几乎不需要思考。但它的软肋同样明显:一旦遇到训练数据之外的“非常规”场景,比如交警打出一个不标准的手势,它就可能束手无策。
这两条路线,在2025年到2026年间,将整个自动驾驶行业撕裂为两大阵营。双方的领军人物各执一词,争论日趋白热化,甚至到了“血战”的前夜。行业一度陷入僵局:似乎选择VLA就放弃了速度,选择世界模型就放弃了认知推理——鱼与熊掌,不可兼得。
直到2026年5月13日,小米发布并开源了Xiaomi OneVL。
它用一个答案,同时回应了这两个问题。
这个被命名为“一步式潜空间语言视觉推理框架”的模型,在业内首次将VLA、世界模型和潜空间推理三大技术路线统一到同一框架中。更令人瞩目的是,它在精度上超越显式思维链方案,同时在速度上对齐了“仅答案”预测——推理延迟最低仅0.24秒,仅为传统VLA自回归推理的5.4%,为量产车端实时部署提供了可行路径。
它究竟是怎么做到的?
第一章:十字路口——两大路线的“傲慢与偏见”
1.1 两大流派的本质
要理解这场路线之争的激烈程度,首先要理解两条路线的根本差异。
VLA:爱“思考”的优等生。VLA是视觉(Vision)、语言(Language)、动作(Action)的缩写,它遵循着“看→想→做”的串行架构。车辆先通过摄像头感知环境,再将视觉信息转化为语言层面的语义理解,借助大语言模型进行逻辑推理,最后输出驾驶动作。这条路线的核心优势在于:它像人类一样“理解了再行动”。早在2023年,英国自动驾驶公司Wayve就推出了LINGO-2,这是全球首个在公共道路上测试的视觉语言动作模型,开创了“自然语言解释驾驶决策”的先河。此后,小鹏、理想、元戎启行等国内企业相继成为这条路线的主要拥趸。
世界模型:靠“直觉”的老司机。世界模型走的则是另一条完全不同的路。它的底层逻辑基于物理引擎的动态模拟,先在云端构建车辆周围的实时路况模型,再进行物理推演,最终下达行动决策——整个过程更像一台高精度运转的“交通模拟器”。华为车BU CEO靳玉志曾明确表态,VLA依赖语言大模型将互联网信息转化为认知的做法“看似取巧,其实并不是走向真正自动驾驶的路径”,华为更看重世界行为模型路线。Momenta CEO曹旭东也在北京车展期间公开表示,世界模型能够将互联网海量视频转化为驾驶知识,这是VLA架构所不具备的优势。华为、吉利、Momenta、蔚来等企业站队这条路线。
两条路线的差异可以概括为:VLA相信“理解是驾驶的前提”,世界模型则认为“预测才是关键”。一个追求逻辑推理,一个追求物理直觉——它们都在某种程度上“像人”,但模仿的是人类驾驶能力的不同侧面。
1.2 路线之争的白热化
2026年3月,在英伟达GTC大会上,这场路线之争公开激化。
吉利汽车集团CTO李传海在介绍其世界行为模型时,公开指出VLA的三大问题:第一,VLA只会背标准答案,却不能掌握真正规律,泛化性不够;第二,VLA依赖具体的汽车驾驶操作数据,不能像世界模型那样处理互联网海量视频;第三,VLA建构的是语言或符号与驾驶动作之间的关系,不能像世界模型那样对物理世界规律有深刻的认知。
Momenta CEO曹旭东也在同期表态,直言VLA只能是锦上添花,对于智驾的提升不会那么大,“世界模型+强化学习”才能给智驾带来十倍、百倍的提升。
华为车BU CEO靳玉志则在更早之前就亮明了立场:VLA的“云端大模型蒸馏成车端小模型”是取巧,幻觉在驾驶场景里致命。
更有戏剧性的是,前理想智驾研发负责人、至简动力CEO贾鹏也在GTC 2026上抛出一句重话:“很多VLA模型训练出来之后,泛化能力几乎为零”。而他随后公布的新方案,恰恰是将世界模型和VLA融合在一起的“大一统基座模型”——这一微妙转变,已经暗示了融合即将到来。
第二章:潜空间的曙光——Xiaomi OneVL的技术核爆
2.1 核心洞察:人开车时,心里会“默念”吗?
在深入解读OneVL之前,让我们问一个扎心的问题:当你开车时遇到突发状况紧急刹车,你心里想的是一句完整的话——“注意,前方有危险,我需要踩刹车”——还是一种说不清道不明的“瞬间直觉”?
答案是显而易见的。绝大多数驾驶决策,特别是应急反应,根本不经过语言中枢。它们发生在意识层面之下,是数以万计小时驾驶经验凝结而成的“肌肉记忆”和“直觉判断”。
传统的VLA方案,恰恰走错了方向——它要求AI在每次决策前都生成一段人类可读的推理文字。这相当于要求一个车手在过弯的同时,口头叙述每一个操作的理由。这不仅是时间的浪费,更是信息的损耗:将所有丰富的视觉和时空信息强制压缩为离散的文字,会不可避免地丢失大量细节。
OneVL的技术报告一针见血地指出了这个问题的本质:纯语言化的潜空间表征,压缩的只是对世界的“符号抽象”,而不是真正支配驾驶行为的“因果动态”。
2.2 OneVL的解题思路:用“直觉”替代“默念”
基于这一洞察,小米提出了一条全新的技术路线:潜空间思维链。
所谓“潜空间”,可以理解为大脑的“潜意识层”——一个高度抽象的、连续的特征世界。在这个世界里,信息不需要被翻译成语言就能被处理。而“潜空间思维链”,就是让推理过程在这个潜意识层中并行完成,而非在输出语言的“工作记忆”中串行进行。
更妙的是训练方式。OneVL在训练阶段引入了双重监督机制:
老师一(语言解码器):负责重建文本思维链,确保潜空间里有“逻辑”——让模型具备可解释性。
老师二(视觉世界模型解码器):负责预测未来帧的token,迫使潜空间内化道路几何、智能体运动和环境的因果动态变化规律。
到了推理阶段,两个辅助解码器全部丢弃,潜空间token通过单次并行填充就能完成全部推理——与“仅输出答案”的速度完全相同,却能保持超越显式思维链的推理质量。
OneVL提出的三项关键技术可以用一句话概括:让模型用自己的“内部语言”思考、让它学会预测未来画面、并把整个推理过程压缩到一步完成。正如小米在技术解读中所说的:“自动驾驶要压缩的,不只是语言推理,而是对未来世界变化的理解。驾驶决策真正依赖的,并不只是‘前方有车’‘道路变窄’这样的语义描述,而是车辆运动、道路几何、障碍物演变等时空因果信息。”
这个视觉世界模型解码器的作用,不是锦上添花,而是让OneVL首次超越显式CoT的根本原因。消融实验的结果表明,压缩物理世界的动态信息能显著提升性能。潜空间不再只是压缩语言符号,而是真正学到了物理世界的因果动态。
2.3 用数据说话:速度与精度的双重胜利
OneVL的性能数据,有力地支撑了这个技术判断。
速度方面:推理延迟最低仅0.24秒,仅为传统VLA自回归推理的5.4%。作为参考,人类从看到突发状况到踩下刹车的平均反应时间约为0.3-0.5秒——OneVL比人类快了一倍。
精度方面:在涵盖感知、推理与规划的多个主流基准上,OneVL全面刷新了潜在推理方法的性能上限。在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA;在NAVSIM测试中,PDM-score达到88.84,超越了显式CoT方案。这是行业首次有潜空间推理方案在精度上超越显式思维链。
可解释性方面:OneVL能为模型决策提供语言和视觉双维度的可解释性——既能用文字说明“为什么这样开”,也能用预测画面展示“接下来会发生什么”。这意味着OneVL在安全审核和用户信任层面都具有重要价值。
2.4 冷靜審視:潛空間推理的挑戰與邊界
然而,在充分肯定OneVL技术突破的同时,也需要保持冷靜的审视。
其一,潜空间推理的可解释性上限。虽然OneVL保留了语言解码器作为可解释性监督,但推理本身在潜空间中完成。当遇到从未见过的极端场景(如前所未见的交通事故形态)时,潜空间是否能稳定泛化?前理想智驾研发负责人贾鹏在GTC 2026上的警示——“很多VLA模型训练出来之后,泛化能力几乎为零”——这条批评对任何新模型同样适用。
其二,开源的长期可持续性。将核心模型开源意味着放弃直接的模型授权收入。小米如何从开源中获取商业回报?谷歌开源安卓、Meta开源Llama的历史表明,可能的路径是通过“开源吸引生态→生态反哺服务与硬件”。但这一路径在智驾领域尚无可验证的成功先例。小米可能需要依托“人车家”全场景生态来构建变现闭环。
其三,OneVL是“统一”还是“融合的第一步”?有技术社区观点认为,OneVL目前主要解决了推理阶段的统一,但在训练阶段,VLA与世界模型仍需分工协作。真正的“大一统”可能需要更大的模型规模和更底层的数据架构革新。技术演进的路径远比单次发布更长。
第三章:上帝的骰子——路线之争何以被“融合”终结?
3.1 理论辨析:V、L、A缺一不可
事实上,OneVL的出现并非偶然,而是行业技术演进逻辑的必然产物。
一个根本性的理论问题,早就在技术社区中被反复讨论:只要机器人需要在物理世界中执行任务,V(视觉感知)、L(语言推理)、A(动作执行)这三个要素就永远存在。世界模型并没有替代L和A的功能——它本质上是VLA框架的增强组件,而非独立替代方案。真正的创新方向,应该是将世界模型的预测能力深度融入VLA内部,实现感知-预测-执行的一体化。
来自资本市场的研判也为融合路径提供了有力背书。2026年4月,华金证券发布智能驾驶专题报告,明确指出:在经历2025年端到端大模型上车后,高阶智驾算法逐渐衍生出VLA和世界模型两条路线,两者高度互补,未来有望深度融合,共同助力智驾能力提升。摩根士丹利也在2026年3月发布研报,对小鹏第二代VLA技术路线给出积极评价,认为其正具备与特斯拉正面竞争的能力。这些来自独立第三方机构的判断,比企业自身的表态更具说服力。
3.2 从对立到统一:行业的集体转向
行业的共识转向,有一个关键的转折点。
2025年底,特斯拉推送FSD V14,将xAI的Grok大模型能力整合进导航和决策系统。V14版本的模型参数量比上一代提高了10倍,导航与路径规划功能全面整合至神经网络。这不是让座舱变得能聊天——而是让FSD的决策系统多了一层语言理解能力。这一举动,让国内智驾公司第一次直观地看到:大模型能力不是“VLA”和“世界模型”之间的二选一,两者都可以做,而且可以一起做。
此后,行业迅速形成了一套广泛接受的共识:视觉语言大模型做“大脑”负责认知推理,端到端小模型做“小脑”负责快速执行。
从各家头部玩家的动作中可以清晰地看到这一趋势:
理想汽车早在2025年就将空间理解、语言理解与行动决策统一到同一框架,构建了基于VLA、世界模型与强化学习的VLA司机大模型。2026年GTC上,理想进一步发布MindVLA-o1,引入预测式隐世界模型——一个被极度压缩的世界模型,在隐空间中高效模拟未来数秒场景演化,实现时空联合建模。该模型采用VLA-MoE架构,包含“动作专家”模块,将感知、思考、行动与进化整合为完整闭环。
华为虽然公开立场一直坚持世界模型路线、反对VLA,靳玉志在2026年4月ADS 5发布会上仍然明确选择世界模型路径、强调“反对VLA架构”,但其与上海交通大学合作的一项研究成果却耐人寻味:一个统一VLA和世界模型的框架,2B模型规模,在ADS 5即将上线之际尝试将两者融合。这种“台面上反对、实验室里融合”的双轨策略,恰恰说明融合已是大势所趋。
小鹏汽车自2025年8月随X9车型交付第二代VLA以来,已积累了大量真实路测数据。极端场景接管率下降62%,二代VLA被称为“智驾新标杆”。
元戎启行在2026年北京车展期间宣布全面转向统一基座大模型架构。其首席科学家阮翀(前DeepSeek多模态技术核心研究员)介绍,公司正从多个小模型转向一个40B参数规模的统一基座大模型,将驾驶决策、场景理解与行为评估统一在同一架构中,数据闭环迭代周期从过去的约5天缩短至约12小时。
就连一直坚称“VLA是取巧方案”的华为,也在ADS 5即将上线之际,尝试把VLA和世界模型融合了——这条路线与很多玩家不谋而合。
黑芝麻智能CEO单记章更是公开判断:VLA加上世界模型,是高阶智能驾驶未来最有可能的技术路线。
3.3 OneVL的历史坐标:融合的终极形态
在这一行业共识转向的背景下,OneVL的历史意义就变得非常清晰了。
行业目前存在着两种融合路径:理想代表的是“显式融合”——将VLA、世界模型、强化学习作为不同模块拼接在一起;而OneVL实现的是“隐式统一”——在一个模型架构的内部,通过视觉世界模型解码器将预测能力内化到VLA的推理空间中。
这种统一,比显式融合更彻底、更优雅。它不是拼凑,而是化学反应。正如小米技术团队的自我定位:OneVL进一步验证了XLA架构方向的技术潜力——“真正面向现实世界的辅助驾驶,不只要看见当下,更要理解因果、预判未来,并在有限时间内完成高质量决策”。
第四章:开源阳谋——小米的AI野心与行业新范式
4.1 不止于车:小米的AI全栈蓝图
如果说OneVL的技术突破是小米的“手”,那么开源的决策则是其“棋局”的关键一步。
雷军在官宣中明确表态:“欢迎全球开发者、研究人员一起参与,探索自动驾驶大模型的更多可能性。”这不是一次孤立事件。就在OneVL发布前的2026年4月,小米已在投资者日上宣布了一系列AI战略布局:未来三年AI投入超过600亿元(仅为保底数字),并规划2026-2030年整体研发投入超2000亿元。
小米集团副总裁屈恒表示,小米拥有AI时代的全栈能力:基建层、数据层、模型层、框架层和生态层。此前,小米已宣布MiMo v2.5即将开源,几乎适配国内所有芯片。小米智驾的XLA本身也使用了开源跨域具身基座模型Xiaomi MiMo-Embodied。OneVL则是其在自动驾驶垂直领域的开源旗舰项目。从基座模型到垂直领域模型,这种系统性开源策略在车企中极为罕见。
4.2 开源的深层逻辑
在国内车企中,愿意把核心智驾模型开源的本就极少。OneVL的开源,背后有着清晰的战略考量。
生态卡位:在行业标准尚未统一的窗口期,开源能够推动自身技术框架成为事实标准。开源意味着将模型暴露在全球开发者的审视和优化之下,在真实场景和多元反馈中迭代,远比闭门造车高效。
人才磁场:顶级AI人才更愿意加入一个技术栈领先且保持开放的公司。开源本身就是最有力的人才招募令。
后来者的破局之道:小米选择开源,还有一个不容忽视的战略背景。截至OneVL发布时,小米SU7交付量尚在爬坡期,与华为ADS系统已搭载于问界、阿维塔、深蓝等多品牌车型的规模相比,自有智驾车队的数据飞轮尚未成型。开源能够吸引更多开发者参与,弥补自研生态的规模劣势。这本质上是“后来者以开放换生态”的经典打法。
4.3 开源与闭源:一场新的路线博弈
如果说VLA与世界模型之争是算法的路线分歧,那么开源与闭源的分岔路,则是商业模式的深层对决。
放眼全球自动驾驶赛道,核心模型的开闭源策略泾渭分明。特斯拉至今未开源FSD的核心模型权重,仅开放部分推理API,以垂直整合的封闭生态构筑护城河。华为WEWA架构的核心模型同样未开源,ADS系统通过与车企的“智选车模式”深度绑定,以技术优势换取市场份额。小鹏第二代VLA虽已随X9交付并积累了大量真实路测数据,核心模型权重同样未对外开源。理想MindVLA-o1在GTC 2026上公布了技术架构,但尚未宣布开源计划。
小米却选择了截然不同的道路——全面开源模型权重、训练及推理代码。这种策略与当年安卓以开放策略对抗苹果封闭生态有高度相似性:通过降低准入门槛,快速扩大生态版图;通过吸引开发者群体,形成技术迭代的规模优势。当然,这条路也伴随着风险——参考谷歌开源安卓、Meta开源Llama的模式,小米可能需要依托“人车家”全场景生态来构建变现闭环,而这一路径在智驾领域尚无可验证的成功先例。
4.4 “卖铲子”的DeepSeek与“递枪”的小米
如果说DeepSeek和小米都在深刻影响自动驾驶行业,那么两者的角色可以用一个比喻来区分:DeepSeek是“卖铲子”的底层赋能者,小米则是“递枪”的垂直突破者。
DeepSeek在过去数月通过技术接入悄然布局,比亚迪的整车智能“璇玑架构”已全面引入DeepSeek R1大模型,吉利、东风、智己、长安、零跑等十余家车企也先后接入。特斯拉中国更是选择了豆包+DeepSeek组合方案“上车”。业内专家指出,DeepSeek的本质是“算力平权”,让中小车企也能以低成本接入顶尖AI能力,打破技术垄断壁垒。
DeepSeek降低的是“造模型的成本”,让更多车企有能力训练自己的智驾模型。而小米OneVL直接给出了一个已训练好、精度极高、且全面开源的VLA模型——这相当于直接递出了一把上膛的枪。两者共同降低了高阶智驾的准入门槛。对处在犹豫期的中型车企而言,它们现在可以直接基于小米开源的融合模型进行二次开发,而不必从零开始探索VLA和世界模型的融合之路。
智驾平权的时代,正在加速到来。
结语:智驾的“顿悟时刻”
Xiaomi OneVL的意义,不只是一款性能更强的模型。
它用一次漂亮的工程实践,回答了一个悬而未决的行业之问:VLA和世界模型,真的只能二选一吗?答案是否定的。不是模拟人类的语言思维,而是复现人类基于物理直觉的潜意识——这才是通向通用智驾的更优路径。
从更宏观的视角看,OneVL发布的时间点本身就是一个隐喻。就在它问世的前一天,一份深度技术辨析报告还在指出:真正的创新方向是将世界模型深度融入VLA内部,实现感知-预测-执行一体化。而OneVL,恰恰就是沿着这条路实现了突破。
真正的革命,往往不是告诉我们一个已知答案的对错,而是直接改变我们提出问题的维度。当行业还在为VLA和世界模型争吵时,小米用一个开源的“潜空间”方案,把问题直接带到了下一个时代。更值得注意的是,就连此前公开反对VLA路线的华为,也在实验室中探索VLA与世界模型的融合——这从一个侧面印证了融合方向的时代必然性。
当然,我们也需要保持一份清醒。潜空间推理的泛化边界在哪里?开源策略在智驾领域能否走通商业闭环?从推理阶段的统一到训练阶段的真正大一统,还有多长的路要走?这些问题的答案,不会由一次模型发布来全部揭晓。技术演进的路径,永远比单次发布更长。
自动驾驶的竞赛,从此不再是“脑”与“眼”的分工之争,而是谁的“直觉”更准、更快——以及,谁能在开放与封闭的博弈中,率先找到可持续的答案。
Xiaomi OneVL的代码已全面开源,模型权重与训练、推理代码均托管于GitHub,技术报告也已上传至arXiv。正如小米官方所言:“我们希望通过开源的力量,和全球开发者一起,推动自动驾驶模型走向可用、可信、可扩展的未来。”
这或许才是一个新技术时代,真正值得期待的开场。