当前位置：首页>自动驾驶>VLA与世界模型:自动驾驶技术路线之争走向何处

VLA与世界模型:自动驾驶技术路线之争走向何处

2026-05-13 08:24:17

2025-2026年，自动驾驶行业最热闹的事，不是哪家落地了L3，而是技术路线之争。

以理想、小鹏、元戎为代表的厂商，选择了VLA路线（视觉-语言-动作模型）。

以华为、蔚来为代表的厂商，选择了世界模型路线。

两派人马互相呛声，都说自己的路线才是正确方向。

然后，他们可能会打到同一个地方去。

为什么这条路线之争注定会发生

自动驾驶从L2向L3/L4跃迁，真正的瓶颈不在硬件，在于泛化能力——系统能不能在从没见过的极端场景里做出正确决策。

这个问题的答案，决定了技术路线的走向。

于是，分歧出现了：

* VLA路线认为：泛化能力从语言知识来

* 世界模型路线认为：泛化能力从物理规律推演来

听起来都有道理。到底谁对？

VLA：让AI先"看懂"再"开车"

什么是VLA？

VLA（Vision-Language-Action Model）的思路很简单：先让AI用语言理解世界，再决定怎么开车。

工作流程：

👁️ 摄像头看到画面 → 🧠 语言模型"翻译理解" → 🎮 输出驾驶动作

比如，系统看到"前方有公交车正在并线、行人信号灯为红灯"，语言模型会推理出"可能有行人冲出"，然后决定"减速"。

VLA的强项

① 语言带来的强泛化

语言是人类常识的压缩包。VLA通过语言拥有了"常识推理"能力——即使从没遇到过"三轮车拉着钢管在雪天行驶"的场景，AI也能基于语言知识推理出合理应对。

华为×多伦多大学2026年联合研究的实验数据印证了这一点：VLA在陌生场景中的鲁棒性显著优于纯世界模型。

② 可解释性强

决策过程可以用自然语言描述——"我减速，是因为前方公交车正在并线，可能有行人冲出"。事故追溯和监管合规，这两点至关重要。

③ Scaling Law 驱动

VLA搭上了大语言模型发展的便车。模型参数越大、语言基座越强，驾驶能力越强。小鹏发布VLA 2.0多次提到新能力涌现，元戎启行认为基座模型的认知能力提升加速从L2到Robotaxi的进程，都是沿着这条路。

VLA的致命缺陷：监督不足

这是华为引望2025年12月论文指出的核心问题。

VLA的训练信号太"稀疏"了——模型容量庞大（数十亿参数），但监督信号只有"方向盘转了多少度、油门踩了多少"这样低维的动作标签。

就像一个天赋极高的学生，只靠做题而不看书，知识体系永远建立不起来。

世界模型：不说话，直接推演

什么是世界模型？

世界模型选择了一条完全不同的路：不依赖语言，直接建立对物理世界的内部表示，然后推演决策。

工作流程：

📊 当前状态 → 🔮 世界模型推演 → 🌍 预测未来状态 → 🎯 最优动作

它直接预测"如果我做了动作A，世界会怎么变化"，相当于一个"数字孪生"版的驾驶系统。

世界模型的强项

① 时空推演带宽更高

物理世界的变化是连续、高维的。语言是离散、低维的符号系统——从物理到语言的转化，必然伴随信息损失。世界模型直接操作物理表示，带宽更高。

② 极端场景预测能力强

暴雨天气中，世界模型可以预测"前方积水会导致对向车辆打滑偏移"，这不需要任何语言知识，纯物理推演。

识别到路边滚出的足球，系统能推演"球后大概率有追赶的孩子"，提前减速。这是世界模型真正厉害的地方。

③ 零样本推理

没见过某个场景？没关系，基于物理规律推演，照样能生成合理应对策略。

世界模型的致命缺陷：仿真-现实鸿沟

华为×多伦多大学的研究同时指出了世界模型的软肋：Sim-to-Real Gap（仿真到现实的迁移鸿沟）。

在仿真中，世界模型可以生成无限多场景并学习。但仿真毕竟是简化的物理模型，与真实世界的复杂度始终存在差距。

论文实验表明：世界模型在见过的场景变体中表现优异，但在完全陌生且需要物理推理的长尾场景中，反而不如VLA鲁棒。真实世界的物理复杂度，远超仿真能够覆盖的范围。

华为ADS 4.0接管率百公里0.8次领先行业，并不意味着纯世界模型已经完美。仿真精度的瓶颈，真实地制约着它的天花板。

两条路线的真实对比

维度	VLA路线	世界模型路线
核心代表	理想、小鹏、元戎启行	华为（WEWA）、蔚来
认知中介	大语言模型	无，物理直接推演
泛化来源	语言知识 + 数据驱动	物理规律 + 仿真生成
极端场景表现	较强（依赖语言常识）	理论上强，受Sim-to-Real Gap制约
可解释性	高（自然语言决策链）	较低
Scaling Law	受监督不足限制	受仿真精度限制
硬件/算力需求	训练端极高（13 EFLOPS级）	推理端较高

融合：两条路会打到同一个地方

华为和博世，分别给出了融合方案——而且结论惊人地一致。

华为方案：DriveVLA-W0

华为引望与中科院自动化研究所合作的论文，核心思路是**"用世界模型解决VLA监督不足的问题"**。

分三步走：

第一步： 建一个标准VLA基座模型，解决"有没有"的问题

第二步（关键）： 用世界模型在大量无标签视频上做预训练，预测未来帧画面——这是像素级的密集监督，远比单个动作标签丰富得多

第三步： 引入轻量级动作专家，解决大模型推理成本过高的问题

技术底座用的是国产模型：EMU3（80亿参数）和Qwen2.5-VL（70亿参数）。

博世方案：ExploreVLA

博世AI研究中心与威斯康星大学麦迪逊分校几乎同时发表了另一篇论文，诊断问题和华为一致，但给出的解法更激进一点——他们认为VLA的天花板不只是"监督不够密"，更是**"只会重复见过的行为"**。

数据里没有覆盖的驾驶策略，模仿学习永远学不到。

博世的方案：

用世界模型预测未来RGB和深度图像（同样产生密集监督）
新增主动探索机制：预测不确定性高 = 这个场景没见过 = 值得探索
用**GRPO（强化学习）**在安全约束下主动学习新策略

两个方案的关键差异

维度	DriveVLA-W0（华为）	ExploreVLA（博世）
密集监督来源	预测未来图像→预训练信号	预测未来图像→监督+探索信号
探索机制	无，纯模仿学习增强	有，不确定性=新场景intrinsic reward
强化学习	无	GRPO优化
安全约束	无明确机制	safety-gated reward
核心目的	放大数据Scaling Law	超越模仿学习天花板
benchmark成绩	NAVSIM v1/v2 SOTA	NAVSIM PDMS 93.7，EPDMS 88.8