VLA(Vision-Language-Action Model)的思路很简单:先让AI用语言理解世界,再决定怎么开车。
工作流程:
👁️ 摄像头看到画面 → 🧠 语言模型"翻译理解" → 🎮 输出驾驶动作
比如,系统看到"前方有公交车正在并线、行人信号灯为红灯",语言模型会推理出"可能有行人冲出",然后决定"减速"。
VLA的强项
① 语言带来的强泛化
语言是人类常识的压缩包。VLA通过语言拥有了"常识推理"能力——即使从没遇到过"三轮车拉着钢管在雪天行驶"的场景,AI也能基于语言知识推理出合理应对。
华为×多伦多大学2026年联合研究的实验数据印证了这一点:VLA在陌生场景中的鲁棒性显著优于纯世界模型。
② 可解释性强
决策过程可以用自然语言描述——"我减速,是因为前方公交车正在并线,可能有行人冲出"。事故追溯和监管合规,这两点至关重要。
③ Scaling Law 驱动
VLA搭上了大语言模型发展的便车。模型参数越大、语言基座越强,驾驶能力越强。小鹏发布VLA 2.0多次提到新能力涌现,元戎启行认为基座模型的认知能力提升加速从L2到Robotaxi的进程,都是沿着这条路。
VLA的致命缺陷:监督不足
这是华为引望2025年12月论文指出的核心问题。
VLA的训练信号太"稀疏"了——模型容量庞大(数十亿参数),但监督信号只有"方向盘转了多少度、油门踩了多少"这样低维的动作标签。
就像一个天赋极高的学生,只靠做题而不看书,知识体系永远建立不起来。
世界模型选择了一条完全不同的路:不依赖语言,直接建立对物理世界的内部表示,然后推演决策。
工作流程:
📊 当前状态 → 🔮 世界模型推演 → 🌍 预测未来状态 → 🎯 最优动作
它直接预测"如果我做了动作A,世界会怎么变化",相当于一个"数字孪生"版的驾驶系统。
世界模型的强项
① 时空推演带宽更高
物理世界的变化是连续、高维的。语言是离散、低维的符号系统——从物理到语言的转化,必然伴随信息损失。世界模型直接操作物理表示,带宽更高。
② 极端场景预测能力强
暴雨天气中,世界模型可以预测"前方积水会导致对向车辆打滑偏移",这不需要任何语言知识,纯物理推演。
识别到路边滚出的足球,系统能推演"球后大概率有追赶的孩子",提前减速。这是世界模型真正厉害的地方。
③ 零样本推理
没见过某个场景?没关系,基于物理规律推演,照样能生成合理应对策略。
世界模型的致命缺陷:仿真-现实鸿沟
华为×多伦多大学的研究同时指出了世界模型的软肋:Sim-to-Real Gap(仿真到现实的迁移鸿沟)。
在仿真中,世界模型可以生成无限多场景并学习。但仿真毕竟是简化的物理模型,与真实世界的复杂度始终存在差距。
论文实验表明:世界模型在见过的场景变体中表现优异,但在完全陌生且需要物理推理的长尾场景中,反而不如VLA鲁棒。真实世界的物理复杂度,远超仿真能够覆盖的范围。
华为ADS 4.0接管率百公里0.8次领先行业,并不意味着纯世界模型已经完美。 仿真精度的瓶颈,真实地制约着它的天花板。