当前位置：首页>自动驾驶>上海交大&华为联手:让自动驾驶学会“想象”未来,再“反思”决策

上海交大&华为联手:让自动驾驶学会“想象”未来,再“反思”决策

2026-04-16 02:24:42

🚗 自动驾驶新思路：先“做梦”，再“复盘”！
还在为模型缺乏预见性发愁？「龙哥读论文」知识星球每日拆解最新AI论文，帮你快速抓住像VLA-World这样的融合创新点！👇扫码加入，解锁更多前沿干货与深度解读～

龙哥推荐理由：
这篇论文巧妙地解决了自动驾驶领域一个长期存在的“割裂”问题：擅长推理的模型不会“想象”未来，擅长“想象”的模型又不会推理。VLA-World提出的“想象-反思”闭环，不仅思路清晰，而且实验效果扎实，在轨迹规划和未来帧生成两个核心任务上都取得了领先。它为我们展示了如何将大语言模型的推理能力与生成模型的时空建模能力有机结合，是一个兼具创新性和实用性的优秀工作。

原论文信息如下：

论文标题:
Learning Vision-Language-Action World Models for Autonomous Driving 发表日期:
2026年04月发表单位:
上海交通大学（MoE人工智能重点实验室，AI研究院），华为中央研究院原文链接:
https://arxiv.org/pdf/2604.09059v1.pdf 项目链接:
https://vlaworld.github.io

想象一下，你正开车在空旷的道路上巡航。前方一切正常，你的大脑处于一种“自动驾驶”模式，凭直觉就能预判接下来几秒车会怎么走，周围的车辆会怎么动。突然，一个行人窜到了路中间！一瞬间，你的大脑模式切换了：你会立刻在脑海里“模拟”出如果保持原速撞上去的惨烈画面，然后“反思”这个结果，最终果断刹车或转向。

这个“直觉预测”加“反思修正”的过程，恰恰是当前自动驾驶AI最欠缺的能力。现有的两大主流流派各有各的“偏科”：

· 视觉-语言-动作（VLA）模型：这类模型像是一个“学霸”，擅长基于多模态大模型进行复杂的推理和解释，能告诉你“为什么要左转”。但它们往往缺乏对世界动态变化的显式建模，就像一个不记路的学霸，很难预测其他车辆和行人下一秒会怎么动。

· 世界模型（World Model）：这类模型则像是一个“预言家”，专门学习环境的物理规律，能“想象”或生成出未来的画面。但它们通常只满足于“看到”未来，缺乏对生成内容的深度理解和评估能力，无法判断这个“想象的未来”是否安全、是否合理。

那么，有没有办法让“学霸”和“预言家”强强联合，打造一个既会“想象”又会“反思”的AI司机呢？

来自上海交通大学和华为的研究团队就提出了这样一个巧妙的解决方案：VLA-World。它像给AI装上了一个“思维画板”，先凭直觉画下未来草图，再对着草图反思修正，最终做出更安全、更合理的驾驶决策。😏

VLA-World：让自动驾驶学会“想象”与“反思”

VLA-World的核心思想可以用一句话概括：让模型先根据短期预测“做梦”（生成未来帧），再对着自己做的“梦”进行“复盘”（推理分析），最后修正长期规划。

下图清晰地对比了传统的VLA模型、世界模型和VLA-World三者工作流的区别：

图2：（a）VLA，（b）世界模型，和（c）本文提出的VLA-World范式对比。

传统的VLA模型（a）是“一锤子买卖”，直接从感知跳到长期轨迹规划。世界模型（b）则专注于生成连续的未来画面，但生成完就结束了。

而VLA-World（c）引入了一个关键的“生成-思考”闭环：

感知与短期预测：模型先感知环境（识别车辆、行人、道路边界），并凭直觉预测一个未来0.5秒的短期轨迹和车头方向。
条件生成（“做梦”）：以上述预测为条件，模型生成一张未来0.5秒后的场景图像。这张图就像是它根据当前计划“脑补”出的未来。
反思推理（“复盘”）：模型不再是只看一眼就过去，而是认真分析这张自己生成的未来图，识别其中的关键物体、潜在风险（比如那个突然出现的行人离得是不是太近了？）。
修正与长期规划：基于反思的结果，模型修正最初的直觉预测，并输出最终的安全、合理的长期（如3秒）行驶轨迹。

这个流程的精妙之处在于，短期预测为未来帧的生成提供了一个合理且可信的“动作条件”，使得生成的未来图不是天马行空，而是包含了丰富的时空动态线索（其他交通参与者的可能运动）。然后，模型再对这些线索进行深度推理，实现了从“模拟世界”到“理解并评估世界”的跃升。

三阶段训练：从生成到推理的进化之路

为了实现“生成-思考”这个复杂的能力，论文设计了一套精心编排的“三段式”训练法，让模型的能力层层递进。下图是这个训练与推理管线的全景图：

图3：VLA-World三阶段训练和推理管线示意图。

第一阶段：视觉预训练（激活“画板”）

目标：让模型学会“画画”，即根据多视角的当前画面和指令（如“生成左前方摄像头0.5秒后的视图”），预测出未来的视觉图像。

技术细节：这里用到了一个叫VQGAN（Vector Quantized Generative Adversarial Network，矢量量化生成对抗网络）的视觉分词器。它先把图像压缩成一串离散的“视觉词元”（Visual Token），模型的任务就是像预测下一个单词一样，自回归地预测出未来图像的词元序列。这一步确保了模型具备扎实的多视角、条件化图像生成基础。

第二阶段：监督式微调（学习“交规”）

目标：在第一阶段“会画画”的基础上，教给模型全套的驾驶概念知识，将感知、短期预测、生成、思考和规划全部串联起来。

方法：在精心构建的nuScenes-GR-20K数据集（从nuScenes数据集衍生出的2万个生成与推理样本）上，用模仿学习的方式，让模型学习人类司机的完整决策链。模型需要按特定格式输出包含（感知结果）、（短期预测）、（生成的视觉词元）、（反思内容）、（最终动作）和（长期轨迹）在内的所有信息。

第三阶段：强化学习（探索“最优解”）

目标：让模型从“模仿人类”升级到“像人类一样思考”，通过试错探索更优的推理和决策策略。

方法：采用GRPO（Group Relative Policy Optimization，组相对策略优化，引用了DeepSeek-R1[19]等工作中类似的方法）算法。模型会对同一个场景生成多个不同的“思维链”回应（包含上述所有模块的输出），然后一个精心设计的综合奖励函数会对这些回应进行评分。奖励函数从多个维度考量：

格式奖励：输出是否符合规定格式（标签齐全）。

短期预测奖励：预测的0.5秒轨迹准不准，且与最终修正后的长期轨迹是否一致。

视觉约束奖励：生成的视觉词元数量是否正确、是否可解码成有意义的图像。

动作奖励 & 轨迹奖励：最终的动作和3秒轨迹是否准确、运动学上是否合理（如加速度变化平滑）。

通过优化这些奖励，模型被引导去产生结构正确、预测合理、视觉连贯且行为安全的完整输出。

实验结果：规划与生成的双重超越

VLA-World在业界广泛使用的nuScenes数据集上，与众多先进的VLA模型和世界模型进行了全面对比。结果证明，其“想象-反思”的闭环设计带来了实实在在的性能提升。

1. 端到端轨迹规划：精度与安全性双优

评价指标包括L2位移误差（越低越好，预测的轨迹点与真实位置的平均距离）和碰撞率（越低越好）。VLA-World在几乎所有时间点（1秒、2秒、3秒）和平均指标上都表现优异，尤其是在碰撞率这一关键安全指标上，达到了极低的水平，显著优于之前的SOTA方法FSDrive。

表1：在nuScenes数据集上的端到端轨迹规划结果（L2误差和碰撞率）。*表示使用了额外的自车状态信息。

2. 未来帧生成：质量更高

使用FID（Fréchet Inception Distance，弗雷歇起始距离，分数越低代表生成图像与真实图像分布越接近）来评估生成的未来0.5秒图像的质量。VLA-World同样取得了最佳的FID分数，表明其“画板”能力（生成模块）经过整个闭环的联合优化后，生成的画面不仅真实，而且与驾驶场景高度相关。

表2：不同生成模型在nuScenes数据集上的未来帧生成结果对比（使用FID指标↓）。

下图直观展示了VLA-World（右）与FSDrive（左）在未来帧生成和轨迹预测上的对比。可以看到，VLA-World生成的图像更清晰，对车辆姿态的预测也更准确（红色预测轨迹与绿色真实轨迹更吻合）。

图7：我们的VLA-World与SOTA方法FSDrive生成的3秒未来轨迹预测对比。

消融分析：揭秘成功背后的关键组件

为了验证VLA-World中每个设计环节的必要性，论文进行了一系列消融实验。下表清晰展示了移除或修改某个组件后，轨迹规划性能（L2误差）的下降情况。

表4：在nuScenes上进行的轨迹规划L2误差（ST-P3指标）消融研究，以验证每个提出的组件。

核心发现：

短期预测至关重要：如果直接用真实未来轨迹作为条件来生成图像（“w/ GT short-term”），或者完全去掉短期预测模块（“w/o short-term prediction”），性能都会显著下降。这说明模型自己预测的短期轨迹是连接“直觉”与“想象”的关键桥梁，用真实轨迹反而破坏了闭环的完整性。
“生成-思考”闭环不可或缺：如果只生成未来图但不进行反思推理（“w/o think”），或者直接用真实未来图代替生成图进行推理（“w/ GT future”），性能都会变差。这强有力地证明了“对着自己画的图进行思考”这一步骤具有独立的、不可替代的价值，它不是冗余的。
三阶段训练缺一不可：跳过任何一个训练阶段（预训练、SFT、RL），最终性能都无法达到最佳。这说明从基础生成能力，到驾驶概念学习，再到高级推理探索，是一个循序渐进、不可或缺的能力构建过程。

未来展望：更智能、更可靠的自动驾驶

VLA-World为我们提供了一个将生成式世界模型与推理式大模型深度融合的成功范例。沿着这个“想象-反思”的路径，未来的自动驾驶AI可以变得更加“深思熟虑”：

· 多模态“想象”：除了视觉，未来可以融入更丰富的传感器数据（如激光雷达点云、雷达信号）来构建更精确的“世界模型”，生成更全面的未来场景。

· 因果推理与反事实思考：让AI不仅能评估当前计划生成的未来，还能进行“如果……会怎样？”的反事实推理。例如，“如果我急刹车，后面的车会追尾吗？如果我加速变道，旁边的车会让行吗？”，从而在多个备选方案中做出最优选择。

· 从仿真到真车的平滑迁移：这种强大的内部仿真与推理能力，有望大幅降低在真实世界中进行高风险测试的成本，通过“在想象中经历万次险情”来提升模型在现实中的安全和可靠性。

自动驾驶的终局，或许不是一个仅凭超强感知和快速反应的系统，而是一个真正拥有“预见力”和“判断力”的智能体。VLA-World在这条路上，迈出了扎实而富有启发性的一步。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

VLA-World和之前提到的FSDrive有什么区别？核心区别在于“闭环”设计。FSDrive也生成未来帧作为推理步骤，但它不依赖模型自己预测的轨迹来生成未来图（可能使用固定条件或真值），且生成未来图后，推理过程与最终规划输出的关联较弱。而VLA-World强调“直觉预测-条件生成-反思修正”的紧密闭环，短期预测是生成的条件，生成的结果是反思的对象，反思的结果直接用于修正预测，形成了一个自我迭代优化的完整循环。

三阶段训练是必须的吗？能不能跳过某个阶段？从消融实验（表4）看，跳过一个阶段性能就会下降。这三阶段是能力阶梯：预训练打下“画画”（生成）基础；监督微调学习全套“交规”（驾驶概念串联）；强化学习探索更优“解题思路”（推理策略）。跳过基础直接学高阶，或者只学套路不探索优化，都难以达到最佳效果。

文中提到的VQGAN是做什么用的？VQGAN（矢量量化生成对抗网络）在这里扮演“视觉分词器”的角色。就像大语言模型（LLM）把文本变成“词元”（Token）来处理，VLA-World需要把图像也变成离散的序列来处理。VQGAN将高维的图像压缩编码成一串离散的“视觉词元”，这样模型就可以用自回归预测下一个词元的方式来完成图像生成任务，无缝地融入到基于Transformer的架构中。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~