🚗 自动驾驶新思路:先“做梦”,再“复盘”!还在为模型缺乏预见性发愁?「龙哥读论文」知识星球每日拆解最新AI论文,帮你快速抓住像VLA-World这样的融合创新点!👇扫码加入,解锁更多前沿干货与深度解读~
龙哥推荐理由:
这篇论文巧妙地解决了自动驾驶领域一个长期存在的“割裂”问题:擅长推理的模型不会“想象”未来,擅长“想象”的模型又不会推理。VLA-World提出的“想象-反思”闭环,不仅思路清晰,而且实验效果扎实,在轨迹规划和未来帧生成两个核心任务上都取得了领先。它为我们展示了如何将大语言模型的推理能力与生成模型的时空建模能力有机结合,是一个兼具创新性和实用性的优秀工作。
原论文信息如下:
论文标题:
Learning Vision-Language-Action World Models for Autonomous Driving
发表日期:
2026年04月
发表单位:
上海交通大学(MoE人工智能重点实验室,AI研究院),华为中央研究院
原文链接:
https://arxiv.org/pdf/2604.09059v1.pdf
项目链接:
https://vlaworld.github.io
想象一下,你正开车在空旷的道路上巡航。前方一切正常,你的大脑处于一种“自动驾驶”模式,凭直觉就能预判接下来几秒车会怎么走,周围的车辆会怎么动。突然,一个行人窜到了路中间!一瞬间,你的大脑模式切换了:你会立刻在脑海里“模拟”出如果保持原速撞上去的惨烈画面,然后“反思”这个结果,最终果断刹车或转向。这个“直觉预测”加“反思修正”的过程,恰恰是当前自动驾驶AI最欠缺的能力。现有的两大主流流派各有各的“偏科”:
· 视觉-语言-动作(VLA)模型:这类模型像是一个“学霸”,擅长基于多模态大模型进行复杂的推理和解释,能告诉你“为什么要左转”。但它们往往缺乏对世界动态变化的显式建模,就像一个不记路的学霸,很难预测其他车辆和行人下一秒会怎么动。
· 世界模型(World Model):这类模型则像是一个“预言家”,专门学习环境的物理规律,能“想象”或生成出未来的画面。但它们通常只满足于“看到”未来,缺乏对生成内容的深度理解和评估能力,无法判断这个“想象的未来”是否安全、是否合理。
那么,有没有办法让“学霸”和“预言家”强强联合,打造一个既会“想象”又会“反思”的AI司机呢?来自上海交通大学和华为的研究团队就提出了这样一个巧妙的解决方案:VLA-World。它像给AI装上了一个“思维画板”,先凭直觉画下未来草图,再对着草图反思修正,最终做出更安全、更合理的驾驶决策。😏VLA-World:让自动驾驶学会“想象”与“反思”
VLA-World的核心思想可以用一句话概括:让模型先根据短期预测“做梦”(生成未来帧),再对着自己做的“梦”进行“复盘”(推理分析),最后修正长期规划。下图清晰地对比了传统的VLA模型、世界模型和VLA-World三者工作流的区别:图2:(a)VLA,(b)世界模型,和(c)本文提出的VLA-World范式对比。传统的VLA模型(a)是“一锤子买卖”,直接从感知跳到长期轨迹规划。世界模型(b)则专注于生成连续的未来画面,但生成完就结束了。而VLA-World(c)引入了一个关键的“生成-思考”闭环:- 感知与短期预测:模型先感知环境(识别车辆、行人、道路边界),并凭直觉预测一个未来0.5秒的短期轨迹和车头方向。
- 条件生成(“做梦”):以上述预测为条件,模型生成一张未来0.5秒后的场景图像。这张图就像是它根据当前计划“脑补”出的未来。
- 反思推理(“复盘”):模型不再是只看一眼就过去,而是认真分析这张自己生成的未来图,识别其中的关键物体、潜在风险(比如那个突然出现的行人离得是不是太近了?)。
- 修正与长期规划:基于反思的结果,模型修正最初的直觉预测,并输出最终的安全、合理的长期(如3秒)行驶轨迹。
这个流程的精妙之处在于,短期预测为未来帧的生成提供了一个合理且可信的“动作条件”,使得生成的未来图不是天马行空,而是包含了丰富的时空动态线索(其他交通参与者的可能运动)。然后,模型再对这些线索进行深度推理,实现了从“模拟世界”到“理解并评估世界”的跃升。三阶段训练:从生成到推理的进化之路
为了实现“生成-思考”这个复杂的能力,论文设计了一套精心编排的“三段式”训练法,让模型的能力层层递进。下图是这个训练与推理管线的全景图:图3:VLA-World三阶段训练和推理管线示意图。目标:让模型学会“画画”,即根据多视角的当前画面和指令(如“生成左前方摄像头0.5秒后的视图”),预测出未来的视觉图像。
技术细节:这里用到了一个叫VQGAN(Vector Quantized Generative Adversarial Network,矢量量化生成对抗网络)的视觉分词器。它先把图像压缩成一串离散的“视觉词元”(Visual Token),模型的任务就是像预测下一个单词一样,自回归地预测出未来图像的词元序列。这一步确保了模型具备扎实的多视角、条件化图像生成基础。目标:在第一阶段“会画画”的基础上,教给模型全套的驾驶概念知识,将感知、短期预测、生成、思考和规划全部串联起来。
方法:在精心构建的nuScenes-GR-20K数据集(从nuScenes数据集衍生出的2万个生成与推理样本)上,用模仿学习的方式,让模型学习人类司机的完整决策链。模型需要按特定格式输出包含(感知结果)、(短期预测)、(生成的视觉词元)、(反思内容)、(最终动作)和(长期轨迹)在内的所有信息。目标:让模型从“模仿人类”升级到“像人类一样思考”,通过试错探索更优的推理和决策策略。
方法:采用GRPO(Group Relative Policy Optimization,组相对策略优化,引用了DeepSeek-R1[19]等工作中类似的方法)算法。模型会对同一个场景生成多个不同的“思维链”回应(包含上述所有模块的输出),然后一个精心设计的综合奖励函数会对这些回应进行评分。奖励函数从多个维度考量:
格式奖励:输出是否符合规定格式(标签齐全)。
短期预测奖励:预测的0.5秒轨迹准不准,且与最终修正后的长期轨迹是否一致。
视觉约束奖励:生成的视觉词元数量是否正确、是否可解码成有意义的图像。
动作奖励 & 轨迹奖励:最终的动作和3秒轨迹是否准确、运动学上是否合理(如加速度变化平滑)。
通过优化这些奖励,模型被引导去产生结构正确、预测合理、视觉连贯且行为安全的完整输出。实验结果:规划与生成的双重超越
VLA-World在业界广泛使用的nuScenes数据集上,与众多先进的VLA模型和世界模型进行了全面对比。结果证明,其“想象-反思”的闭环设计带来了实实在在的性能提升。评价指标包括L2位移误差(越低越好,预测的轨迹点与真实位置的平均距离)和碰撞率(越低越好)。VLA-World在几乎所有时间点(1秒、2秒、3秒)和平均指标上都表现优异,尤其是在碰撞率这一关键安全指标上,达到了极低的水平,显著优于之前的SOTA方法FSDrive。表1:在nuScenes数据集上的端到端轨迹规划结果(L2误差和碰撞率)。*表示使用了额外的自车状态信息。使用FID(Fréchet Inception Distance,弗雷歇起始距离,分数越低代表生成图像与真实图像分布越接近)来评估生成的未来0.5秒图像的质量。VLA-World同样取得了最佳的FID分数,表明其“画板”能力(生成模块)经过整个闭环的联合优化后,生成的画面不仅真实,而且与驾驶场景高度相关。表2:不同生成模型在nuScenes数据集上的未来帧生成结果对比(使用FID指标↓)。下图直观展示了VLA-World(右)与FSDrive(左)在未来帧生成和轨迹预测上的对比。可以看到,VLA-World生成的图像更清晰,对车辆姿态的预测也更准确(红色预测轨迹与绿色真实轨迹更吻合)。图7:我们的VLA-World与SOTA方法FSDrive生成的3秒未来轨迹预测对比。消融分析:揭秘成功背后的关键组件
为了验证VLA-World中每个设计环节的必要性,论文进行了一系列消融实验。下表清晰展示了移除或修改某个组件后,轨迹规划性能(L2误差)的下降情况。表4:在nuScenes上进行的轨迹规划L2误差(ST-P3指标)消融研究,以验证每个提出的组件。核心发现:- 短期预测至关重要:如果直接用真实未来轨迹作为条件来生成图像(“w/ GT short-term”),或者完全去掉短期预测模块(“w/o short-term prediction”),性能都会显著下降。这说明模型自己预测的短期轨迹是连接“直觉”与“想象”的关键桥梁,用真实轨迹反而破坏了闭环的完整性。
- “生成-思考”闭环不可或缺:如果只生成未来图但不进行反思推理(“w/o think”),或者直接用真实未来图代替生成图进行推理(“w/ GT future”),性能都会变差。这强有力地证明了“对着自己画的图进行思考”这一步骤具有独立的、不可替代的价值,它不是冗余的。
- 三阶段训练缺一不可:跳过任何一个训练阶段(预训练、SFT、RL),最终性能都无法达到最佳。这说明从基础生成能力,到驾驶概念学习,再到高级推理探索,是一个循序渐进、不可或缺的能力构建过程。
未来展望:更智能、更可靠的自动驾驶
VLA-World为我们提供了一个将生成式世界模型与推理式大模型深度融合的成功范例。沿着这个“想象-反思”的路径,未来的自动驾驶AI可以变得更加“深思熟虑”:
· 多模态“想象”:除了视觉,未来可以融入更丰富的传感器数据(如激光雷达点云、雷达信号)来构建更精确的“世界模型”,生成更全面的未来场景。
· 因果推理与反事实思考:让AI不仅能评估当前计划生成的未来,还能进行“如果……会怎样?”的反事实推理。例如,“如果我急刹车,后面的车会追尾吗?如果我加速变道,旁边的车会让行吗?”,从而在多个备选方案中做出最优选择。
· 从仿真到真车的平滑迁移:这种强大的内部仿真与推理能力,有望大幅降低在真实世界中进行高风险测试的成本,通过“在想象中经历万次险情”来提升模型在现实中的安全和可靠性。
自动驾驶的终局,或许不是一个仅凭超强感知和快速反应的系统,而是一个真正拥有“预见力”和“判断力”的智能体。VLA-World在这条路上,迈出了扎实而富有启发性的一步。龙迷三问
VLA-World和之前提到的FSDrive有什么区别?核心区别在于“闭环”设计。FSDrive也生成未来帧作为推理步骤,但它不依赖模型自己预测的轨迹来生成未来图(可能使用固定条件或真值),且生成未来图后,推理过程与最终规划输出的关联较弱。而VLA-World强调“直觉预测-条件生成-反思修正”的紧密闭环,短期预测是生成的条件,生成的结果是反思的对象,反思的结果直接用于修正预测,形成了一个自我迭代优化的完整循环。
三阶段训练是必须的吗?能不能跳过某个阶段?从消融实验(表4)看,跳过一个阶段性能就会下降。这三阶段是能力阶梯:预训练打下“画画”(生成)基础;监督微调学习全套“交规”(驾驶概念串联);强化学习探索更优“解题思路”(推理策略)。跳过基础直接学高阶,或者只学套路不探索优化,都难以达到最佳效果。
文中提到的VQGAN是做什么用的?VQGAN(矢量量化生成对抗网络)在这里扮演“视觉分词器”的角色。就像大语言模型(LLM)把文本变成“词元”(Token)来处理,VLA-World需要把图像也变成离散的序列来处理。VQGAN将高维的图像压缩编码成一串离散的“视觉词元”,这样模型就可以用自回归预测下一个词元的方式来完成图像生成任务,无缝地融入到基于Transformer的架构中。
如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~龙哥点评
论文创新性分数:★★★★☆
将世界模型的“想象”能力与VLA模型的“推理”能力通过一个紧密的预测-生成-反思闭环有机结合,思路清晰且新颖。虽非首创“生成以辅助推理”的概念,但在自动驾驶场景下的系统化实现和理论阐述有显著贡献。实验合理度:★★★★★
对比实验全面,涵盖了当前主流的VLA和世界模型baseline;消融分析设计深入,精准验证了短期预测、生成-思考闭环、三阶段训练等核心设计的必要性;指标选取(L2误差、碰撞率、FID)贴合任务需求,结果具有说服力。学术研究价值:★★★★☆
为多模态自动驾驶模型的研究提供了一个富有潜力的新范式。其“内部仿真+反思”的思想可启发机器人、具身智能等多个领域,探索如何让AI具备更类人的预见性和判断力,研究价值较高。稳定性:★★★☆☆
方法依赖于生成模型(VQGAN)的质量和自回归推理的稳定性。生成的未来帧若出现严重失真或模糊,可能误导后续的反思模块。闭环中任一环节的误差都可能被传递和放大,在极端复杂或长尾场景下的鲁棒性有待进一步验证。适应性以及泛化能力:★★★★☆
基于强大的多模态基座模型(Qwen2-VL),在nuScenes数据集上展现了优秀的性能。其框架具有通用性,理论上可通过更换训练数据适配不同城市、不同交通规则的环境,但跨域泛化能力仍需在实际复杂路况中检验。硬件需求及成本:★★★☆☆
模型基于2B参数的VLM,推理时需要串行执行感知、预测、生成、思考、规划多个步骤,且生成图像是自回归过程,计算开销和延时相较于传统单步回归的端到端模型会更高,对车载算力提出更高要求。复现难度:★★★☆☆
论文提供了相对清晰的框架描述和三阶段训练策略,但涉及大规模数据集的重新标注与处理(nuScenes-GR-20K)、复杂的多任务损失和GRPO强化学习调优。若无开源代码,完整复现具有一定挑战。产品化成熟度:★★☆☆☆
目前仍处于前沿研究阶段。其实时性、在极端天气或传感器失效情况下的可靠性、与现有车规级软硬件体系的集成度等,都距离实际量产应用有相当长的距离。更适合作为高级别自动驾驶的“副驾驶”或仿真测试中的智能体。可能的问题:反思推理模块的“思考”深度和有效性缺乏可量化的中间评估指标,更像一个黑箱。如何确保反思真正基于生成内容进行逻辑分析,而非简单地“复读”感知信息或“幻想”,是方法可信度的关键。[1] Learning Vision-Language-Action World Models for Autonomous Driving. Guoqing Wang, Pin Tang, Xiangxuan Ren, Guodongfang Zhao, Bailan Feng, Chao Ma. arXiv:2604.09059v1.[10] nuScenes: A multimodal dataset for autonomous driving. Holger Caesar, et al. CVPR 2020.[19] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. DeepSeek-AI. 2024.[25] UniAD: Planning-oriented Autonomous Driving. Hongyang Li, et al. CVPR 2023.[51] GRPO: Group Relative Policy Optimization. Shunyu Yao, et al. 2024.[56] Qwen2-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. Alibaba Group. 2024.[74] FSDrive: Drive by Thinking with Visual Chain-of-Thought. Ziyuan Zhong, et al. NeurIPS 2025.*本文仅代表个人理解及观点,不构成任何论文审核或者项目落地推荐意见,具体以相关组织评审结果为准。欢迎就论文内容交流探讨,理性发言哦~ 想了解更多原文细节的小伙伴,可以点击左下角的"阅读原文",查看更多原论文细节哦!