点击蓝字 关注我们
1
摘要
端到端(E2E)自动驾驶近年来日益关注将视觉-语言-动作(Vision-Language-Action, VLA)模型与世界模型相统一,以增强决策能力和面向未来的想象能力。然而,现有方法由于潜在状态共享不足,难以在单一架构中有效统一未来场景演化与动作规划,从而限制了视觉想象对动作决策的影响。为了解决这一问题,本文提出了 DriveWorld-VLA,这是一种通过在表征层面紧密集成 VLA 与世界模型、在潜在空间中统一世界建模与规划的新框架。该设计使 VLA 规划器能够直接受益于对场景整体演化的建模,并减少对密集标注监督的依赖。此外,DriveWorld-VLA 将世界模型的潜在状态引入为 VLA 规划器的核心决策状态,使规划器能够评估候选动作将如何影响未来场景的演化。通过完全在潜在空间中进行世界建模,DriveWorld-VLA 支持特征层面的、可控的、以动作为条件的想象过程,从而避免了代价高昂的像素级 rollout。大量开环与闭环实验表明,DriveWorld-VLA 具有显著有效性:在 NAVSIMv1 上达到 91.3 的 PDMS,在 NAVSIMv2 上达到 86.8 的 EPDMS,并在 nuScenes 上实现 0.16 的 3 秒平均碰撞率,达到了当前最优水平。代码与模型将在 DriveWorld-VLA 项目中开源。
2
研究背景
论文指出,自动驾驶正在从传统模块化流水线快速转向端到端学习,但现有 E2E 方法虽然能够将传感器输入映射为控制信号,却普遍缺乏长时域推理能力,也难以理解动作与未来环境变化之间的因果关系。在此背景下,VLA 模型与世界模型的结合被视为一条关键路径:前者擅长多模态语义理解与语言推理,后者则能够通过显式建模环境动态和动作条件下的未来状态,为智能体提供“前瞻式想象”。不过,现有统一尝试主要落入两类不足:一类是图1(a)所示的“解耦式交互”,将世界模型视为外部模拟器或数据源,导致 VLA 无法真正内化物理规律与环境动态;另一类是图1(b)所示的“特征共享”方法,虽然共享表征进行联合预测,但缺乏对动作-结果因果链的显式建模,无法发挥世界模型最核心的“what-if”反事实想象能力,因而仍然停留在被动响应式规划而非主动、长时域优化。Related Works 中进一步回顾了自动驾驶世界模型从视频生成、点云生成、占据预测到潜空间行为预测的发展脉络,也梳理了 VLA 模型从将 VLM 用作高层语义解释器,逐步迈向端到端多模态动作生成,再进一步与世界模型深度耦合的发展趋势。在这样的研究背景下,DriveWorld-VLA 试图通过图1(c)所示的统一耦合方式,把世界模型从“辅助模块”提升为“决策推理引擎”,并通过图1(d)展示其在 NAVSIM 和 nuScenes 上取得的领先性能。
图1
3
研究结果
1. 方法描述
DriveWorld-VLA 的核心思想是在潜在空间中把 VLA 与世界模型紧密统一起来,并通过三阶段渐进式训练逐步对齐表征学习、动作可控性与结果感知决策。如图2所示,模型输入包括多视角图像、文本提示、历史动作以及 BEV 表征。图像与文本沿用 InternVL 的分词方式,BEV 特征由 BEVFormer 提取后展平并映射到 VLM 的嵌入空间,历史动作则被序列化为自然语言并与文本指令拼接。所有模态共同送入 VLM 后,最后一层隐藏状态 Ht 被提取为共享潜在表征,并同时服务于未来想象与未来动作预测。第一阶段中,模型在共享表征上联合进行未来 BEV 想象与动作预测:一方面,Denoiser 的历史条件分支利用 Ht、当前 BEV 状态及历史动作预测未来 BEV 潜变量,再由轻量级分割头恢复语义 BEV;另一方面,动作解码器基于同一共享状态预测未来轨迹,从而把世界模型的知识迁移到 VLA 的决策表征中。第二阶段面向动作可控性微调,目标是不再仅靠历史观测外推未来,而是显式学习“给定动作会导致怎样的未来”。
图2
为此,作者先利用未来多视角图像和未来动作编码得到真实未来 BEV 潜变量,再让第二个去噪分支基于 DiT 学习带动作条件的 flow-matching 去噪过程,图3给出了这一分支的结构示意,包括编码、特征融合、交叉注意力、DiT 模块以及 Euler 采样过程。第三阶段则建立完整的闭环:模型先预测未来动作,再基于预测动作想象相应的未来场景,并借助奖励模型评估 imagined future 与目标未来的一致性及轨迹质量,随后以奖励加权动作损失对动作头进行反向修正。这样,DriveWorld-VLA 就能够把世界模型潜状态直接作为决策状态,在特征层面完成可控的 action-conditioned “what-if” 推理,既避免了像素级 rollout 的高昂代价,又使规划真正建立在对未来后果的显式评估之上
图3
2. 研究结果
实验部分从数据集、主结果、消融实验和可视化四个方面验证了 DriveWorld-VLA 的有效性。作者在 NAVSIMv1、NAVSIMv2 和 nuScenes 三个基准上进行评估,其中 NAVSIMv1 采用 PDMS 作为核心指标,NAVSIMv2 使用更严格的 EPDMS,而 nuScenes 则以 L2 与碰撞率衡量开环规划性能。实现上,NAVSIM 输入由左前、正前、右前三视角拼接为 256×1024 图像,BEV 编码器采用 ResNet-34;nuScenes 则使用 6 视角 640×384 图像与 Swin-T 主干,且为公平比较不使用 ego-state 信息。从主结果看,表1显示 DriveWorld-VLA 在 NAVSIMv1 上取得 91.3 的 PDMS、99.1 的 NC 和 85.9 的 EP;表2显示其在 NAVSIMv2 上取得 86.8 的 EPDMS,并在 DAC、DDC 和 LK 等安全与行为一致性指标上表现突出;表3进一步表明,在 nuScenes 上该方法达到 0.61 m 的平均 L2 和仅 0.16% 的平均碰撞率,相比近期强基线仍具有明显优势。消融结果同样支撑了方法设计的必要性:表4表明三阶段训练逐步提升闭环与开环表现;表5说明非渐进式训练会导致显著性能下降,证明“先学习共享潜表征、再注入动作可控性与奖励细化”的训练顺序不可替代;表6表明 VLM 既不能完全冻结,也不能只依赖非针对性预训练,而需要在初始阶段参与优化以更好地塑造共享空间特征;表7则显示仅依赖任务级监督不足以提供细粒度约束,特征级监督对最终性能提升十分关键。
在可视化方面,图4展示了 NAVSIM 中 4 秒轨迹规划示例:第二阶段的预测虽然已接近真实轨迹,但碰撞风险更高;加入未来想象与奖励细化后的第三阶段轨迹更稳健,显著降低了碰撞风险,这也从直观层面印证了模型对物理动态与未来后果的理解能力。
图4
4
总结
总体而言,本文提出的 DriveWorld-VLA 通过在潜在空间中统一表征共享、世界建模与动作规划,把世界模型从传统意义上的预测模块推进为决策过程中的核心推理部件。该方法不仅使 VLA 能够直接利用对场景整体未来演化的建模结果,还通过 action-conditioned 想象和奖励引导细化,让规划真正建立在对长期后果的评估之上。大量开环与闭环结果表明,该框架在安全性、轨迹质量与规划鲁棒性方面均优于现有最优方法,显示出“世界模型 + VLA”深度耦合范式在自动驾驶决策中的巨大潜力。
原文链接:
Feiyang jia, Lin Liu, Ziying Song, Caiyan Jia, Hangjun Ye, Xiaoshuai Hao, Long Chen, DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving.
https://doi.org/10.48550/arXiv.2602.06521