26年4月来自上海交大和华为中研的论文“Learning Vision-Language-Action World Models for Autonomous Driving”。
视觉-语言-动作(VLA)模型通过将感知、推理和控制整合到一个统一的多模态框架中,在端到端自动驾驶领域取得了显著进展。然而,它们通常缺乏对时间动态和全局世界一致性的显式建模,这限制了它们的预测能力和安全性。相比之下,世界模型(WM)可以模拟合理的未来场景,但通常难以对它们生成的想象未来进行推理或评估。本文提出一种简单而有效的VLA世界模型VLA-World,它将预测性想象与反思性推理相结合,以提高驾驶预测能力。VLA-World首先利用动作导出的可行轨迹来指导下一帧图像的生成,从而捕捉描述周围环境演变的丰富时空线索。然后,该模型对这个自生成的未来想象帧进行推理,以优化预测轨迹,从而获得更高的性能和更好的可解释性。为了支持这一流程,整理 nuScenes-GR-20K,一个源自 nuScenes 的生成推理数据集,并采用一种三-阶段训练策略,包括预训练、监督微调和强化学习。
视觉的概览,VLA-World如图所示:
现有的VLA模型[30, 53, 84, 86]本质上缺乏对驾驶场景中其他动态主体的显式时空建模,这使得它们难以预测复杂场景的演变,而这种能力对于安全主动驾驶至关重要。相比之下,世界模型通常依赖于大规模视觉数据来学习先验分布并从中进行采样,而无法有效地捕捉世界的潜因果关系。因此,它们倾向于模拟世界,而不是真正理解世界。
为了克服这些局限性,近期的研究[11, 14, 63, 65, 74, 77]开始探索整合生成和理解的统一架构,并将生成作为桥梁来增强潜表征。基于这些研究,端到端自动驾驶的理想范式,应该将世界模型的时空建模能力与VLA模型的推理能力相结合。这样的流程不仅能预想场景将如何演变,还能像人类驾驶员一样,对这些预想的未来进行解读和反思。一个生动的驾驶例子可以说明这种直觉。在开阔的道路上巡航时,人类驾驶员依靠快速、直觉的想象(例如世界模型)来预测接下来的几分钟,而无需刻意思考。但如果行人突然进入车道,驾驶员会立即进入反思性推理:大脑会模拟如果车辆继续以相同速度行驶会发生什么,评估结果,然后抑制继续前进的初始冲动。
用于自动驾驶的世界模型
现有的大多数自动驾驶世界模型[9, 32, 34, 59, 61, 64, 66, 69–71, 78–80, 83]都侧重于根据过去的图像序列和当前动作生成符合驾驶规范的视频。DriveDreamer[59]是一项开创性工作,它使用基于扩散的框架来生成逼真的未来驾驶视频并预测后续动作。DrivingWorld[24]引入一种GPT风格的自动驾驶世界模型,该模型具有多种时空融合机制,能够有效地对空间和时间动态进行建模,从而实现高保真、长时间的视频生成。为了在缺乏有效的3D空间表示的情况下保持多视角一致性,OccWorld[78]利用过去的3D占用观测数据来生成未来的3D占用图。现有的大多数世界模型侧重于生成时间上一致的未来场景,但缺乏明确的推理或动作感知,这限制了它们的可解释性和决策可靠性。最近,FSDrive [74] 引入一种基于 Qwen2-VL [68] 模型的时空思维链 (CoT) [48, 62],该模型通过生成未来图像帧作为中间推理步骤来进行视觉思考。与 FSDrive 不同,VLA-World 将世界模型的预测想象与 VLA 框架的反思推理相结合,从而能够为自动驾驶提供准确的预测和基于认知的决策。
VLA-World
VLA-World,是一个简单而有效的视觉-语言-动作世界模型,它不仅能根据预测的短期轨迹生成短期未来框架,还能对这些预想的未来进行推理,以评估潜风险。这使得决策更加明智,轨迹规划更加安全。其核心洞见是,短期预测的未来自然地编码了丰富的时空信息,展现了场景的演变过程,既捕捉了自身运动,也捕捉了周围交通参与者的行为,这对于可靠的驾驶推理至关重要。如图2所示,VLA-World遵循一个多步骤流程,包括感知、短期预测、生成、推理和规划。VLA-World首先通过检测相关的交通参与者并估算与道路边界的距离来感知环境。然后,它预测未来0.5秒的自身轨迹和行驶方向,并基于这些预测生成相应的未来帧。模型对生成的未来图像进行推理,以识别重要的交通参与者和可能出现的潜风险。最后,它输出相应的驾驶决策以及长期轨迹。通过将想象和推理整合到一个框架中,VLA-World既能预测也能反思即将发生的事件,从而实现更接近人类驾驶行为和安全意识更强的驾驶行为。
预备知识:VLA 模型与世界模型
考虑一个在离散时间 t = {1,2,...} 中以固定步长 ∆t(例如 0.5 秒)行驶的智体。在时间 t,驾驶智体接收多视角视觉观测数据,其自我状态 o_t = {I^1:K^_t, S_t},其中 I^k^_t 表示来自摄像头 k ∈ {1,...,K} 的输入图像,S_t 包含自我速度、加速度、偏航率和其他 CAN 信号。智体以任务目标 g(例如,左/右/前)为条件。将以自我为中心的纯电动汽车 (BEV) 坐标系中的未来路径点轨迹表示为:
τ_t:t+H ={p_t+1,p_t+2,...,p_t+H}, 其中 p_t+h 是未来轨迹的点位置
并将下一帧图像(针对选定的摄像头或视角)表示为 x_t+1。动作空间可以是底层控制 a_t(油门、刹车、转向)或轨迹 τ_t:t+H。
VLA 模型。VLA 模型学习从历史观测和目标到轨迹的直接映射 π_θ(τ_t:t+H | o_1:t, g)。这种范式将感知、推理和规划统一在一个大型语言或多模态语言模型框架内。类似于单阶段端到端自动驾驶流程,它可以完全基于大规模轨迹数据进行训练,从而使整体优化过程高度简洁高效。然而,VLA缺乏对时间动态和世界一致性的显式建模,这导致该模型主要关注自身车辆,而忽略其他交通参与者的运动建模,而这正是端到端自动驾驶流程中必须捕捉的关键组成部分[13, 25, 29]。
VLA理论洞察:舍弃 x_t+1 的 VLA 模型在数学上等价于优化一个宽松的下界,而这会导致场景演化的预测信息丢失。它试图直接匹配边缘分布,却忽略了潜在的因果变量 x。相比之下,VLA-World 直接对联合分子 p(τ, x | o, g) 进行建模。通过显式生成 x_t+1,VLA-World 收紧这一下界,有效地利用“想象的”未来来降低策略估计的不确定性。
世界模型(WM)。世界模型旨在通过预测世界在动作下的演变来捕捉周围环境的潜动态。形式上,它学习一个过渡分布p_ψ(w_t+1 | w_t, a_t),其中w_t是概括过去观测值o_1:t的潜状态,a_t是智体采取的动作。潜状态通常通过编码器获得,模型可以通过解码器重构或预测未来的观测值。直观地说,世界模型充当内部模拟器,使智体能够设想可能的未来,并在不与环境进行物理交互的情况下可视化其行为的潜结果。通过反复展开 {w_t+1 , w_t+2 , . . .},该模型可以在潜空间中进行长期预测和推理。虽然传统的世界模型在时间预测和未来想象方面表现出色,但它们通常缺乏反思性推理,这意味着它们可以模拟可能发生的事情,但无法评估这些设想的未来是否安全、可行或理想。
WM理论洞察:生成精度(重建)与规划效用(安全性)之间的任何不匹配都会造成性能瓶颈。碰撞的高保真模拟是有效的,但对智体而言却是灾难性的。与VLA-World模型不同,纯世界模型不会将决策奖励R反向传播到模型参数θ中,导致智体的想象与后果脱节。
视觉-语言-动作世界模型
VLA-World 是一个统一的框架,它结合视觉语言和世界模型的优势,以改进自动驾驶中的决策。它利用世界模型的预测性想象来模拟未来场景,并通过反思性推理来改进这些预测,从而实现更准确、更易于解释且更安全-觉察的驾驶决策:
p(τ_t:t+H ,x_t+1 | o_1:t, g) =
p(τ_t:t+H |o_1:t,g) · p(x_t+1 |o_1:t,τ_t+1),
其中 τ_t+1 决定近期演化。纯 VLA 模型关注左侧因素,而纯世界模型关注右侧因素。
为了实现安全且易于理解的驾驶,反思性思维至关重要:在设想未来轨迹 xˆ_t+1 之后,策略应查询未来的证据并据此修改其规划。
给定一系列观测值 o_1:t 和任务目标 g,VLA-World 首先预测初始未来轨迹 τˆ_t:t+1。基于此预测轨迹和过去的观测值,模型随后设想下一个时间步的预期视觉观测:
xˆ_t+1 ∼p(x_t+1 |o_1:t,τˆ_t:t+1)
生成的图像 xˆ_t+1 代表当前规划下预期的近期景象。并非将视觉生成视为辅助输出,而是将这种设想的未来作为反思性推理的明确线索:其中f_ref是反思推理模块
τ ̃_t:t+H = f_ref (o_1:t,xˆ_t+1,τˆ_t:t+1)
这一改进步骤保留初始预测的意图,同时纠正不安全或与自身生成的未来不一致的决策。因此,最终轨迹 τ̃_t:t+H 既反映了模型的预测动态,也反映了其对设想的未来场景的推理。
直觉洞察。核心洞察在于,通过对短期预测轨迹生成的未来图像,实现思考和反思。首先,模型生成一个直观的短期计划,将高维未来采样到一个合理且可靠的空间中。然后,它将直观的结果可视化在其草图板上(sketchpad),该草图板包含丰富的时空线索。最重要的是,模型会对其自身生成的图像内容进行明确的反思,以识别直觉可能忽略的潜风险。这种从模拟到反思的闭环机制,使模型能够先根据直觉找到一条路径,然后深思熟虑地评估其后果,从而寻求最优解。
VLA-World 的视觉预训练
借鉴 FSDrive [74] 的对齐策略,视觉预训练阶段旨在激活 VLA-World 的视觉理解和视觉生成能力,使模型能够解读复杂的驾驶场景并预测其短期演变。与 FSDrive 仅生成前视未来帧不同,预训练阶段明确地强制执行多视图一致性,使模型能够在后续的 SFT 和 RL 阶段中,从所需的任何相机视角生成连贯的未来图像。
这种模型能够学习每个摄像头视角如何根据运动和控制线索演变,从而在所有视角下获得统一的时空先验信息。这种设计确保在后续任务中,当规划器预测短期轨迹并请求相应的未来视角(例如左转、右转或前进)时,预训练的生成器可以从任何视角生成一致且符合物理规律的图像。通过这种方式,将 FSDrive 扩展为一个多视角、目标导向的世界模型,为后续阶段的反思性推理和安全感知规划奠定了坚实的基础。
VLA-World 的监督式微调
采用监督式微调方法,通过模仿学习将驾驶概念知识注入基础模型,遵循“生成式思维”范式。为此,用精心设计的综合性多任务混合数据集训练 VLA-World,该数据集涵盖多个关键学习目标。
感知模块。感知模块作为 VLA-World 的视觉基础阶段,将原始的多视角输入转换为结构化的空间和语义表示,以支持后续的短期预测和推理。该模块利用六个摄像头视角的图像以及自我状态信息,检测周围的动态主体(例如车辆和行人),估计它们的 3D 位置、可能的运动路径、道路与路肩的距离以及可行驶区域的边界。这些输出构成场景级世界状态,一个简洁易懂的概要,它捕捉了物体类别、空间布局和运动线索,为自我轨迹预测和反思性推理奠定了基础,从而确保未来场景的安全性和一致性。
短期预测。短期预测模块将当前的感知结果和自我状态转化为对世界近期演变的估计,为VLA-World中的轨迹规划和时间一致性提供基础。它利用自我状态的历史记录,定期(例如每0.5秒)预测下一个航点和行驶方向。通过显式地建模短期动态,该模块支持视觉生成步骤,该步骤会想象相应的未来画面,并确保预测的轨迹保持平滑、时间连贯且符合物理规律。
条件引导生成。生成模块是VLA-World的想象核心,它将预测的轨迹和方向转化为近期固定数量的视觉tokens。基于编码的场景上下文 o 和预测的路径点 τˆ_t+1,该模块生成下一帧图像 xˆ_t+1,有效地可视化如果执行规划的轨迹,环境将如何演变,并以一组紧凑的视觉tokens来表示,这些tokens编码空间布局、物体运动和光照连续性。通过连接低级感知和高级推理,该模块不仅为智体的未来状态提供可解释的证据,而且还为反思推理模块提供一个具体的场景假设,用于评估其安全性和一致性。因此,这一想象步骤使 VLA-World 能够将基于动作的预测与视觉预见相结合,从而为后续阶段的反思性改进奠定基础。
基于视觉tokens的思考。思考模块体现 VLA-World 的反思推理过程,通过对生成的未来进行因果解释,连接了想象和决策改进。生成模块生成下一帧预测 xˆ_t+1 后,反思推理模块会分析显著实体、运动线索和潜在交互作用,以评估环境风险和行为影响。这一反思过程将视觉证据转化为情境理解,量化安全裕度,预测冲突,并验证轨迹可行性。从功能上看,思考模块是 VLA-World 的认知层,它不仅使智体能够预测将要发生的事情,还能推理其是否应该发生,从而为后续阶段的轨迹优化和安全感知行动奠定基础。
行动和轨迹规划。这两个模块构成 VLA-World 的最终输出,将反思理解转化为具体的驾驶行为。在思考模块评估预测场景的安全性和可行性后,模型会确定符合任务目标和反思推理结果的适当行动策略或机动动作。然后,将这种高层次的行动转化为一系列明确的空间路径点 τ̃_t:t+H,代表在 3 秒时间范围内以 0.5 秒间隔精细化的自我轨迹。这些阶段共同构成 VLA-World 的感知-预测-想象-反思-行动循环,确保最终决策既能感知上下文又能与未来保持一致,执行的机动不仅在物理上可行,而且经过反思验证,确保安全性和目标一致性。
VLA-World 的强化学习
在 SFT 训练模型的基础上,进一步采用 GRPO [51] 算法来增强 VLA-World 的高级推理和决策能力。如图 3 所示,该阶段使模型从遵循预定义的推理模式转变为通过迭代和自纠错过程动态地制定最优规划策略。对于每个输入提示,GRPO 会从当前策略中采样一组多样化的候选响应。然后,精心设计一系列基于规则的奖励函数,用于评估这些响应在整个 VLA-World 流程(涵盖感知、短期预测、视觉生成和规划)中的质量:
格式奖励 (R_fmt)。该奖励强制执行结构良好的输出格式。感知描述应出现在 <Perception> 标签内,短期轨迹和行驶方向应出现在 <Prediction> 标签内,生成的视觉tokens应出现在 <Visual> 标签内,推理内容应出现在 <Think> 标签内,最终的高级动作和三秒轨迹应分别出现在 <Action> 和 <Answer> 标签内。
短期预测奖励 (R_pred)。此奖励有两个目的:(1) 鼓励准确预测短期轨迹和航向,这会影响未来帧的生成;(2) 确保 0.5 秒预测与推理后生成的精细化长期轨迹保持一致。
视觉约束奖励 (R_vis)。此奖励确保生成的视觉token数量符合正确图像重建所需的长度。此外,每个token都必须对应于视觉码本中的一个有效条目,以保证生成的帧可解码且有意义。
动作奖励 (R_act)。为了评估预测的高级动作的正确性,计算一个基于 F1 分数的奖励,该奖励能够平衡地评估相对于真实动作集的精确率和召回率。
轨迹奖励 (R_traj) 。确保在最后三秒内预测的轨迹在每个时间间隔内都准确无误,同时保证运动学的一致性。例如,对于一个平稳运动的智能体,加速度的变化应该非常小。
最终奖励的计算方法是上述所有组成部分的加权组合:
R_all = λ_fmt · R_fmt + λ_pred · R_pred + λ_vis · R_vis + λ_act · R_act + λ_traj · R_traj
总而言之,该训练阶段引导 VLA-World 生成结构正确、短期预测合理、视觉连贯且行为安全的输出,最终实现更可靠的驾驶决策。
实验设置
数据集和指标。用 nuScenes 数据集 [10] 进行实验,采用传统的端到端方法 [13, 25, 29]、VLA [27, 57, 74] 和世界模型 [31, 59, 61, 80]。构建一个 nuScenes-GR-20K 数据集,其中包含 20K 个样本,用于生成未来帧,并基于这些未来帧进行 SFT 和 RL 阶段的推理。用 L2 位移误差和碰撞率来评估轨迹规划性能,遵循先前研究中已建立的协议 [13, 23, 29, 57, 74]。此外,与先前的生成工作 [59, 61] 一致,采用 Fréchet Inception Distance (FID) 来评估生成的未来帧的视觉质量。
实现细节。用 Qwen2-VL-2B [56] 初始化模型,并遵循 FSDrive [74] 的方法。所有训练均在 8 个 80 GB 的 GPU 上使用 PyTorch 框架进行。在预训练阶段,用 AdamW 优化器训练模型 30 个 epoch,初始学习率为 5 × 10⁻⁴,每个设备的批大小为 16。为了进行监督式微调,用 AdamW 优化器训练模型 12 个 epoch,初始学习率为 1 × 10⁻⁴。从 SFT 检查点开始,用 GRPO 算法对模型进行额外的优化阶段,训练一个 epoch。策略训练的学习率为 1 × 10⁻⁶,全局批大小为 16。对于每个提示,采样 8 个候选响应来估计策略梯度。