


LFG提出了一种无需标签的自动驾驶预训练框架,通过单视角未标注驾驶视频学习统一的几何、语义和运动感知的伪4D表示,在规划任务中超越了多相机和LiDAR基线。



Computer Vision and Pattern Recognition (cs.CV)当前研究领域的背景自动驾驶领域依赖大量标注数据(如LiDAR、语义标签)进行模型训练,但现实场景中未标注的驾驶视频(如YouTube视频)数量庞大,如何从中学习有效的几何和运动感知能力成为关键挑战。
现有方法存在的问题和局限性
方法概述LFG(Learning to Drive is a Free Gift)通过单视角未标注驾驶视频,学习统一的伪4D表示(几何、语义、运动及未来演化),其核心架构基于预训练的π3模型和因果自回归模块。
技术实现细节
算法流程
实验设置和数据集
主要实验结果
消融实验
论文的主要贡献
对领域的影响
未来工作方向
在线上可获取的以自我为中心的驾驶视频为自动驾驶提供了丰富的视觉数据来源,但它们缺乏标注,使得学习能够同时捕捉语义结构和三维几何表示变得困难。最近在大型前馈空间模型方面的进展表明,点图和自运动可以在一次前向传播中推断出来,这为可扩展的驾驶感知提供了一个有前景的方向。因此,本文提出了一种无需标签、由教师引导的框架,用于直接从未定位的视频中学习自动驾驶表示。与以往主要关注帧间一致性的自监督方法不同,本文认为安全且反应迅速的驾驶在很大程度上依赖于时间上下文。为此,本文利用一种配备轻量级自回归模块的前馈架构,并使用多模态监督信号进行训练,指导模型联合预测当前和未来的点图、相机姿态、语义分割以及运动掩码。多模态教师提供序列级别的伪监督,使LFG能够在没有姿态、标签或LiDAR的情况下,从原始YouTube视频中学习统一的伪4D表示。所得到的编码器不仅在NAVSIM基准上的下游自动驾驶规划任务中表现出良好的迁移能力,仅使用单个单目摄像头就超越了多摄像头和LiDAR基线,而且在一系列语义、几何和定性运动预测任务中的评估也表现优异。这些具有几何和运动感知能力的特征使LFG成为一个引人注目的以视频为中心的自动驾驶基础模型。
在线上可获取的真实世界、以自我为中心的驾驶视频为驾驶提供了丰富的视觉数据来源,但它们缺乏标注,使得学习能够同时捕捉语义、时间结构和三维几何表示变得困难。受到近期GPT风格模型[5, 20]和DINOv3[23]在大规模未标记互联网语料库上训练成功的启发,一个自然的问题出现了:论文是否也可以利用大量原始视频来学习用于自主性的几何和运动感知特征?
最近在自主性方面的研究表明,扩大规模可以提高性能 [4, 8, 16],但大多数方法仍然严重依赖专家动作、LiDAR扫描、里程计和语义注释等带标签的数据。同时,在野外的驾驶视频非常丰富,并捕捉了广泛的视觉条件和交通情况。尽管这些视频仅提供RGB信息,但它们包含丰富的视觉和运动线索,可以被学习。如果本文的目标是构建可扩展的自主模型,能够生成表达性强且可操作的表示,那么它们应该从大规模未标记的图像和视频中进行预训练。
这促使了直接从视频中学习结构和运动的目标。前馈3D重建模型已经表明,通过单次前向传递,可以从无姿态的图像序列中估计相机姿态和点图 [26, 28]。以自我为中心的驾驶视频为这类模型提供了理想的数据,因为连续帧自然地编码了几何形状和自运动,即使视角稀疏也是如此。然而对于自动驾驶而言,模型最终必须做更多的事情:除了重建当前状态外,它还必须预测未来的运动和几何形状。
受到人类仅从短暂的运动历史中做出低级驾驶决策的研究发现的启发,本文将前馈重建模型 [28] 扩展为预测未来几何形状、置信度和运动。本文的模型使用多个在无姿态数据上训练的大规模模型提供的信号进行训练,这些信号为几何形状、运动和语义提供了互补的线索。通过整合这些线索并结合分割和运动组件,学生模型从野外驾驶视频中学习,生成一个伪4D输出,该输出捕捉场景结构以及动态代理的运动。
本文引入LFG – Learning to drive is a Free Gift – 一种无需标签、由教师引导的方法,用于仅从视觉中学习此类表示。本文将未来预测公式化为几何、运动和语义特征上的下一个标记预测问题。在重建聚合器之后添加了一个轻量级的自回归Transformer,使得在一个子集视图上训练的学生模型能够受益于具有完整序列访问权限的更强模型。监督来自几个专门的教师——SegFormer [31] 用于语义,SAM2 [13] 和 Co Tracker3 [10] 用于运动线索 —— 每个都以最佳利用其在未标记驾驶视频上的优势的方式使用。
与仍需要一定程度监督标签的大规模世界模型 [1, 6, 7, 12] 不同,LFG 关注于一种短视域、前馈式的建模方式,在几何感知的自主驾驶模型中树立了新的标准。在 NAVSIM 规划基准测试 [4] 中,LFG 仅使用单个前向摄像头视角就实现了最先进的性能,优于依赖多个摄像头、LiDAR 或两者的多视角和鸟瞰图(BEV)方法,如 UniAD [14] 和 HydraMDP [16]。LFG 的预训练还提供了强大的样本效率:仅使用 的标注数据,它就能实现具有竞争力的规划性能,突显了在未标注驾驶视频上进行大规模训练的价值。除了规划任务之外,LFG 还生成几何和运动感知的特征,这些特征可以有效地迁移到涵盖语义、3D 结构和决策制定的任务中,突显了其作为下一代自动驾驶系统骨干网络的广泛适用性。
本文的主要贡献如下:
• 本文提出了 LFG,这是一种无需标签、以视频为中心的预训练框架,能够直接从未对齐的单视角驾驶视频中学习几何、运动和语义感知的表示。• 本文设计了一种统一的架构,该架构基于一个预训练编码器和一个因果自回归模块,能够在多种教师引导监督下实现点地图、相机姿态、语义布局、置信度地图和运动掩码的短视域预测。• 本文证明了 LFG 可以作为自主驾驶的强大基础:它仅使用单个前向摄像头即可实现最先进的规划性能,表现出引人注目的数据效率,并且能有效迁移到语义、几何和运动任务中。本文强调,LFG 的创新更多体现在预训练范式而非模型本身。
自动驾驶的预训练。自动驾驶的预训练直到最近才受到关注。早期的自监督预训练工作,如SelfD [36]和ACO [37]表明,大规模的真实驾驶视频可以提供监督信号,用于学习语义和几何先验,而无需人工标签。PPGeo [29]进一步探索了几何导向的预训练方法,使用光度和一致性目标来学习深度和自我运动。ViDAR [34]提出利用历史相机输入预测未来点云作为统一的预训练任务。UniPAD [32]引入了一种自监督学习范式,使用3D体积微分渲染来隐式编码连续的3D结构。VisionPAD [35]通过利用高效的3D高斯点绘制和多帧光度一致性目标来专注于以视觉为中心的算法,仅使用图像重建多视图表示。然而,这些方法在很大程度上依赖于帧到帧的一致性损失,这种损失隐含地假设静态场景,限制了它们捕捉动态对象的能力,而动态对象是真实驾驶环境的核心。相比之下,本文的方法直接在未标记的驾驶视频上进行预训练,通过显式建模动态几何、运动线索和场景语义,生成一个更能够捕捉现实世界驾驶结构和动态的密集4D表示。

图2. LFG架构。从无姿态的单视角驾驶片段开始,一个预训练的骨干网络将个观察帧编码为潜在场景标记。一个轻量级的因果自回归变压器展开个未来标记,然后共享解码器将其映射到点图、相机姿态、语义分割、置信度图和所有帧的运动掩码。多模态教师提供伪监督,使LFG能够学习一种统一的伪4D表示,该表示能有效迁移到下游规划任务。
面向驾驶的几何感知视觉骨干网络。在自主系统中,经典的三维重建流程依赖于运动恢复结构(Structure-from-Motion, SfM)和多视角立体(Multi-View Stereo, MVS)[22],通常与LiDAR结合使用,以三角化场景点并构建用于定位的密集地图。尽管有效,这些方法通常是针对特定场景定制的,并不适合自然地作为大规模视频预训练的通用骨干网络。相比之下,最近的前馈方法[15, 19, 25, 26, 28]通过单次传递预测点图、置信度图和相机姿态来摊销未定姿态图像序列的重建,使其成为适用于驾驶的可扩展且具有几何感知能力的骨干网络。LFG属于这一类方法,但专注于时间理解,生成动态驾驶场景的伪四维表示,非常适合下游的规划和感知任务。
本文引入了LFG(如图2所示),这是一种从无固定姿态且无标签的单视角YouTube视频中学习强大驾驶视觉模型的方法。
本文考虑学习驾驶的情况,其中给定一个连续的序列 ,包含 张自中心RGB图像 ,涵盖各种驾驶场景。目标是高效预测对自动驾驶有用的信息。本文认为这包括当前信息和短期未来信息。这种模型应预测 个相关的场景信息模态,以及场景的未来 帧。受先前无标签预训练和驾驶世界模型工作的启发,本文选择预测以下输出。
LFG通过预训练编码器和因果自回归Transformer对现实世界视频进行处理,联合预测当前和短期未来场景的几何结构、语义信息以及运动状态。首先,模型应该预测随时间变化的自车视角相机的点图 ,其中 , 将图像 中的每个像素映射到 ,即时间 时像素 y 对应的3D世界点。
, 预测了相机姿态,其中每个 相机是一个完整的 齐次变换矩阵,编码旋转和平移信息。这些姿态定义了相机的自运动轨迹,并使得所有预测的局部3D点能够映射到共享的世界坐标系中。

图3. 到LFG的知识蒸馏。本文通过监督所有观测帧和未来帧的点图、置信度图和相机姿态,将从预训练的 教师模型中迁移几何知识给LFG。虽然教师模型可以访问完整序列,但学生模型只能看到前 帧,并必须同时预测当前和未来的几何结构,从而使得LFG能够从部分观测中学习时间一致的场景结构和未来自运动。
第三,本文模型预测具有7个类别的语义分割: , ,其中每个像素的独热向量 编码了语义类别(例如,道路、车辆、行人、建筑、植被、天空和背景)。这些语义预测提供了对场景的语义化、结构化的理解,本文认为这对下游任务是有用的。
本文还预测置信度图 , : ,它量化了每个像素3D预测的可靠性。
最后,本文模型应该预测运动掩码 , ,指示图像中哪些区域对应于独立移动的对象(例如其他车辆、行人),而不是静态环境。运动掩码有助于将场景中的动态部分与静态部分区分开来,这可以用于下游任务,例如动态4D高斯点绘。
总的来说,模型预测所有输出:
所有模态都通过视频以端到端的方式联合学习,并在强大教师的辅助下进行

图4. 语义蒸馏。在Cityscapes上预训练的SegFormer教师模型为每一帧提供软语义伪标签。LFG仅使用前个输入,预测观察到和未来帧的语义图,通过与模型几何特征对齐的教师-学生监督学习时间一致的场景语义。
推动与自动驾驶相关的几何、语义和运动的共享表示。
本文模型(图2)基于 [27] 模型构建,该模型是一个纯前馈模型,从一系列无姿态图像中预测点图、置信图和相机姿态。与VGGT [26] 的先前工作相反, 不依赖于固定的参考视图,并且是在更动态的数据集上训练的,使其成为LFG的合适起点。为了获得预训练的 的优势,本文在模型之上提出了一些简单的添加。
首先,本文建议在 的交替注意力模块或编码器之后添加一个因果注意自回归Transformer。设 编码器的输出为一序列潜在场景标记 ,其中是观察到的帧数。自回归Transformer 将这些标记作为输入,并因果地预测个未来帧的额外潜在标记,生成 。每个新生成的标记序列 表示未观察到帧的潜在场景特征,这些特征被解码为3D点图、置信图、相机姿态、语义图和运动掩码。本文的因果公式确保了每个预测的未来帧可以关注过去和已观察到的帧,但不能关注未来的帧,强制执行单向的信息流。语义和运动输出从点解码器及其相应的头部初始化,使模型能够在预测场景语义和动态时利用共享的几何特征。
教师。本文采用了一个 教师模型,如图3所示,该模型可以访问来自未标记的 OpenDV 数据集 [33] 的 帧数据。教师模型为所有 帧输出监督信号,形式为点地图、置信度地图和相机姿态。学生模型仅观察前 帧,并必须预测已观测到的 和未来的 输出。具体来说,学生模型 LFG 预测:
其中 表示点地图, 表示置信度地图, 表示第 帧的相机姿态。虽然与其它工作相比,这种方法不是自监督的,但它迫使 LFG 预测未来的信息,即未来的自我运动、置信度和场景的几何更新。
为了实现对场景的语义理解,本文模型包含一个语义头(图4),该模块预测每个相机和时间步的密集像素级类别概率。给定输入的张图像序列,语义头输出对应的当前和未来语义地图序列,其中St ∈ [0, 1]Cs×H×W。由于所有帧的真值语义标签不可用,本文采用了一种简单的教师-学生训练策略。在Cityscapes数据集[2]上预训练的SegFormer模型作为教师网络。对于每张图像,论文获得伪标签:。这些伪标签作为语义头的软监督目标。SegFormer教师可以访问所有帧,而LFG必须预测当前和未来的分割结果。
本文图5中的运动头预测像素级运动掩码,用于识别场景中的动态区域。由于没有显式的运动标注,本文以完全前馈且无需标签的方式生成伪真值(伪-GT)标签。
首先,本文使用现成的分割模型Grounded SAM2 [21]从第一帧中分割出人和车辆实例,该模型为每个对象生成跟踪的掩码实例列表。对于每个检测到的对象,本文使用 - Tracker3 [11]跨帧跟踪其二维运动,该方法提供图像空间中的密集对应关系:,其中u(i)t表示第t帧中对象i的二维跟踪关键点。
接下来,本文采用教师模型 为每一帧获取相应的3D点图。对于每个对象实例 ,本文使用 将跟踪的2D点反投影到3D空间,并测量平均3D位置的时间位移:
其中 是时间 处对象的平均3D位置。如果一个对象在至少 帧中其位移超过运动阈值 ,则认为该对象是动态的。最后,本文将实例级运动指示器 转换为密集运动掩码 ,这些掩码作为运动头的监督信号。

图5. 运动掩码生成流程。首先,本文使用Grounded SAM2在第一帧中检测人类和车辆实例,然后使用CoTracker3跨时间跟踪它们的2D轨迹。利用教师模型 的点图,跟踪的像素被反投影到3D空间,并在整个序列中测量每个实例的3D位移。那些在至少 帧中运动超过阈值的实例被标记为动态,它们的掩码被光栅化为密集的逐像素运动掩码 ,用于监督运动头。
本文的训练目标结合了多个任务特定的损失项,共同监督分割、几何、运动和相机姿态估计。总训练损失为:
本文使用加权二元交叉熵(BCE)损失进行语义分割,其中采用类别特定的权重来处理类别不平衡问题。更多细节请参见补充材料。
遵循 的公式,本文通过帧对之间的相对姿态一致性来监督预测的相机姿态。对于任意两帧 ,本文从学生模型的预测中构建相对变换 ,并将其与教师模型提供的目标 进行比较。整体损失结合了旋转和平移项:
旋转项对预测和目标相对旋转之间在SO(3)上的测地距离进行惩罚,而平移项则使用鲁棒回归损失(Huber)来处理相对平移的尺度变化和异常值。这种公式化方法强制多帧姿态一致性,并稳定了随时间的变化的预测。
置信度图估计每个预测的3D点的可靠性。本文使用从点图重建误差中得出的二进制目标对其进行监督:点误差低于阈值的像素被视为高置信度,其他则视为低置信度。本文对该目标应用二元交叉熵损失。
本文使用缩放的 损失来监督预测的3D点图,以考虑场景尺度的变化:
其中 和 分别表示预测和目标点图, 是一个学习或固定的缩放因子,用于归一化场景尺度。这种公式化方法鼓励精确的3D重建,同时保持对场景绝对大小的鲁棒性,类似于用于相对相机运动的基于Huber的平移损失,在那里本文也应用了尺度。
运动头通过模型预测(LFG)与伪真值(GT)之间的二元交叉熵损失进行训练:
为了强调模型预测已观测帧之外的能力,本文对所有未来帧上的损失应用了一个时间加权因子 ,并保持 固定:
这鼓励在未来的时步中对几何和运动进行准确的外推。
综合来看,这些项确保了LFG能够从空间和语义上理解场景,以及场景在未来近期时间窗口内的演变方式。本质上,LFG在其自回归器中表现出生成特性;然而,本文认为这对于下一帧的预测是必要的。
本文分三个阶段训练LFG。第一阶段确保LFG可以自回归地预测未来的几何形状和姿态。这为自回归变换器提供了强大的初始化以训练分割头,而无需重新学习未来的几何形状和运动。最后,本文基于点解码器的初始化训练运动掩码。在每个阶段,LFG都是端到端训练的。本文仅使用OpenDV Driving Youtube数据集,并选择其一个子集,包含约200万个样本,涵盖各种驾驶条件、场景、交通情况以及外部驾驶员/行人情境。本文在2 Hz、5 Hz和 帧(不将LFG条件化于输入帧频率)上训练模型,以提高鲁棒性。
在拥有一个强大的预训练编码器,能够从连续图像中捕捉时间和空间场景结构后,本文展示了这种表示如何对下游规划任务产生帮助。本文在NAVSIM规划基准[4]上进行微调,仅使用三帧连续的前视相机输入来预测复杂驾驶场景中的未来轨迹。
预训练的图像编码器骨干网络保持冻结状态,并且对于每一帧,输出高维的自主性令牌,这些令牌编码了自车的运动状态和周围环境信息。本文运行LFG以生成用于学习的未来令牌。这些每帧的特征被聚合并传递给一个轻量级多模态锚点基础的轨迹解码器,该解码器可以直接在一个前向过程中预测多个候选轨迹,类似于[17],但不使用任何扩散或迭代优化。解码器从自主性特征关注到轨迹锚点并在不同轨迹模式之间进行跨模态处理,然后输出置信度分数和坐标偏移,选择置信度最高的模式作为最终的规划结果。
这种简单而有效的微调策略使规划器能够直接利用预训练的时间表示来进行规划任务,从而显著提高数据效率。在本文的实验中(第4.2.4节),本文表明,与使用多视角或LiDAR输入以及其它预训练编码器[30]的最先进模型相比,这种强大的预训练编码器大幅提升了规划性能和数据效率。
本文通过紧密遵循原始骨干网络的架构来实现本文的模型,该网络大约包含10亿个参数。总体而言,LFG包含14.5亿个参数,并且在NVIDIA RTX 5090 GPU上以的频率运行。图像编码器是从DINOv2-预训练的骨干网络初始化的,本文直接采用交替注意力模块。点、置信度和相机头部分保持冻结状态。语义和运动掩码头部分是从点头部分初始化的。本文的因果自回归Transformer由4层组成,具有8个注意力头,丢弃率为0.1。它接收来自编码器的潜在场景令牌,并自回归地预测未来的帧令牌,然后将这些令牌解码为点图、语义图、置信度图、相机姿态和运动掩码。
本文使用AdamW优化器以基础学习率为 的方式训练模型。在前500步中,采用线性预热计划,从 基础学习率开始,并逐步增加到完整的学习率。预热结束后,在剩余的训练步骤中应用余弦退火。梯度被裁剪为最大范数1.0,并启用了混合精度训练(BF16)。为了增加批量大小,本文执行梯度累积。此外,对student LFG的帧随机应用颜色抖动、高斯模糊和灰度增强,而teacher接收未经增强的图像。本文在32个A100 GPU上进行40,000次迭代的训练。模型通过多种损失函数组合进行训练,包括缩放的 损失用于3D点 ,Huber损失用于相机平移(0.1),置信度损失(0.05),分割损失(1.0)以及运动损失(1.0)。为了强调对未来帧的准确预测,本文将相应的损失权重设为 。最后,本文对所有几何输出进行归一化,以确保训练过程中的稳定学习。
本文在一系列下游任务上评估LFG,这些任务联合探测语义、几何、运动和决策制定。具体来说,本文考虑了(i)语义分割,(ii)深度、点图和相机姿态预测,以及(iii)仅编码器的下游基准测试和规划。此外,本文还提供了定性的运动可视化。这些任务使本文能够评估所学场景表示的质量及其作为自动驾驶骨干网络的实用性。
表1. 语义分割指标(总体 vs. 预测结果)。

本文使用KITTI数据集评估语义分割性能。

图6. 当前帧和未来帧的分割质量。论文展示了第1帧以及未来帧的分割结果。LFG将其自身的运动与动态运动解耦。
KITTI-360 [18] 数据集包含 200 个不同序列,每个序列有 6 帧连续图像。本文比较了以下模型:以全部 6 张 RGB 图像作为输入的分割教师模型 SegFormer、在所有帧上评估的整体帧 MaskFormer 基线(无未来预测),以及仅以前三帧作为输入但对所有六帧进行预测的本文模型。为了衡量模型对未来场景布局的预测能力,本文还提供了第三帧的真实语义分割与后续帧之间的得分。本文在所有帧和仅未来帧上报告标准分割指标(像素准确率、mIoU、mDice、频率加权 IoU)。表 1 显示,在这种设置下,SegFormer 比 MaskFormer 是一个更强的基线,并且本文模型不仅在整体语义分割上优于其 SegFormer 教师模型,而且在教师模型未使用未来帧的情况下,也在未来帧上表现更优。
表 2. 总体和预测帧的深度估计结果。

对于单目深度预测,本文在 KITTI-360 和 Waymo 开放数据集 [24] 上进行了评估,每个数据集包含 200 个序列,每个序列有 6 帧。本文在与真实深度进行尺度和位移对齐后计算均方根误差(单位为米)和绝对相对深度误差。类似于语义分割,本文使用 6 帧样本,并将所有帧提供给教师模型 ,而将前三帧提供给本文模型。本文还包括强单目基线(VGGT 和 DA3)以说明教师模型的质量;这些结果表明,在本文设置中, 仍然是最强的教师模型。
表 2 中的结果显示,深度预测精度与教师模型相当(整体误差在 1 米以内),并且在预测未来帧时仅略差。更多可视化结果可以在补充材料中找到。点云重建。图 7 提供了 LFG 和 的完整点云重建的定性比较,展示了即使在预测未来帧时,LFG 也能保留几何结构和相机运动。
表3. 轨迹估计结果。RelPos被分为旋转(度)和平移(米)。

由于本文模型预测输入的3帧和未来3帧的相机姿态,因此在KITTI-360和Waymo开放数据集(每个序列包含6帧,共200个序列)上评估轨迹预测,并将其与所有6帧作为输入的进行比较。本文报告了绝对轨迹误差(ATE)、旋转误差(Rot)和平移误差(Trans)。ATE衡量对齐后预测轨迹与真值轨迹之间的差异。Rot和Trans分别表示平均角度旋转误差(度)和平均平移误差。从表3可以看出,虽然这些指标略逊于教师模型,但考虑到本文模型无法访问最后3帧,结果仍然具有竞争力。
本文在图8中包含了定性运动可视化,突出显示了一个伪真值失败案例,其中LFG正确地将静态和动态对象分开。
PDMS摘要。本文在数据效率表(表4)、DiffusionDrive对比(表6)以及组件/缩放消融实验(表7)中报告了NAVSIM的PDMS分数。在这些PDMS表格中,LFG在1%和10%标签的情况下表现最强,并且在100%标签情况下仍具竞争力,优于DiffusionDrive-DINOv2变体,并且受益于增加的预训练数据和更长的预测时间范围。
数据效率。表4评估了当训练数据量变化时,不同预训练编码器在NAVSIM规划中的迁移效果。在预训练编码器中,LFG在所有标签比例下始终实现了最佳的PDMS:在标签的情况下,LFG达到了81.4 PDMS,与DINOv3的全数据性能相匹配,这突显了本文在真实视频上的预训练的有效性。本文将这些提升归因于编码器对场景更强的时间理解能力,使其能够更好地利用短时间的过去帧序列进行规划。它超越了其教师模型之一和PPGeo [30],展示了即使强大的前馈架构也需要对未来语义和时间的理解。更多消融实验见补充材料。消融实验。表7显示,在低标签情况下,扩展预训练数据和延长预测时间范围都能提高PDMS,而移除分割/运动监督或自回归头会降低性能,证实了这些组件的重要性。
表4. NAVSIM上的数据效率比较(PDMS↑)。LFG的预训练编码器具有优越的数据效率,在低数据情况下表现出色,并在所有标签比例下优于其他预训练编码器。

表5. NAVSIM规划基准测试:单摄像头LFG与基于BEV的基线对比。所有指标越高越好。

表6. NAVSIM上DiffusionDrive的比较(PDMS↑)。

基准测试结果。与之前的方法在NAVSIM上的比较(表5),LFG仅使用单个前视摄像头输入,就优于经过大量工程优化的基于鸟瞰图(BEV)的基线方法,如UniAD [9]和Hydra-MDP [16],后者依赖于多视角摄像头和/或LiDAR。LFG实现了最佳的无责碰撞(NC)得分(98.2)以及具有竞争力的TTC和EP得分(94.4和79.1),从而总体PDMS得分为85.2。这表明,通过大规模视频预训练的单摄像头编码器可以媲美那些利用显著更丰富的传感器套件的专用BEV系统。

图7. LFG与 的完整点云重建定性比较。当前相机姿态用蓝色表示,未来姿态用红色表示。LFG点地图即使在未来帧中也保留了整体几何质量,并且预测的相机运动仍然精确。虚线红色轮廓表示没有真值图像输入的预测帧,完全由模型的未来token生成。

图8. 运动伪真值的失败案例。运动预测(LFG vs Pseudo)与对应RGB帧的定性比较。在此场景中,伪真值错误地预测了最左侧的车辆正在移动,而实际上它是静止的。LFG正确预测了左侧的静态停放车辆和其前方的动态车辆。
表7. NAVSIM上组件和缩放消融实验 。

总体而言,LFG直接从真实世界中未摆拍的驾驶视频中学习,并且得益于其强大的预训练编码器,即使仅使用单个前视摄像头,也能实现具有竞争力的规划性能。为了公平起见,本文将LFG与使用多摄像头+LiDAR和单摄像头输入的DiffusionDrive-DINOv2变体进行比较,在这种设置下,LFG依然表现更优。对于未来方向,LFG目前仅预测短期未来(3–6帧),将自回归模块扩展到更长或多尺度的时间范围内可能会提升远距离推理能力。其次,本文仅使用单个前视摄像头,这反映了大多数真实世界的驾驶视频只提供一个视角的事实;尽管这一设置已经突显了基于视频的几何先验的优势,但引入多视角线索可能在复杂场景中进一步提高鲁棒性。随着像最近发布的PhysicalAI-Autonomous-Vehicles数据集[3]这样的更大规模多摄像头数据集变得可用,探索多视角训练代表了一个有前景的未来研究方向。