当前位置：首页>自动驾驶>挑战自动驾驶“铁律”!清华&小米提出DVGT,直接输出真实世界3D地图

挑战自动驾驶“铁律”!清华&小米提出DVGT,直接输出真实世界3D地图

2026-04-16 04:36:38

编辑 | 3DCV

点击下方卡片，关注“3D视觉之心”公众号

自动驾驶的“眼睛”——环境感知系统，正变得越来越强大。但长期以来，纯视觉方案始终面临一个棘手的难题：如何从2D图像中，既准确又高效地复原出带真实物理尺寸（即“度量尺度”）的3D世界？ 许多方案都严重依赖精确的相机参数（内外参），一旦更换3车型或摄像头，模型就可能“水土不服”，需要重新标定和适配，费时费力。

最近，来自清华大学和小米汽车等机构的研究者们，带来了一项颇具突破性的工作——DVGT (Driving Visual Geometry Transformer)。它像一个经验丰富的老司机，能仅凭多路摄像头记录的“行车录像”，就直接在脑中构建出一个真实大小、无需后期校准的3D世界地图。

DVGT的命名直截了当，意为“为自动驾驶设计的视觉几何Transformer”。它的核心贡献在于，提出了一种能从无位姿、无标定参数的多视角图像序列中，直接端到端预测出带有度量尺度（metric-scaled）的全局3D点图和车辆自身位姿的框架。这意味着，DVGT向着“即插即用”的通用3D感知迈出了重要一步，尤其在离线数据自动化生产（Auto-labeling）和仿真场景构建领域具有巨大潜力。

论文标题：DVGT: Driving Visual Geometry Transformer
所属机构：清华大学，小米汽车，澳门大学，北京大学
论文地址：https://arxiv.org/abs/2512.16919
代码仓库：https://github.com/wzzheng/DVGT
项目主页：https://wzzheng.net/DVGT

“无米之炊”：DVGT如何摆脱几何先验？

传统的多视角3D感知方法，通常遵循一个“标准流程”：首先利用已知的相机内外参数，将2D图像特征“投影”或“提拉”（Lift）到一个三维空间（如BEV视空间）。这个过程强依赖于 Lift-Splat-Shoot 或空间变换器（View Transformer）等模块，相机参数一旦不准，模型性能便会大打折扣。

DVGT则另辟蹊径，它的设计哲学是“去几何先验化”。整个模型在结构上完全不包含任何与相机参数、2D到3D投影相关的显式设计。

如上图所示，DVGT的流程可以概括为：

输入：一个连续时间段内，车辆周围多个摄像头拍摄的图像序列（例如，16帧 x 8视角）。重要的是，这些图像不需要提供精确的相机位姿和内外参数。
特征提取（大模型赋能）：使用强大的预训练视觉基础模型（如 DINOv3）作为骨干网络。正是得益于Foundation Model强大的语义理解和密集特征表达能力，模型才有可能在缺乏几何约束的情况下“隐式”学会3D结构。
核心处理（几何Transformer）：这是DVGT的“大脑”。它由一系列精心设计的注意力模块堆叠而成，负责理解时空几何关系。
输出：模型最终通过两个并行的“头”，分别解码出：

全局3D点图：注意，这里的“全局”指的是以输入序列第一帧为中心的局部统一坐标系（Ego-coordinate of the first frame），而非绝对地理坐标。
自车位姿（Ego-Pose）：每一帧相对于第一帧的车辆运动轨迹。

独创的分解式时空注意力

完全抛弃几何先验，意味着模型必须拥有更强的从数据中自主学习空间关系的能力。如果让所有图像的所有特征 Token 之间都进行全局注意力计算，计算量将是天文数字。

为此，DVGT提出了一种高效的分解式时空注意力（Factorized Spatial-Temporal Attention）机制。它将原本复杂的全局信息交互，拆解为三个目标明确的步骤：

视内局部注意力：精炼单张图片的细节。
跨视空间注意力：理解同一时刻不同摄像头（前、后、侧）的空间一致性。
跨帧时间注意力：捕捉时间维度上的动态与静态信息。

这种分解设计显著降低了计算复杂度，使得在有限显存下处理长序列视频成为可能。

如上图所示，这种分解方式（左）相比于全局注意力（右），大幅降低了计算复杂度，使得模型在保持强大感知能力的同时，也兼顾了效率。

实验效果：精度与效率的权衡

为了训练DVGT，研究团队构建了一个超大规模的混合驾驶数据集，整合了nuScenes, OpenScene, Waymo, KITTI, 和DDAD五大公开数据集。

3D重建：精度大幅领先，免去后处理

在3D场景重建精度上（上图雷达图），DVGT（红色区域）在所有五个测试数据集上均全面包围并超越了其他主流方法（如VGGT, CUT3R）。

关键突破在于：表格中带有 * 号的模型（如VGGT），其输出结果通常是无尺度的，必须经过一个“后处理”步骤——与稀疏的激光雷达点云进行对齐（Scale Alignment）才能使用。而DVGT直接输出带有真实物理尺度（米）的点云，完全省去了对齐外部传感器的步骤。

关于“速度”的客观解读

论文数据显示，DVGT处理128张图片（16帧 x 8视角）的推理时间约为 4.0秒。

对于车载端：这个速度（约0.25FPS）距离实时在线感知（通常要求10Hz以上，即<0.1s）仍有较大距离。
对于离线端：这却是一个巨大的胜利。相比于基于NeRF或3D Gaussian Splatting的传统重建优化方法（往往需要数分钟甚至数小时），DVGT将重建速度提升了几个数量级。这意味着它非常适合用于离线高精地图构建、Corner Case自动挖掘以及大规模数据的自动标注。

自车位姿估计

除了场景重建，DVGT还能同时精准地估计车辆自身的运动轨迹。

结果显示，DVGT在OpenScene和DDAD数据集上的位姿估计性能最优，在nuScenes和Waymo上也达到了与SOTA方法相当的水平，证明了其作为一个综合视觉几何模型的强大实力。

写在最后

DVGT的提出，为自动驾驶的纯视觉感知路线提供了一个非常有力的新思路。

目前该工作的代码已经开源，对于从事3D重建、SLAM以及自动驾驶数据闭环的朋友来说，值得一试。

https://github.com/wzzheng/DVGT

本文仅做学术分享，如有侵权，请联系删文。

【3D视觉&具身智能】技术交流群

扫码添加小助理进群

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区，也是最专业最大的交流平台，近2000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、Diffusion Policy、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、各类学习路线等，涉及当前具身所有主流方向。

扫码加入星球，享受以下专有服务：

1. 第一时间掌握具身智能相关的学术进展、工业落地应用；2. 和行业大佬一起交流工作与求职相关的问题；3. 优良的学习交流环境，能结识更多同行业的伙伴；4. 具身智能相关工作岗位推荐，第一时间对接企业；5. 行业机会挖掘，投资与项目对接；

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

挑战自动驾驶“铁律”!清华&小米提出DVGT,直接输出真实世界3D地图