点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达
本文经作者授权发布 | 来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!
标题:HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation
作者:Xin Zhou, Dingkang Liang, Xiwu Chen, Feiyang Tan, Dingyuan Zhang, Hengshuang Zhao, Xiang Bai
机构:Huazhong University of Science and Technology、Mach Drive、University of Hong Kong
论文:https://arxiv.org/abs/2604.28196
代码:https://github.com/H-EmbodVis/HERMESV2
驾驶场景模型通过模拟环境动态,成为实现自动驾驶的关键技术。然而,现有方法大多侧重于未来场景的生成,而忽视了对3D场景的全面理解。另一方面,虽然大型语言模型具备出色的推理能力,但它们无法预测几何形态的未来变化,这就导致了语义解析与物理模拟之间的巨大差距。为弥补这一缺陷,我们提出了HERMES++这一统一驱动场景模型,它将3D场景理解与未来几何形态预测整合在同一个框架中。我们的方法通过巧妙的设计来满足这两项任务的各自需求:首先,采用BEV表示法将多视角空间信息转化为适合大型语言模型处理的格式;其次,利用大型语言模型来辅助场景信息的处理,从而实现知识的有效传递;第三,设计了一种“从当前到未来的过渡机制”,使几何形态的变化能够与语义背景相协调;最后,通过联合几何优化算法,将显式的几何约束与隐式的规则约束相结合,确保内部表征与几何规律保持一致。多项测试结果表明,HERMES++的表现十分出色,在未来点云预测和3D场景理解方面均优于现有的专门解决方案。
(a)以往的驾驶世界模型侧重于生成式场景演化预测。 (b)用于驾驶的大语言模型仅限于场景理解能力。(c)所提出的框架将3D场景理解与场景演化生成整合至BEV表征中。 (d)与专门的专业方法进行的量化比较

驾驶世界模型通过模拟环境动态,在提升自动驾驶可靠性方面展现出巨大潜力。这些模型使车辆能够预测风险并优化决策。现有研究主要聚焦于预测场景演变,目标要么是视觉外观变化,要么是3D几何形变。前者捕捉视觉纹理,而后者(通常以点云为代表)则保留了物体与周围环境之间明确的几何关系。保持精确的3D结构对于需要精确空间推理的下游任务至关重要,因此成为描述场景演变的理想选择。尽管场景生成取得了进展,现有方法的一个关键局限在于它们理解3D场景的能力有限。虽然能够预测合理的未来状态,但它们常常无法阐明驱动预测演变的语义背景或因果因素。驾驶世界模型擅长预测环境变化,但缺乏回答直接查询(例如视觉问答、场景描述)的内在机制。这种预测与解释之间的脱节造成了显著的能力缺口,因为对真实驾驶至关重要的情境感知在以生成中心的架构中仍未得到解决。
此外,视觉-语言模型(VLM)的最新进展通过利用大规模预训练中的世界知识和因果推理,在通用视觉任务中展示了卓越的能力。当适配到自动驾驶场景[15][16][17]时,这些模型擅长解释复杂的驾驶环境、回答关于交通参与者的查询、生成全面的场景描述以及推理实体之间的空间关系。例如,OmniDrive将3D表示与语言模型相结合用于视觉问答,而DriveLM则采用基于图的推理进行场景理解和规划。然而,这些以语言为中心的方法优先理解当前状态,缺乏预测场景几何将如何演变的能力。这种缺陷在安全关键场景中至关重要,因为避免碰撞需要同时预测当前情境和未来变化。
受这两种范式互补优势和局限性的启发,我们提出一个世界模型应无缝集成3D场景理解与精确的未来几何预测。构建这样一个统一的框架需要仔细考虑两个关键方面。首先,合适的3D表示对于有效处理文本理解和多视图空间关系至关重要。这种表示必须将观测信息整合到一种既能保持几何交互又能与基于令牌的语言模型兼容的结构中。其次,需要一种交互机制来弥合理解与未来生成之间的差距。这确保语义理解指导几何演变,同时几何预测为语言生成提供基础,超越多任务特征共享。此外,保持预测场景演变的一致性具有挑战性,因为仅基于未来观测的监督常常只提供显式约束,导致结构不一致。
基于这些观察和分析,本文提出了一个统一的驾驶世界模型,集成了理解与生成任务,称为HERMES++。HERMES++建立在鸟瞰图(BEV)表示之上,该表示自然地整合了多视图空间信息,同时确保了与大型语言模型(LLM)的兼容性。对于连接机制,我们引入了由LLM增强的世界查询,将世界知识从文本理解迁移到未来场景生成。这些查询通过一个“当前到未来连接”模块与经过LLM处理的BEV特征进行交互,确保预测的场景演变基于几何上下文和语义推理。具体来说,BEV表示在处理高分辨率多视图输入时减轻了令牌长度限制的影响。BEV分词器不是直接将多个视图转换为令牌,而是在两个阶段中整合它们。首先,一个视觉编码器使用交叉注意力将多视图图像转换到BEV空间,在保持空间信息的同时压缩高维输入。其次,BEV特征被下采样并展平为与LLM兼容的令牌。这种方法在保持一致坐标系中几何关系的同时减少了冗余。为了严格强制预测场景演变中的几何一致性,我们进一步提出了一种联合几何优化策略。该机制将对点云的显式几何约束与对潜在流形的隐式几何正则化相结合。通过将表示对齐到几何感知的先验,我们的方法确保了整个生成过程中的结构完整性。此外,我们引入了一种知识迁移机制,连接场景理解与未来演变预测。为此,我们直接从LLM处理之前的BEV特征初始化世界查询。这些查询利用因果注意力从文本令牌中聚合丰富的世界知识和语义上下文。然后,这些查询与LLM编码的BEV特征交互,通过一个称为“当前到未来连接”的模块生成未来时间戳的潜在表示。在这个连接中,我们提出了一种文本注入机制,将文本嵌入作为条件信号集成,使语义信息能够直接调制生成过程。此外,我们基于未来的自运动自适应调整空间特征分布。这有效地将运动与固有的场景动态解耦,确保了跨预测范围的可控性。
通过在单个框架内进行3D场景理解和未来场景生成,HERMES++建立了一个统一的表示,能够无缝容纳这两个任务,为驾驶环境提供了一个整体视角。这标志着向统一驾驶世界模型迈出了重要一步,展示了集成式驾驶理解与生成的可行性。大量实验验证了HERMES++在两个任务上的有效性。值得注意的是,在具有挑战性的3秒点云生成任务上,与领先方法DriveX[18]相比,我们的方法显著降低了8.2%的误差。此外,对于理解任务,在OmniDrive-nuScenes数据集[15]的CIDEr指标上,它比先前的专家基线Omni-Q[15]高出9.2%。总体而言,本文对统一驾驶世界模型进行了早期而扎实的探索。通过分析3D场景理解和未来几何演变预测的不同需求,我们设计了关键组件,包括统一表示、世界查询和联合几何优化策略。我们希望这项工作能为可解释和可预测的自动驾驶系统这一新兴领域奠定基础。我们的主要贡献总结如下:
本文是我们发表在ICCV 2025上的会议论文的扩展版本,我们做出了以下新贡献:1) 不同于仅依赖显式点云约束的会议版本,我们引入了联合几何优化策略。通过在潜在空间上加入隐式正则化,该方法构建了几何感知的表示,有助于更精确的点云解码,从而提升了未来生成性能。2) 我们通过引入文本注入机制强化了知识迁移。这将文本嵌入作为显式条件信号集成,使从语言模型中获得的语义推理能够直接指导未来场景演变的预测。3) 为了增强生成可控性,我们基于未来的自运动自适应调整空间特征分布,有效将相机运动与固有场景动态解耦。4) 通过这些技术进步,我们的模型相比会议基线实现了显著的性能提升。具体而言,与会议版本相比,我们观察到生成误差降低了13.7%,并且场景理解指标持续改进。5) 我们在多个方面改进了稿件质量。我们在三个额外基准上扩展了评估以验证泛化能力。此外,我们提供了更详细的消融研究,并深入讨论了统一架构的可扩展性以及理解与几何演变之间的内在协同作用。这些分析不仅证实了我们的技术贡献,也为基础世界模型在可解释自动驾驶中的潜力提供了见解。
图2展示了HERMES++的整体框架,该框架无缝集成了基于语言的推理与几何生成。流程首先将多视图图像转换为BEV表示,随后将其压缩为与大型语言模型兼容的视觉令牌。这些令牌与用户指令和可学习的世界查询连接后,由LLM处理以生成文本响应,同时将语义上下文聚合到查询中。在此之后,“当前到未来连接”将编码后的BEV特征传播到未来时间戳,条件信号来自增强后的查询、文本嵌入和自运动。最后,一个共享的重建器从预测的特征中重建点云。为了严格强制结构完整性,我们采用了联合几何优化策略,该策略将对重建点云的显式几何约束与对潜在流形的隐式几何正则化相结合。通过这个统一的流程,HERMES++有效地弥合了感知与预测之间的鸿沟,利用世界知识直接指导未来场景的演变。

在本节中,我们对HERMES++在NuScenes和OmniDrive-nuScenes基准上的表现进行全面评估。我们将我们的框架与三类基线进行比较:1) 生成专家模型;2) 理解专家模型;3) 我们的会议版本。表II详细列出了定量比较结果,我们得出以下观察:
(1).HERMES++在3秒未来场景生成方面显著优于专用专家模型。表II中的定量结果表明,我们的方法实现了更优越的几何预测精度。与领先的生成方法(如4D-Occ[47]和ViDAR[7])相比,HERMES++仅使用当前帧观测就取得了更好的性能。具体来说,在3秒时间点上,与ViDAR相比,我们将倒角距离(CD)降低了41.6%。即使与最近提出的DriveX[18]相比,我们的方法仍保持优势,在3秒时间点上的CD降低了0.09。通过使用多组世界查询为未来BEV状态注入条件上下文,我们的模型有效利用语义信息实现了更精确的场景演变预测。
(2).HERMES++在没有辅助监督的情况下实现了极具竞争力的理解能力。在3D场景理解领域,HERMES++在保持高数据效率的同时,持续优于专家模型。如OmniDrive[15]所示,加入辅助监督(例如3D目标检测和车道检测)可增强模型的语义能力。然而,如表II所示,HERMES++仅通过BEV表示和标准指令微调,未引入任何检测或地图监督,就取得了优越的性能。具体而言,在CIDEr指标上,我们分别超过Omni-L和OmniDrive-2D 2.3%和11.6%,并在METEOR和ROUGE分数上取得了一致的提升。我们将这一改进归因于BEV表示的几何特性以及提出的任务交互机制。像Omni-Q和ORION这样的基线通常使用稀疏查询(例如通过Q-Former3D[89])来提取场景信息。虽然有效,但这些方法常常受益于辅助监督来指导特征学习,以补偿稀疏观测捕获的有限几何上下文。相比之下,HERMES++使用BEV,它天然保留了丰富的语义信息和几何交互,使得模型能够在没有外部指导的情况下学习有效的场景表示。

此外,我们将HERMES++与我们的会议版本进行了系统比较。虽然会议版本已经取得了非常有竞争力的结果,但HERMES++在两个任务上都建立了新的最先进水平。如表II所示,这些升级使得3秒生成误差降低了13.7%,同时理解指标也有所提升,证明了新引入的技术改进所带来的更深层次任务交互的有效性。
此外,我们的框架受益于模型缩放。将LLM参数增加到38亿,在两个领域都带来了改进,进一步将生成误差降低到0.97,并将CIDEr分数提升到0.772。这种正相关性表明,我们的统一建模方法有效地内化了空间-语义表示来解释复杂的驾驶场景,从而弥合了几何感知与语言理解之间的差距。

在本文中,我们提出了HERMES++,一个统一的驾驶世界模型,集成了3D场景理解与未来几何预测。通过利用BEV表示,我们将多视图视觉信息有效地整合为与LLM兼容的格式。为了促进语义推理与几何演变之间的交互,我们引入了由LLM增强的世界查询以实现知识迁移。然后,这些查询通过“当前到未来连接”与LLM编码的BEV特征交互,生成未来时间戳的潜在表示。为了进一步确保预测未来的结构一致性,我们设计了一种联合几何优化策略,将显式几何约束与隐式潜在正则化相结合,使内部表示与几何感知的先验对齐。广泛的评估验证了我们方法的有效性。HERMES++实现了强劲的性能,在生成和理解任务上均优于专家模型。我们希望这项工作能为未来可解释和可预测的驾驶系统研究奠定坚实的基础。
局限性与未来工作。虽然本文对统一驾驶世界模型进行了扎实的探索,但如何利用预训练多模态大模型中封装的语义先验来处理BEV输入仍需进一步研究。此外,将生成范式扩展到多种模态为全面的场景模拟提供了一个有前景的方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。



添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。