据AutoTech News报道,Waymo正利用基于谷歌DeepMind最先进技术构建的全新生成模型,大幅提升其虚拟测试环境的真实性和覆盖范围。新发布的Waymo世界模型利用DeepMind的Genie 3生成超逼真的多模态模拟,使其自动驾驶系统能够应对几乎任何场景——包括极其罕见的事件,例如龙卷风、街道被淹,甚至是路上出现大象。
此举凸显了模拟技术在Waymo以安全为核心的人工智能开发中的关键作用。Waymo Driver目前已在公共道路上完成了近2亿英里的完全自动驾驶里程,而在虚拟世界中,它的行驶里程更是高达数十亿英里。全新的世界模型旨在让这些模拟里程比以往任何时候都更有价值、更多样化、更易于控制。
Waymo世界模型的关键优势在于其基于Genie 3平台,该平台预先训练了来自互联网的海量且多样化的视频数据。这赋予了系统Waymo所谓的“涌现式多模态世界知识”——对视觉和物理概念的理解远远超出其自身车队收集的数据范围。通过专门的后训练,Waymo将这种庞大的二维世界知识转化为精准的三维激光雷达输出,并针对其专有的传感器套件进行定制,从而创建出能够反映真实世界感知的互补型摄像头和激光雷达数据。
其结果是,车队拥有了前所未有的能力来生成和探索车队从未直接遇到的情况,超越了对已记录事件的重建,生成了全新的、合理的场景。
工程师们拥有三种强大的手段来塑造模拟环境,从而进行针对性的测试:
· 驾驶行为控制:创建一个响应式模拟器,用于测试“假设”反事实情况,从而评估驾驶员在过去的情况下是否可以更有信心地采取行动或采取替代行动。
· 场景布局控制:可自定义道路布局、交通信号状态以及其他道路使用者的行为,从而有助于创建特定的、具有挑战性的场景。
· 语言控制:提供最灵活的工具,使用简单的文本提示来调整一天中的时间、天气状况或生成完全合成的场景。
这种高度可控性使得Waymo能够系统地对其系统进行压力测试,以应对不常见的极端情况和常见事件的细微变化。
该模型还引入了一项实用的扩展功能:将普通行车记录仪或手机视频转换为多模态模拟。这一过程展示了Waymo驾驶员如何利用自身传感器感知新场景,从而无需事先部署全套传感器即可在全新环境中生成高保真、真实的模拟场景。对于扩展到新城市而言,这代表了一种潜在的强大工具,可用于早期体验和测试。
考虑到模拟长时间场景的计算挑战,Waymo还开发了一种更高效的模型变体。这种精简版模型在保持高度真实性和保真度的同时,显著降低了计算需求,从而能够大规模模拟长时间的交互,例如在狭窄车道上行驶。
虽然Waymo并非唯一一家致力于生成式世界模型的公司,Wayve(其GAIA-1模型)、Waabi(Copilot4D)和Nvidia(Cosmos)等公司也做出了显著努力。但Waymo与DeepMind的基础研究深度融合,并专注于完整的传感器套件(摄像头+激光雷达),这使得Waymo世界模型成为一项重要的前沿进步。