
点击下方卡片,关注“自动驾驶之心”公众号
编辑 | 自动驾驶之心
本文只做学术分享,如有侵权,联系删文
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
Waymo上周五晚些更新了一些新的技术进展,本着周末让大家好好休息的原则,所以柱哥周末没卷大家(不是)。本次更新主要是Waymo世界模型的一些的内容,核心是利用Google DeepMind Genie3的生成能力做闭环仿真(Camera + Lidar)。今天给大家分享一下~

柱哥还会在星球内部讨论Waymo一些其他的技术信息,欢迎大家加入交流,春节期间还有少量优惠券...

Waymo自动驾驶系统的完全自动驾驶里程已近2亿英里,成为美国主要城市交通脉络的重要组成部分,持续提升道路安全水平。而乘客与当地社区未曾看到的是,这套系统早已在虚拟世界完成了数十亿英里的仿真行驶,在现实道路遭遇复杂场景前,就已将其悉数掌握。今日,我们欣喜地推出Waymo世界模型——一款前沿生成式模型,为大规模、超写实的自动驾驶仿真树立了全新标杆。
仿真是Waymo人工智能生态系统的核心组成部分,也是我们打造可验证安全人工智能体系的三大关键支柱之一。下文将详细介绍的Waymo世界模型,正是负责生成超写实仿真环境的核心模块。
更多信息见:Waymo的基座模型分享:快慢双系统端到端 & 世界模型仿真
Waymo世界模型基于谷歌深度思维研发的新一代通用世界模型“Genie3”打造,该基础模型可生成真实的交互式三维环境,我们针对自动驾驶领域的严苛需求完成了专属适配。借助Genie3积淀的海量世界认知能力,Waymo世界模型能够仿真各类极罕见场景——从龙卷风天气到偶遇大象,这些场景在现实中几乎无法大规模捕捉。模型架构具备高度可控性,工程师仅通过简单的文本指令、驾驶操作参数和场景布局设置,即可对仿真内容进行调整。值得一提的是,Waymo世界模型可生成高保真多传感器输出数据,涵盖摄像头视觉数据与激光雷达点云数据。
视觉&激光仿真更贴合Waymo实际的仿真需要,对于纯视觉方案来说,点云重建不是必须。国内主要做的是视觉重建,像理想(StreetGaussian)、小米(WroldSplat)、英伟达(OmniRe),Lidar重建工作不是很多,也推荐几个世界模型的汇总仓库仓库一:https://github.com/worldbench/awesome-3d-4d-world-models仓库一:https://github.com/LMD0311/Awesome-World-Model
海量的世界认知、精细化的可控能力与多模态的真实感相结合,大幅提升了Waymo在更多地区、全新驾驶环境中安全落地服务的能力。在下文内容中,我们将展示Waymo世界模型的实际应用效果,呈现系统应对各类罕见边缘场景的仿真行驶案例。
自动驾驶行业的多数仿真模型均仅依托采集的道路实测数据从零开始训练,这就导致系统的学习经验存在局限性。Genie3通过在海量多元视频数据上完成预训练,积淀了强大的世界认知能力,让我们得以探索车队从未直接观测到的各类场景。
通过专属的后训练环节,我们将这种海量的世界认知能力从二维视频数据,转化为适配Waymo专属硬件套件的三维激光雷达输出数据。摄像头擅长还原视觉细节,而激光雷达传感器能提供精准深度信息等高价值互补信号。Waymo世界模型可针对任意场景生成多模态传感器数据,无论是日常常规驾驶,还是各类罕见的长尾场景,均能实现全覆盖。
仿真场景1:行驶在薄雪覆盖的金门大桥,前视摄像头画面中可清晰看到车辆投影。
仿真场景2:遭遇龙卷风天气。
仿真场景3:郊区死胡同被积涝完全淹没,水面漂浮着各类家具。
仿真场景1:遭遇道路上的鲁莽驾驶车辆。
还提供了一些其他的例子:
仿真场景1:偶遇温顺的大象。
还提供了一些其他的例子:
Waymo世界模型主要通过三种机制实现强大的仿真可控性:驾驶行为控制、场景布局控制与文本指令控制。
驾驶行为控制可让仿真系统响应精准,严格遵循设定的驾驶操作参数。借助这一功能,我们能够仿真各类“假设性”反事实场景,例如在某一特定场景下,Waymo自动驾驶系统若选择更果断的行驶策略而非避让,是否仍能保障安全。
反事实驾驶仿真:我们可基于历史实测行驶的原始路线,或完全全新的路线开展仿真。传统重构式仿真方法(如3DGS)存在明显短板——当仿真路线与原始行驶路线偏差过大时,会因观测数据缺失出现视觉失真;而全自学习的Waymo世界模型凭借强大的生成能力,可在该类场景下保持良好的真实度与一致性。
场景布局控制支持对道路布局、交通信号灯状态及其他道路参与者的行为进行自定义设置。通过这一功能,我们可通过精准布置道路参与者、对道路布局进行自定义改造,打造专属仿真场景。
场景布局适配效果

文本指令控制是灵活性最高的工具,通过该功能,我们可调整仿真的时段、天气条件,甚至生成全新的合成场景(如前文展示的各类长尾场景)。
场景属性改造——时间调整
场景属性改造——天气调整
人们在风景优美的路段行驶时,常会用手机或行车记录仪记录沿途画面,可能拍下积雪堆、日落时分的高速公路等场景。Waymo世界模型可将这类行车记录仪视频,或普通相机拍摄的任意视频,转化为多模态仿真场景,还原Waymo自动驾驶系统对该真实场景的感知效果。由于这类仿真场景源自实际影像素材,其真实度与还原度达到了最高水平。
部分待仿真的场景需要更长的行驶时长才能完成,例如在窄车道中小心避让通行。这类仿真的实现难度更高,因为仿真时长越长,计算量需求越大,保持画质稳定的难度也越高。不过,基于Waymo世界模型的轻量化优化版本,我们能够在大幅降低计算量的同时,实现长时程场景仿真,且保持高真实度与高保真度,为大规模仿真提供技术支撑。
通过对这些“现实中极难遇见”的场景开展仿真训练,我们让Waymo自动驾驶系统提前对各类罕见复杂场景做好应对准备。这一方式构建了更严格的安全基准,确保系统在现实道路遭遇各类长尾挑战前,就已具备成熟的应对能力。
Waymo的世界模型强调的是生成式方法,看似和国内生成+重建的路子不一样。但从文中一些有限的信息来看,柱哥猜测也用了3DGS,下图红色箭头是3DGS特有的新视角伪影。

还可以看出一些端倪,下图红色箭头围栏的效果还可以,近处的围栏的点云效果就比较差了。这也是生成式方法固有的弊端,虽然给了很多layout和条件,生成的质量其实不太可控,猜测Waymo应该也是加了Depth的监督,这种镂空状的栏杆/栅栏其实很难做。但整体点云效果还是可以的。

柱哥个人观点:Waymo这两个月的技术分享频率挺高,希望大家看到自己技术能力的迭代,但还没有敞开心扉把一些硬菜呈现给大家。本文算是前一阵Waymo基座模型的世界模型仿真模块,整体上和国内的方向一致,也欢迎大家在评论区分享自己的观点和补充柱哥可以落下的技术细节。
自动驾驶之心



求点赞

求分享

求喜欢
