Waymo World Model:自动驾驶仿真的三大技术突破
文|祝融
编辑|郭嘉
01 跨模态迁移:将2D视频知识转为3D激光雷达世界Waymo World Model最核心的创新在于实现了一个看似不可能的跨越——将Genie 3从2D视频中学到的"世界常识"转化为自动驾驶必需的3D激光雷达感知数据。Genie 3原本在海量互联网视频上预训练,学会了物体如何运动、光影如何变化、场景如何保持连贯性等基础物理规律。但这些知识都停留在视觉层面,缺乏自动驾驶系统真正需要的精确深度信息。Waymo和DeepMind团队开发的专门后训练流程(specialized post-training)解决了这个难题。该流程强制模型在生成每一帧画面时,必须同时输出相机图像和激光雷达点云两种模态的数据,并且两者在时间和空间上完全同步对齐。相机提供丰富的视觉细节和光照信息,激光雷达则补充精确的几何深度数据。这种双模态联合生成确保了仿真数据能够被Waymo的下游感知、规划系统直接消费,就像处理真实传感器采集的数据一样。这一技术的实际价值在于彻底打破了数据边界。现在工程师可以拿任意一段普通行车记录仪视频或手机拍摄的路况片段,输入系统后立即获得完整的多传感器仿真环境——系统会自动补全对应的激光雷达深度数据。传统自动驾驶仿真技术如3D高斯溅射(3D Gaussian Splatting, 3DGS)本质上是重构式方法,只能精确回放已经录制过的驾驶路线。一旦车辆偏离原始轨迹,画面立即出现视觉崩溃——因为那些角度和位置没有实际观测数据支撑。这种方法严重限制了仿真的灵活性,工程师只能测试"如果我在那个路口选择了右转而非左转"这类微小变化,无法进行大幅度的路径探索。Waymo World Model采用完全不同的生成式范式。模型通过学习场景的统计规律和物理约束,而非简单记忆具体画面,获得了在任意路径上保持视觉一致性和物理合理性的能力。这种方法的核心优势体现在反事实推理能力上——在同一个起点和初始场景下,系统可以测试完全不同的驾驶决策序列,并生成对应的合理演化结果。比如在遇到前方车辆突然减速时,可以分别模拟"激进超车"、"保持车距跟随"、"提前变道"三种不同决策的完整后果,帮助工程师评估哪种策略更安全高效。系统提供了三种精准控制机制来实现这种灵活性。这三种机制可以组合使用,构建出传统方法根本无法实现的复杂测试场景。- 驾驶动作控制允许工程师输入具体的油门、刹车、转向指令,模型会根据这些指令生成场景的响应式演化。
- 场景布局控制则允许手动编辑道路配置、交通信号灯状态、其他车辆和行人的位置及行为模式,从而构建高度定制化的测试场景。
- 语言控制方面,工程师只需用自然语言描述就能改变仿真条件,比如"把时间改为黄昏"、"增加大雨天气"、"在前方100米处放置一头大象",系统即可生成对应的多传感器仿真数据。
Waymo车队虽然已经积累了近2亿英里的真实驾驶数据,但仍然存在大量极其罕见但关键的长尾场景从未被观测到。这些场景可能几千万英里才遇到一次,却往往是安全性的关键考验。传统仿真方法受困于"只能模拟见过的场景"这一根本限制,而Waymo World Model通过继承Genie 3的泛化能力,实现了对未见场景的零样本生成。Genie 3在互联网规模的视频数据上预训练时,虽然这些视频不是驾驶场景,但模型已经学会了龙卷风如何旋转、大象如何移动、雪如何覆盖表面、洪水如何淹没街道等物理现象的基本规律。Waymo的后训练过程将这些"世界知识"迁移到驾驶场景中,使得模型能够生成车队从未遇到过的极端情况。展示案例包括金门大桥降雪、热带城市棕榈树街道异常降雪、郊区街道被洪水完全淹没、道路旁突然出现龙卷风等极端天气场景,以及路上遇到大象、德州长角牛、狮子等野生动物,甚至还有穿着恐龙服装的行人、房车大小的风滚草、家具从卡车上滑落、逆行车辆、车辆冲出道路等安全临界事件。这种能力的技术原理在于Genie 3的自回归架构和长时序记忆机制。Genie 3采用逐帧生成的自回归方式,每一帧都基于之前所有帧的历史状态来预测,这使得模型能够维持长达数分钟的场景连贯性,视觉记忆可以追溯到一分钟之前的内容。当用户在虚拟环境中导航时,如果离开一个区域后再返回,模型能够准确重现之前生成的场景细节——树木、建筑物、其他车辆都会出现在正确的位置。这种持久性记忆对于模拟复杂的驾驶任务至关重要,比如在拥堵路段连续变道、在狭窄街道与对向来车协商通行等需要长时间观察和决策的场景。Waymo还开发了高效变体模型来解决长时序仿真的计算瓶颈。标准的生成式模型在模拟较长场景时会面临质量衰减和算力消耗剧增的双重挑战。高效变体通过架构优化,在保持视觉真实性和物理一致性的前提下,大幅降低了计算成本,使得模拟完整的高速公路驾驶、复杂的城市街区导航、陡峭山路行驶等长时间连续场景成为可能。官方展示的案例包括在高速公路上应对车道内停车障碍物并处理快速车流、在繁忙社区街道导航、在陡峭街道上安全超越摩托车骑手、应对SUV突然掉头等复杂场景,这些都是4倍速播放的长时间仿真结果。这三大技术突破共同构成了Waymo World Model的核心竞争力——它不仅仅是一个视频生成器,而是一个可交互的、物理一致的、多传感器的世界模拟器。