Waymo,这家谷歌旗下的自动驾驶公司,本周扔下了一枚重磅炸弹。
它发布了基于 Google DeepMind 最新世界模型 Genie 3 构建的「Waymo World Model」。
如果你还在用传统视角理解自动驾驶竞争,这次可能真的要更新认知了。
因为这不再是“谁的数据多”的问题,而是——
谁拥有整个互联网。
一场根本性的路径分歧
就在不久前,Tesla AI 副总裁 Ashok Elluswamy 用 30 分钟展示了特斯拉的技术路线。
Elluswamy 形容这是一场“数据的尼亚加拉瀑布”。
而 Tesla 的核心逻辑很清晰:
现实驾驶 → 采集数据 → 高保真重建 → 提取模式 → 优化模型
但这条路径有一个天然约束:
它只能学习发生过的事情。
Waymo 选择了另一条路线。
YouTube,成了自动驾驶训练场
Waymo 的世界模型基于 DeepMind 的 Genie 3。
这个模型并非从 Waymo 车队数据中生长出来,而是预训练于——
整个互联网视频数据。
尤其是 YouTube。
想象一下:
数十亿小时的自然世界录像
光影变化
物体运动
液体流动
极端天气
事故现场
动物横穿道路
奇异场景
这不是普通数据。
这是“物理世界的视觉百科全书”。
Genie 3 不只是理解像素,它理解概念。
它知道什么是雪,什么是桥,什么是风暴。
于是它可以生成现实中从未发生的场景:
六月的金门大桥飘雪
热带棕榈树被暴雪覆盖
城市道路洪水中漂浮家具
龙卷风正在形成
大象挡在路中央
飞机迫降高速公路
这些场景,可能极其罕见。
但它们属于自动驾驶系统最危险的“长尾风险”。
而 Waymo,可以按需生成。
生成,而不是等待
这是核心差异。
Tesla 的系统依赖真实车队遇到边缘场景。
Waymo 的系统可以:
用语言描述场景 → 直接生成多传感器仿真数据
更关键的是——
Waymo 的世界模型不仅生成视频。
它可以从普通视频中推理生成 LiDAR 点云数据。
这意味着:
任意一段 YouTube 公路旅行视频
任意一次极端天气记录
任意事故现场画面
都可以被转换为多摄像头 + LiDAR 的仿真训练素材。
换句话说:
互联网视频正在被转化为自动驾驶训练数据。
重建 vs 生成:两种哲学
我们可以用一句话总结这场技术对决:
Tesla 在“重建现实”
Waymo 在“创造可能”
Tesla 的优势
与真实硬件深度耦合
36 FPS 高帧率闭环系统
感知到控制高度集成
仿真精度极高
Waymo 的优势
无限长尾场景覆盖
语言控制生成能力
多模态传感器合成
摆脱地理与气候边界
一个优化“真实性”。
一个优化“准备度”。
问题在于:
自动驾驶失败,往往发生在极端边缘场景。
如果某些场景永远不会在你的车队中出现,你如何为它做准备?
规模边界被打破
Tesla 的数据来源是自己的车队。
它确实庞大,每天 500 年驾驶时长。
但它仍然受到:
的限制。
Waymo 直接跳过了这个约束。
它训练在:
整个人类互联网的视频记忆之上
每一条上传的行车记录仪视频
每一次旅行 Vlog
每一次极端天气记录
都可能成为训练素材。
而内容创作者甚至不知道自己参与了自动驾驶模型训练。
这种“数据护城河”会随着时间自动增长。
这会改变格局吗?
也许不会立刻。
Waymo 的模型目前运行在 24 FPS、720P 分辨率,未必与其生产传感器栈完全对齐。
Tesla 的系统在端到端闭环整合方面依然非常强。
但问题不在当前指标。
而在未来趋势。
如果自动驾驶的核心难题在于:
覆盖无限长尾风险
那么能够生成“未发生但可能发生”的系统,可能拥有战略优势。
自动驾驶的战争正在转向
过去几年,行业讨论焦点是:
现在问题变成:
谁能模拟整个可能世界?
Tesla 拥有生产规模和数据瀑布。
Waymo 拥有世界模型和整个 YouTube。
这场竞赛已经不再只是工程问题。
它开始进入“生成式物理世界”的时代。
自动驾驶的下一个阶段,
也许不是学会更好地看见现实,
而是学会为一切可能做好准备。