Waymo 技术领导者 Dmitri Dolgov 分享从 2005 年 DARPA 挑战赛到今日全自动驾驶商业化落地的 20 年历程,深度解析 Waymo AI 基础模型架构、世界模型方法、第六代硬件平台及安全数据。
核心观点速览
- 使命驱动: 全球每 26 秒就有一人死于交通事故,这是 Waymo 存在的根本原因
- 20 年坚持: 从 2005 年 DARPA 挑战赛到 2024 年 11 城市运营,经历了多次 AI hype 周期和低谷
- AI 基础模型: Waymo 构建了一个多模态"世界 - 行动 - 语言"基础模型,驱动三大支柱:驾驶员(Driver)、模拟器(Simulator)、批评者(Critic)
- 端到端 + 结构化: 不是纯端到端,而是端到端模型 + 结构化中间表示,以支持运行时验证、闭环训练和强化学习
- 安全数据: 1.7 亿英里全自动驾驶数据显示,Waymo 驾驶员在严重伤害事故方面比人类驾驶员安全 13 倍
- 指数级扩展: 16 年达到 1 亿英里,6 个月达到 2 亿英里;一周全自动驾驶行驶超过 400 万英里
- 全球化扩张
个人背景:从苏联到自动驾驶
Dmitri Dolgov 出生于苏联,父母是同一所学校的校友。他在日本待过一年,在美国上高中,后来回到莫斯科读大学,在莫斯科物理技术学院(MIPT)学习数学和物理。
"那段经历真正奠定了我的技术基础。在大学早期,最重要的是获得独立学习和探索的能力,这对我未来的职业生涯帮助巨大。"
2005 年,Dmitri 在研究生毕业时恰逢 DARPA 城市挑战赛(Urban Challenge)举行。这成为了他的"开关时刻"(light switch moment):
"技术极其有趣,使命无比强大,没有其他事情能与之相比。而且你能亲手造出真实产品。它满足了我所有的条件。"
Waymo 的早期岁月(2009-2012)
Waymo 起源于 2009 年的 Google 自动驾驶汽车项目。早期团队只有约 12 人,Dmitri 形容那是"疯狂的初创日子"——所有人 24/7 工作,白天写代码、搭建硬件,晚上进行测试。
早期两大目标(18 个月完成):
- 在湾区完成 10 条路线,每条 100 英里,全程无干预
"那是我职业生涯中最快乐的时光。每时每刻都在取得进展,你在学习,速度疯狂。"
这一时期被称为"Project Chauffeur",团队证明了自动驾驶值得追求,随后加倍投入,开始构建完全自动驾驶产品。
穿越 hype 周期与低谷
2016-2017 年,自动驾驶成为 AI 炒作周期的中心。大量公司涌入,随后出现大规模低谷——大多数公司放弃或失败。Waymo 是少数坚持下来的。
Dmitri 对技术周期的洞察:
"导致这种周期的往往是某个突破带来早期快速进展和快速投资流入。自动驾驶问题有一个特性:入门非常容易,但要做到完全自动驾驶和超人类性能则极其困难。"
"每当有重大技术突破——无论是卷积神经网络、Transformer 还是大语言模型——都会引发'问题即将解决'的错觉。它重塑了早期曲线,但不改变长尾。"
坚持的关键:
"理解这不是一道简单的题,但是一道极其重要的题。相信使命,不寻找简单的胜利或银弹,这给了团队走完这段路的耐力。"
Waymo AI 基础模型架构
Waymo 的核心是一个被称为"Waymo Foundation Model"的多模态 AI 系统。它驱动三大支柱:
| |
|---|
| 驾驶员(Driver) | |
| 模拟器(Simulator) | |
| 批评者(Critic) | |
基础模型的三个维度
多模态(Multimodal): 不仅处理图像/视频,还处理激光雷达(LiDAR)、雷达(Radar)等其他传感器数据
世界 - 行动模型(World-Action Model):
- 不仅是被动建模世界,还是积极参与者——世界模型必须是可控的
语言对齐(Language-Aligned):
- 将视觉语言模型(VLM)的通用世界知识引入 Waymo 模型
"我们构建的是一个多模态世界 - 行动 - 语言模型。"
端到端架构:超越基础端到端
Waymo 的基础模型本质上是一个端到端模型——一个从传感器到决策/动作的模型。但 Dmitri 认为"端到端 vs 其他"是一个虚假的二分法:
"真正的问题不是'是否端到端',而是'端到端之后还需要什么'。如果你要构建一个完全自动驾驶、超人类安全水平、可大规模部署的产品,仅靠基础端到端是不够的。"
Waymo 的方法:端到端 + 结构化中间表示
通过在 learned representation 之上增加结构化的、物化的中间表示,Waymo 获得了:
- 运行时额外验证
- 更丰富的训练/评估方案
- 强化学习的丰富奖励函数
- 人类反馈整合
"如果你只是构建辅助驾驶系统、原型或演示,你可能不需要这些。但要做到完全自动驾驶的安全系统,这些绝对关键。"
第六代硬件平台
Waymo 第六代驾驶员硬件套件于 2024 年推出,搭载在Waymo Via车辆平台上:
"这辆车围绕乘客体验设计。外部尺寸与 I-Pace 相近,但内部感觉像一个客厅。后排空间巨大,有滑动门,接近车辆时自动打开。"
2024 年初开始全自动驾驶运营,目前对员工开放,预计年内向所有乘客开放。
指数级扩展与商业化
关键数据:
Dmitri 的日常:
"Waymo 是我现在的出行方式。我今天就是坐 Waymo 从 Palo Alto 到旧金山的。我的三个孩子也爱坐 Waymo——他们一生中几乎只坐自动驾驶。偶尔坐人类开的车,他们会问'刚才发生了什么?'"
"现在能让我孩子发出'哇'的只有两件事:小狗和 Waymo。"
安全:不可协商的基石
全球每年有 119 万人死于交通事故——每 26 秒一人。这是 Waymo 团队每天工作的动力。
安全数据:
"在 Waymo 运营的城市,1.7 亿英里全自动驾驶数据显示,Waymo 驾驶员在导致严重伤害的碰撞方面比人类驾驶员安全 13 倍。"
"这个 13 倍的减少意味着我们每 8 天就预防一次严重伤害。随着规模扩大,这个影响只会增长。"
安全文化:
"在硅谷'快速行动、打破常规'的文化中,安全必须是非协商的基础。从第一天起就要把它融入一切:模型架构、训练评估方案、团队心态。"
"专注于能力本身、快速达到 90% 很诱人,但你如何达到第一个 90% 与如何达到下一个'9'(即更高安全标准)是完全不同的问题。"
真实安全案例:
Dmitri 分享了一个令人印象深刻的案例:在旧金山,一个骑电动滑板车的年轻女子在 Waymo 前方失控摔倒。Waymo 以"超人类的准确性和反应时间"完成了闪避和刹车,所有人都安然无恙。
"透过公交车看到行人"案例:
更令人震惊的是,Waymo 的激光雷达曾探测到一辆公交车后面行人的脚步移动——激光信号从公交车底部反射回来,获得了稀疏的回报。AI 不仅检测到了行人,还预测了未来会发生什么,提前采取了防御性反应。
"当我看到那个视频时,我的大脑被震撼了。我们的激光雷达没有穿透固体物体的能力,但它通过公交车底部的反射检测到了行人的脚步。"
未来展望:从去风险化到全球商业化
"我们已经从有意识的顺序去风险化阶段,过渡到快速的并行全球商业化。"
未来 5-10 年规划:
关键引用
- "技术极其有趣,使命无比强大,没有其他事情能与之相比。" —— 关于 2005 年 DARPA 挑战赛
- "入门非常容易,但要做到完全自动驾驶和超人类性能则极其困难。" —— 关于自动驾驶的技术特性
- "理解这不是一道简单的题,但是一道极其重要的题。" —— 关于穿越低谷的坚持
- "我们构建的是一个多模态世界 - 行动 - 语言模型。" —— 关于 Waymo 基础模型
- "真正的问题不是'是否端到端',而是'端到端之后还需要什么'。" —— 关于架构哲学
- "安全必须是非协商的基础。从第一天起就要把它融入一切。" —— 关于安全文化
- "这个 13 倍的减少意味着我们每 8 天就预防一次严重伤害。" —— 关于安全影响
- "现在能让我孩子发出'哇'的只有两件事:小狗和 Waymo。" —— 关于家庭生活
快问快答