Waymo的自动驾驶二十年:世界模型+端到端,然后呢?
自动驾驶的终局,不是某个神奇的“世界模型”或端到天边的大模型,而是对物理世界几十年如一日的工程实践和安全冗余。Waymo用近二十年的时间证明了一件事——在解决真正严肃的问题时,最不需要的就是追逐热点和炒作。最近,红杉资本的AI Ascent大会上,Waymo的联席CEO Dmitri Dolgov进行了一场对话。这场对话解释了为什么Waymo这家公司在自动驾驶领域显得又“慢”又“快”。慢,是因为他们从DARPA挑战赛算起,已经在这个领域死磕了将近二十年。快,是因为他们最近的增长曲线陡峭得惊人:总计2000万次的全自动驾驶里程中,有1000万次是在过去七个月内完成的。这场对话揭示的,是一套关于如何构建真正可靠、可规模化的AI系统的思想体系。世界模型?Waymo说我们一直在做,但你们理解的可能不对
现在,“世界模型”柽柳流行词。但Waymo给出的定义和架构却不太一样。Waymo的核心AI系统,他们称之为“Waymo基础模型”。这个模型的核心是由三个紧密耦合又各司其职的支柱构成的工程系统:驾驶员(Driver)、模拟器(Simulator)和批评家(Critic)。驾驶员,就是那个在真实道路上做出决策的AI智能体。它需要实时感知、理解、预测并采取行动。这是大家通常理解的自动驾驶AI。模拟器,则是基于真实世界数据构建的虚拟世界。Waymo用它来生成海量的、真实世界中难以遇到的极端场景,对“驾驶员”进行高强度的训练和压力测试。这个模拟器本身,就需要对物理规律、车辆动力学、其他交通参与者的行为模式有极其深刻和精准的理解。批评家的任务是评估“驾驶员”在真实世界和“模拟器”中的每一次行为表现。它定义了“好”与“坏”,为强化学习提供了精确的奖励函数,也为系统的每一次迭代提供了验证标准。一个好的“批评家”,需要对交通法规、社会伦理、驾驶舒适性以及最重要的安全性有深入的理解。这个架构构成了Waymo的“基础模型”。它是一个多模态(融合摄像头、激光雷达、毫米波雷达数据)、理解世界动态、并与语言对齐(可以融入通用知识)的复杂系统。端到端的迷思:答案是“端到端,然后呢?”
另一个在自动驾驶领域争论不休的话题是“端到端”(End-to-End)。拥护者认为,从传感器输入直接到驾驶指令输出,中间过程全部交给神经网络学习,是最优雅、最高效的方案。反对者则认为这是一个无法解释、无法验证的黑箱。Dmitri明确表示,Waymo的基础模型就是一个端到端模型,因为它能学习到各个模块之间(如感知和规划)最丰富的内在联系,这远比工程师手动设计的接口要强大。但他紧接着提出了一个更深刻的问题:“问题从来不是要不要端到端,而是‘端到端,然后呢?’”他认为,一个基础的、纯粹的端到端模型,对于做一个演示、一个小规模部署可能足够了。但如果你的目标是全自动、超人级的安全、并且要大规模部署,那么纯粹的端到端系统是“不足够的”。Waymo的方案,是在端到端学习的表征之上,增加了“结构化的、物化的中间表征”。翻译一下就是:Waymo的系统虽然是端到端的,但它在模型内部,依然会显式地生成一些人类可以理解、可以验证的中间结果。比如,系统不仅知道要向左转,它还明确地知道“左边有一辆自行车,它的轨迹是…,所以我需要…”。为什么要这么做?
运行时额外验证
这些中间表征可以被独立的验证模块在车辆运行时进行检查。如果AI的主要决策逻辑出错了,这些“脚手架”一样的验证模块可以作为最后一道防线,保证车辆不会做出离谱的危险行为。更丰富的训练和评估
有了这些结构化的中间结果,Waymo可以设计更复杂的训练任务和评估标准。比如,可以单独评估系统对行人意图的预测准确率,而不仅仅是看最终车辆有没有碰到人。强化学习的富信息奖励
纯粹的端到端模型,其强化学习的奖励可能很简单,比如“安全到达目的地”。但有了中间表征,就可以设计更复杂的奖励函数,比如“在保持安全距离的同时平稳超车”会得到比“急刹车躲避”更高的奖励,从而训练出驾驶体验更好、更像老司机的AI。这种“端到端+”的架构,是一种工程妥协,是在追求模型能力上限和保证系统安全下限之间找到的最佳平衡点。它承认了端到端学习的强大能力,但又没有陷入“黑箱崇拜”的教条主义。这对于所有致力于将AI应用于严肃领域的团队来说,都具有极强的指导意义。指数级增长的真相:厚积才能薄发
Waymo 用了8年时间,才将全自动驾驶服务推广到4个城市。但就在今年,他们能在一天之内就新开4个城市。2000万次的总乘坐中,后1000万次只用了7个月。这就是指数级增长。但这种增长曲线背后,是长达十几年、看似毫无起色的研发投入和数据积累。在谷歌自动驾驶项目初期的岁月,当时十几个人的团队,为了完成“累计自动驾驶10万英里”和“无干预跑完10条100英里长的高难度路线”这两个在当时看来天方夜谭的目标,几乎是24/7地工作。他们也度过了2016 年的自动驾驶炒作周期。当时无数公司涌入,都宣称自己很快就能实现全自动驾驶。自动驾驶这个问题的特性是,入门很容易,但要做到能真正商用、达到超人安全的水平,极其困难。每当有新技术突破,都会引发一轮新的炒作,因为它能重塑问题“入门”阶段的曲线,但并不能改变解决“长尾问题”的艰巨性。Waymo之所以能活下来并最终胜出,是因为他们从一开始就清醒地认识到问题的难度,不寻求“银弹”或捷径,而是以安全为不可动摇的基石,一步一个脚印地构建整个技术和运营体系。这个“先慢后快”的模式,揭示了物理世界AI的本质:在物理世界中,数据和经验的积累是无法被“模型”或“算力”完全替代的。你必须让车队在各种天气、各种路况下真实地跑起来,收集那些模拟器永远无法完全复现的微小细节和意外情况。当这些数据和经验积累到一定程度,跨越了某个临界点之后,系统的泛化能力才会出现质变,从而实现指数级的扩张。安全是一种架构,而非口号
Dmitri提到,在旧金山一个十字路口,一辆Waymo车辆在等红灯。一辆公交车横穿并停在了前方,部分挡住了路口。当Waymo的信号灯变绿,车辆开始缓慢前行时,AI突然检测到了公交车另一侧有行人,并开始做出防御性反应。最终,一个行人果然从公交车后方走出,Waymo平稳地绕开了他。问题在于,车辆的摄像头、激光雷达都无法“看穿”公交车。Dmitri自己也很好奇这是如何做到的。事后分析发现,是车辆的激光雷达信号,从公交车底部与地面之间的缝隙穿了过去,打到了对面行人的脚上,并接收到了微弱的、稀疏的返回信号。就是这几个稀疏的光点,Waymo的AI不仅识别出这是一个行人,还准确预测了他接下来的移动轨迹,并提前做出了反应。多传感器冗余是基础。
如果只依赖摄像头,这个场景下的事故几乎不可避免。激光雷达提供了在特殊光照和遮挡情况下依然有效的感知能力。这也是Waymo从始至终坚持自研并使用激光雷达的原因。超人级的感知和反应。
人类司机几乎不可能注意到车底缝隙里脚的移动,更不可能在瞬间完成“检测-识别-预测-决策”的全过程。Waymo的数据显示,在其运营的城市中,它的安全性已经比人类司机高出13倍(在导致重伤的事故上)。安全必须融入模型和架构。
这种“见微知著”的能力,不是靠写几行if-else规则就能实现的,而是其AI模型在海量数据训练下“涌现”出的超凡能力。安全不是一个后续添加的补丁,它从第一天起就根植于模型架构、训练方法和评估标准之中。Dmitri强调,在Waymo,“安全是不可协商的基础”。这种文化,使得他们在硅谷“快速行动,打破陈规”的氛围中像一个异类。但事实证明,在自动驾驶这个领域,“慢”就是“快”,“安全”就是唯一的捷径。结论
在今天这个言必称“AGI”、动辄谈“颠覆”的时代,Waymo的故事提醒我们,真正的技术突破,往往不是来自某个惊世骇俗的单一模型,而是源于对问题本质的深刻理解、对工程实践的长期坚持、对安全底线的绝对敬畏。Waymo的“驾驶员-模拟器-批评家”架构、“端到端+”的务实路线、以及“安全为基石”的文化,共同构成了它的护城河。这条河,不是用钱或算力短期内就能填平的,而是用近二十年的时间和数亿英里的真实里程一点一滴挖掘出来的。可以说,Waymo正在默默地改变物理世界。这或许没有那么性感,但它足够伟大。
参考来源:Waymo’s Dmitri Dolgov: 20 Million Rides and the Road to Full Autonomy