在最近一次演讲中,Waymo 联合创始人兼CEO Dmitri Dolgov 对自动驾驶算法“端到端”(End-to-End, E2E)模型给出了非常清晰的定义,并深入阐述了 Waymo 独有的“端到端+”架构理念。
以下为其关于“端到端”的核心解释:
端到端的基本定义: Dmitri 将端到端模型定义为:“一个直接从传感器输入到决策或动作输出的单一模型。”
端到端模型的核心优势: 他指出,相比于传统的人工设计接口,端到端模型最重要的一点是“它能够在系统的不同组件之间(比如编码器和解码器之间,或者系统的感知和规划部分之间)学习到丰富且正确的表征”。对于像驾驶这样极其复杂的任务,单纯依靠人工工程设计的接口是远远不够的。
但,Dmitri 认为,行业内经常争论“是选择端到端还是其他架构”,这是一种虚假的二分法。他认为真正的问题应该是:“它是端到端,然后再加点什么(End-to-End and what else)?”
Waymo 的进阶解法(端到端 + 结构化中间表示): Dmitri 强调,“最基本、最普通的端到端系统是不够的,使用端到端与完全依赖端到端之间存在巨大的差异。” 如果要打造一个在物理世界大规模部署、具备超人类安全水平的 L4 级产品,纯粹的黑盒端到端是不切实际的。
因此,Waymo 的做法是:“用结构化的、具象化的中间表示(structured, materialized intermediate representation)增强了学习到的表征。” 这种混合架构弥补了纯端到端的缺陷,使得系统能够:
- 在物理世界运行时,进行额外的安全验证。
- 实现更丰富的闭环训练和闭环评估。
- 为强化学习提供丰富的奖励函数。
所以可以理解Waymo的端到端,有点像我们之前文章《智驾定型之战:一文看透自动驾驶“端到端”的底层逻辑与架构演进》讲到的带显式感知的一段式端到端,或着终极端到端但是+上了结构化和具象化的中间表示。