为什么自动驾驶的E2E-based System(Imitation Learning)可以快速超越Rule-based System?
Rule-based System:优缺点
✅ Pros
可解释性强:每个行为背后都有对应的规则与逻辑,处理交规方面简单可靠高效
确定性高:相同输入产生相同输出,回归测试稳定,适合安全兜底场景
硬约束直接落地:速度上限、最小安全距离等"不可违反"的约束可以直接写死,无需数据
少样本即可启动:不依赖海量标注数据即可构建出一个"能跑"的初始系统
❌ Cons
隐性知识无法被显式编码:城市驾驶状态空间连续且高维,规则无法穷举,大量"规则缝隙"导致在主分布上系统性失效
规则冲突与技术债:规则库膨胀后"修一处坏多处",Karpathy 亲历特斯拉删掉 30 万行规则代码,正是因为技术债不可维护.但驾驶场景中大量情况是"安全 vs. 效率 vs. 礼让"之间的连续权衡,没有离散的对错之分。
接口信息瓶颈导致误差累积与级联失败:感知→预测→规划的人工接口将连续高维特征压缩为稀疏结构化数据,误差在每层级联放大(UniAD 证明规划 L2 误差因此高出 51.2%)
无法或者很难有效建模交互博弈:礼让、试探、谈判式并线等交互行为需要预测和planning联动,但是预测优化目标不是的
能力提升无规模效应:只能靠更多工程师写更多规则,无法靠数据与算力自动变强
局部优化不等于全局最优:在规则系统中,感知团队优化 mAP,预测团队优化 minADE,规划团队优化碰撞率,各团队 KPI 相互独立。局部模块的最优组合不能保证整体驾驶性能最优——这已被 UniAD 的消融实验明确证明:
Imitation Learning (IL) System:优缺点
✅ Pros
高维连续映射的强表达能力:神经网络作为通用函数逼近器,天然擅长在主分布上做平滑插值泛化,覆盖规则无法枚举的细腻场景变化
隐式学习交互统计规律:从海量人类-人类互动数据中学到博弈结果,驾驶风格更像人、更丝滑
工程迭代速度快:很多问题可通过"挖 bad case → 补/删数据 → 重训"解决,无需修改代码逻辑
具备规模效应(Scaling Laws):数据越多、模型越大,主分布性能持续提升;特斯拉的数据飞轮印证了这一点
完美承接闭环 RL 改进:IL 预训练是 Closed-Loop RL 微调的最佳起点,形成"IL 打底 + RL 补强"的工业标准范式
❌ Cons
Covariate Shift(协变量偏移):开环学习、闭环部署导致误差累积,策略可能被推入训练分布外的陌生区域。例如闭环Lane Keeping时,可能由于定位和控制执行误差,偏离车道中心后无法回中, 但是可以通过数据增强解决。
Causal Confusion(因果混淆):容易学到伪相关。例如容易混淆停车原因:"周车减速"和"红灯" ,无法区分
Unmodeled Interactivity(未建模交互):pipeline不建模"我的动作如何改变他人反应"的反馈回路,闭环中可能产生意外的连锁反应
Long-tail(长尾事件):罕见高风险场景样本稀缺且难获得,且损失函数中权重极低,模型很难从中有效学习
可解释性弱:行为由神经网络权重决定,难以像规则那样逐条证明"不会做某件危险的事"
为什么 IL 能超过 Rule-based System?
第一层:失效区间不对称
两者都有缺陷,但失效的位置不同:
驾驶场景中 99% 是主分布的日常场景,规则系统在复杂交互方向,容易失效;IL,在有大量数据的前提下, 失效主要集中在极低概率的尾部事件。
第二层:问题性质不同,决定了谁有未来
Rule-based 的根本问题是"表达能力 + 复杂度管理":用离散逻辑拟合连续高维世界,组合爆炸、规则冲突、接口信息损失是结构性矛盾,没有可扩展的工程解法
IL 的根本问题是"分布与闭环反馈不足":Covariate shift、因果混淆、交互建模不足、长尾稀疏,本质上都是数据与训练范式问题,可以通过闭环训练、仿真、世界模型、IL+RL 混合策略持续压缩得到缓解
第三层:规模效应的非对称性
如 Karpathy 所言:
Rule-based 的能力上限 = 工程师的智慧总和 + 能写的代码总量(线性增长)IL 的能力上限 = 训练数据规模 × 算力规模(指数增长)
第四层:IL 是进化的起点,Rule-based 是终点
IL 系统可以作为闭环 RL 的完美起点:用 IL 预训练打底(快速覆盖主分布),再用 RL 在仿真器中对 covariate shift 和长尾场景进行闭环惩罚和策略改进。而 C++ 规则代码库无法与 RL 优化器天然对接。
为什么 IL 在本质上更优越?
1. 数学层面的根本原因:连续插值 vs. 离散化
规则系统将连续的世界离散化。真实世界并非以这种离散的阶跃函数运行。这在规则之间留下了无限的“缝隙”。因为现实永远无法精准匹配死板的规则,系统会在主分布(日常场景)上频繁失效。
IL 在连续流形上进行插值。深度神经网络是通用函数逼近器。即使 IL 在极端情况下(外推/长尾场景)会失败,它在已知状态之间进行平滑插值的能力也极其强大。因为 99% 的驾驶场景只是正常路况的微小变体,IL 对高维数据进行平滑插值的能力,比死板的规则能好得多地覆盖绝大多数的真实驾驶情况。
2. 工程层面的根本原因:冲突解决机制
规则系统的天花板:当规则系统出错时,工程师会写一条新规则。人类的大脑无法管理如此庞大的状态机。
IL 的天花板:如何构建close-loop环境和evaluation. 这个问题可能随着大模型的进步,会被慢慢解决。
不可忽视的外因(历史性使能条件,缺一不可)
条件一:新能源汽车普及 → 海量真实数据
传统燃油车时代,数据采集成本极高,且车辆本身缺乏标准化的传感器套件。新能源汽车(尤其是特斯拉)将摄像头、毫米波雷达、算力芯片作为标配,每辆车都是一个移动的数据采集终端。这带来了一个质变:数据规模从"实验室级"跳跃到"行星级",行程数据飞轮。
条件二:算力提升 → 支撑快速迭代的闭环
IL 相对于 rule-based 的迭代优势("挖 bad case → 补数据 → 重训")必须在可接受的时间窗口内完成,才有工程价值。没有 GPU 算力的跨越式提升,一次重训可能需要数周,数据飞轮根本转不起来。
条件三:Transformer → 模型表达能力的质变
如果没有 Transformer,IL 大概率仍然无法超越 rule-based 系统。原因是多维度的:CNN 时代的 IL 有根本性的架构瓶颈:早期 Behavior Cloning 用 CNN 处理单帧图像,缺乏全局上下文理解和跨时间序列的长程依赖建模。Transformer 的自注意力机制解决了多模态融合问题:Transformer 的 Query-Key-Value 机制可以自然地让"规划 Query"去主动提取来自多模态特征中最相关的信息,这在 CNN 时代是无法优雅实现的。BEV + Transformer 才让端到端成为可能:BEV统一空间表征 + Transformer 的全局注意力,使得"多摄像头感知 → 时空统一表征 → 交互建模 → 规划输出"这条完整的端到端链路在架构上变得自然流畅。在此之前,模块间的手工拼接是唯一选项。Scaling Law 只在 Transformer 上成立:IL 的"数据越多模型越强"这个关键优势,是以 Transformer 架构为前提的。CNN 模型在数据量超过某个阈值后边际效益迅速递减;
一句话终极总结
IL 在本质上(问题性质)天生比 rule-based 更有潜力;但这个潜力直到新能源汽车提供了数据规模、GPU 提供了算力规模、以及 Transformer 提供了模型表达能力之后,才真正被释放出来。三个条件缺少任何一个,IL 都只是一个"理论上更好但实践中难以落地"的学术范式,这也是IL可以快速超越额多年迭代Rule-based System的原因。
这也解释了一个有趣的历史现象:IL / end-to-end 在学术界早在 2016 年(NVIDIA 的 Dave-2 论文)就被证明了原理可行,但直到 2022-2024 年才在工业界开始真正取代 rule-based——这中间恰好是 Transformer 崛起、算力暴涨、以及新能源车普及的六年。