World Engine:自动驾驶的长尾安全,可能要靠 Post-Training
作者 | Tianyu Li, Li Chen, Caojun Wang, Haochen Liu, Kashyap Chitta, Zhenjie Yang 等
机构 | HKU / Huawei / Shanghai Innovation Institute / Archon Robotics / KE:SAI / NVIDIA Research / valeo.ai / Tsinghua / University of Tuebingen
论文标题 | World Engine: Towards the Era of Post-Training for Autonomous Driving
论文版本 | arXiv:2606.19836v1
关键词 | 自动驾驶 / Post-Training / World Model / Long-tail Safety / Reinforcement Learning / 3D Gaussian Splatting / Production ADS前言
这篇 World Engine 的核心判断很清楚:自动驾驶模型的常规能力可以靠海量真实路采数据训练出来,但真正决定安全边界的,往往是极少数 near-miss、cut-in、行人横穿、复杂交互 这类长尾事件。
问题在于,这些事件最重要,却最稀缺。真实世界里不能为了训练模型去制造事故,也很难靠被动采集等到足够多高风险样本。因此,论文提出一个新的训练范式:把自动驾驶的长尾安全问题,重新定义为 post-training 问题。
本文最关键的结论是:针对合成高风险交互做强化后训练,比继续堆普通预训练数据更有效率。World Engine 在 nuPlan 稀有闭环场景中把 PDMS* 提到 70.12,并在生产级 ADS 仿真中让 cut-in 失败率最高降低 45.5%。
资源链接
- 项目主页:https://opendrivelab.com/WorldEngine/
- 完整代码:https://github.com/OpenDriveLab/WorldEngine
- arXiv 页面:https://arxiv.org/abs/2606.19836v1
图 1:World Engine 总览。论文把自动驾驶长尾问题描述为“稀缺性诅咒”:常见驾驶数据密集,near-miss 和事故极稀缺;World Engine 通过发现、重建、合成和强化后训练,把稀疏长尾事件变成可学习分布。从“收集更多数据”到“合成长尾数据”
World Engine 不是否定预训练。论文默认第一阶段仍然是用大规模真实驾驶日志训练 base driving agent。它真正改变的是第二阶段:当模型已经足够强,继续收集普通场景数据的边际收益会变小,而长尾失败仍然稀缺。
因此 World Engine 的 pipeline 是:
- 在真实日志中发现 failure-prone long-tail events。
- 用 3D Gaussian Splatting 重建交互式、照片级真实的仿真环境。
- 用 behaviour world model 合成不同交通参与者行为和高风险变化。
- 在这些合成互动场景中,用 reinforcement post-training 改进 planner。
关键不是“生成漂亮视频”,而是把稀疏的安全关键事件变成密集、可交互、可强化学习的训练分布。
图 2:安全关键场景的核心结果。World Engine 在稀有闭环场景中显著提升表现,并显示出相比继续扩大预训练数据更高的数据效率。关键结论一:长尾 post-training 比继续堆预训练更有效率
Figure 2 里最重要的是数据效率结论:常见场景随着预训练数据增加会继续变好,但稀有场景收益很快饱和。原因很直观:普通数据再多,也不一定覆盖真正危险的互动模式。
论文从 50k scenes 的 base agent 出发,在 World Engine 生成的 safety-critical 数据上 post-training,得到的闭环收益可以接近约 14× additional pre-training data 的效果;结论部分又把行业含义概括为,post-training 的安全收益外推可匹配约 10× 更多预训练数据。
这给行业的启发很直接:当安全瓶颈来自长尾事件时,继续扩大 fleet collection 不一定是最高效路径;更高效的路径可能是“发现失败 - 重建世界 - 合成变体 - 强化后训练”。
图 3:nuPlan 的 open-loop 与 closed-loop 评估协议。closed-loop 中 planner 会与反应式智能体交互,更能暴露长尾互动失败。关键结论二:安全要看闭环,不只看开环
论文区分了 open-loop 和 closed-loop:open-loop 在固定日志上评估 planner,不会改变未来场景演化;closed-loop 则让 planner 在仿真中和反应式 agents 交互,性能用 rollout metrics 衡量。
这个区别很重要。很多轨迹在开环上接近人类轨迹,但一旦进入互动场景,其他车辆会反应,ego 的动作会改变后续世界,错误可能被放大。World Engine 重点改善的正是这种 safety-critical closed-loop 表现。
表 1:不同 post-training 范式对比。完整 World Engine 在 rare closed-loop 上达到 SR 88.89%、PDMS* 70.12,是表中最强结果。关键结论三:完整 World Engine 最强
Table 1 是全文最应该盯住的表。base model 在 rare closed-loop 上的 **SR 为 73.66%、PDMS* 为 60.98;完整 World Engine 后训练后,SR 提升到 88.89%、PDMS* 提升到 70.12**。
几个对照很有信息量:
- 只在 common logs 上 post-training,rare closed-loop PDMS* 反而从 60.98 降到 60.21,说明普通日志不能解决长尾失败。
- rare logs 能提升 open-loop rare PDMS,但 closed-loop 提升有限。
- rare synthetic replays 成功率高,但 ego progress 很低,说明只追求“不撞”可能牺牲正常通行。
- 加入 reactive rollouts 和 behaviour world model 后,才得到最强的闭环安全与驾驶质量综合收益。
最关键结论:长尾发现 + 交互式 rollout + 行为世界模型交通增强 这三者组合,才是 World Engine 的完整收益来源。
图 4:生产级闭环仿真结果。World Engine post-training 降低 ADS base model 的关键安全失败,cut-in 测试中失败率最高降低 45.5%。生产级验证:不只停留在学术 benchmark
论文还把 World Engine 扩展到华为 ADS 生产级系统。base model 使用超过 80,000 小时、来自 100+ 城市 的真实驾驶数据训练;随后通过同样 pipeline 发现失败场景、3DGS 重建、行为世界模型增强,再进行强化后训练。
在工业质量保障系统中,它做的是 hardware-in-the-loop closed-loop simulation:渲染传感器流输入到车端计算单元,形成完整 sensor-to-control 闭环。论文称测试总量超过 60 小时,约等价 3,000 km 的事件密集驾驶。
生产级结果里最醒目的数字是:World Engine 在安全关键 benchmark 上降低失败率,其中 cut-in collision 下降 45.5%,cut-in TTC events 下降 13.4%,同时保持 common cases 表现。
图 5:生产车辆白天上路测试。论文在上海约 65km 高架/城市快速路和约 70km 城市道路上测试,并展示 base 与 World Engine 的交互差异。上路测试:200km、零接管
论文进一步做了真实道路验证:上海约 65km 高架/城市快速路,两次白天测试;另有约 70km 城区道路,一次夜间测试。摘要中给出的总结是:200km real-world on-road test,zero disengagements。
Figure 5 展示了 cut-in 场景:base 车辆出现不理想的避让动作,而 World Engine post-trained 模型更早调整速度并安全通过。这里的意义不在于单个案例,而在于证明合成高风险交互带来的策略变化能迁移到生产车辆实测。
图 6:夜间场景上路测试。包括夜间阻塞车道、低可见度行人、施工收窄路口等案例,强调安全收益从仿真迁移到真实道路。夜间和低可见度:长尾安全的真实压力测试
Figure 6 展示了夜间阻塞车道、低可见度行人、施工收窄路口等场景。这些场景和前面的 cut-in 一样,都是普通平均指标很难充分覆盖、但对安全边界极其关键的长尾案例。
这也解释了为什么论文题目强调 post-training:预训练解决大多数常见场景,后训练专门对齐安全约束和罕见交互。两者不是替代关系,而是分工关系。
边界与风险
World Engine 的限制也很明确。
- 长尾发现仍依赖已有真实日志;如果某类风险从未被记录,当前 pipeline 发现不了。
- 3DGS 在接近原始轨迹时质量高,但当 rollout 偏离原始日志太远,视觉可能出现伪影。
- behaviour world model 还不能高保真覆盖所有行人、骑行者、非结构化道路参与者行为。
- 当前只验证了单轮 post-training;论文观察到小模型多轮后训练可能 destabilize policy。
- 强化奖励仍包含人工定义信号,如碰撞、车道、路线进展,未必覆盖全部人类驾驶偏好。
这些限制不削弱论文的方向感,反而说明 World Engine 更像一个可迭代的安全训练框架,而不是一次性完成所有长尾安全对齐。
结论
World Engine 的核心贡献,是把自动驾驶从“继续堆真实预训练数据”推进到“针对长尾安全做 post-training”。它通过真实日志发现失败、3DGS 重建交互世界、行为世界模型合成高风险交通变化,再用强化学习调整 planner。
对行业来说,最值得强调的结论有三条:
- 安全边界由长尾事件决定,不由平均场景决定。
- 合成高风险交互的 post-training,比被动等待真实长尾数据更高效。
- World Engine 在学术闭环 benchmark、生产级闭环仿真和真实道路测试中都给出了正向信号。
当评价发现问题之后,如何系统性地把这些问题转化为训练信号,这可能会是自动驾驶进入 Physical AI 阶段后,非常关键的一类工程范式。