当前位置：首页>自动驾驶>华为开源世界引擎(WE):自动驾驶的长尾安全,可能要靠Post-Training!

华为开源世界引擎(WE):自动驾驶的长尾安全,可能要靠Post-Training!

2026-06-22 17:28:18

World Engine：自动驾驶的长尾安全，可能要靠 Post-Training

作者 | Tianyu Li, Li Chen, Caojun Wang, Haochen Liu, Kashyap Chitta, Zhenjie Yang 等

机构 | HKU / Huawei / Shanghai Innovation Institute / Archon Robotics / KE:SAI / NVIDIA Research / valeo.ai / Tsinghua / University of Tuebingen

论文标题 | World Engine: Towards the Era of Post-Training for Autonomous Driving

论文版本 | arXiv:2606.19836v1

关键词 | 自动驾驶 / Post-Training / World Model / Long-tail Safety / Reinforcement Learning / 3D Gaussian Splatting / Production ADS

前言

这篇 World Engine 的核心判断很清楚：自动驾驶模型的常规能力可以靠海量真实路采数据训练出来，但真正决定安全边界的，往往是极少数 near-miss、cut-in、行人横穿、复杂交互 这类长尾事件。

问题在于，这些事件最重要，却最稀缺。真实世界里不能为了训练模型去制造事故，也很难靠被动采集等到足够多高风险样本。因此，论文提出一个新的训练范式：把自动驾驶的长尾安全问题，重新定义为 post-training 问题。

本文最关键的结论是：针对合成高风险交互做强化后训练，比继续堆普通预训练数据更有效率。World Engine 在 nuPlan 稀有闭环场景中把 PDMS* 提到 70.12，并在生产级 ADS 仿真中让 cut-in 失败率最高降低 45.5%。

资源链接

项目主页：https://opendrivelab.com/WorldEngine/
完整代码：https://github.com/OpenDriveLab/WorldEngine
arXiv 页面：https://arxiv.org/abs/2606.19836v1

图 1：World Engine 总览。论文把自动驾驶长尾问题描述为“稀缺性诅咒”：常见驾驶数据密集，near-miss 和事故极稀缺；World Engine 通过发现、重建、合成和强化后训练，把稀疏长尾事件变成可学习分布。

从“收集更多数据”到“合成长尾数据”

World Engine 不是否定预训练。论文默认第一阶段仍然是用大规模真实驾驶日志训练 base driving agent。它真正改变的是第二阶段：当模型已经足够强，继续收集普通场景数据的边际收益会变小，而长尾失败仍然稀缺。

因此 World Engine 的 pipeline 是：

在真实日志中发现 failure-prone long-tail events。
用 3D Gaussian Splatting 重建交互式、照片级真实的仿真环境。
用 behaviour world model 合成不同交通参与者行为和高风险变化。
在这些合成互动场景中，用 reinforcement post-training 改进 planner。

关键不是“生成漂亮视频”，而是把稀疏的安全关键事件变成密集、可交互、可强化学习的训练分布。

图 2：安全关键场景的核心结果。World Engine 在稀有闭环场景中显著提升表现，并显示出相比继续扩大预训练数据更高的数据效率。

关键结论一：长尾 post-training 比继续堆预训练更有效率

Figure 2 里最重要的是数据效率结论：常见场景随着预训练数据增加会继续变好，但稀有场景收益很快饱和。原因很直观：普通数据再多，也不一定覆盖真正危险的互动模式。

论文从 50k scenes 的 base agent 出发，在 World Engine 生成的 safety-critical 数据上 post-training，得到的闭环收益可以接近约 14× additional pre-training data 的效果；结论部分又把行业含义概括为，post-training 的安全收益外推可匹配约 10× 更多预训练数据。

这给行业的启发很直接：当安全瓶颈来自长尾事件时，继续扩大 fleet collection 不一定是最高效路径；更高效的路径可能是“发现失败 - 重建世界 - 合成变体 - 强化后训练”。

图 3：nuPlan 的 open-loop 与 closed-loop 评估协议。closed-loop 中 planner 会与反应式智能体交互，更能暴露长尾互动失败。

关键结论二：安全要看闭环，不只看开环

论文区分了 open-loop 和 closed-loop：open-loop 在固定日志上评估 planner，不会改变未来场景演化；closed-loop 则让 planner 在仿真中和反应式 agents 交互，性能用 rollout metrics 衡量。

这个区别很重要。很多轨迹在开环上接近人类轨迹，但一旦进入互动场景，其他车辆会反应，ego 的动作会改变后续世界，错误可能被放大。World Engine 重点改善的正是这种 safety-critical closed-loop 表现。

表 1：不同 post-training 范式对比。完整 World Engine 在 rare closed-loop 上达到 SR 88.89%、PDMS* 70.12，是表中最强结果。

关键结论三：完整 World Engine 最强

Table 1 是全文最应该盯住的表。base model 在 rare closed-loop 上的 **SR 为 73.66%、PDMS* 为 60.98；完整 World Engine 后训练后，SR 提升到 88.89%、PDMS* 提升到 70.12**。

几个对照很有信息量：

只在 common logs 上 post-training，rare closed-loop PDMS* 反而从 60.98 降到 60.21，说明普通日志不能解决长尾失败。
rare logs 能提升 open-loop rare PDMS，但 closed-loop 提升有限。
rare synthetic replays 成功率高，但 ego progress 很低，说明只追求“不撞”可能牺牲正常通行。
加入 reactive rollouts 和 behaviour world model 后，才得到最强的闭环安全与驾驶质量综合收益。

最关键结论：长尾发现 + 交互式 rollout + 行为世界模型交通增强 这三者组合，才是 World Engine 的完整收益来源。