关注本公众号并设星🌟标,不错过最新精彩内容
一年前,DeepSeek R1 的横空出世,让整个 AI 行业意识到一个深刻的真理:真正驱动模型推理能力发生质变的,未必是更昂贵的预训练规模。
通过后训练(Post-Training),利用强化学习与闭环反馈,我们能以极低的算力代价,解锁原本需要数倍资源才能触及的能力边界。
如今,这场范式革命正在物理世界重演。
对于自动驾驶而言,尽管系统已在海量数据上完成了预训练,但距离真正的 Physical AGI(物理通用人工智能),仍横亘着一道鸿沟:当前的模型大多知道“该怎么开”,却无法理解“为什么这样开更安全”。
真正的进化,需要闭环、需要反馈,更需要在与物理世界的高频交互中不断修正。
近期,香港大学李弘扬团队联合华为、上海创智学院给出了他们的破局答案——世界引擎(World Engine)。
这不仅是一个技术项目,更是一套全新的核心范式:它以后训练为驱动,以闭环仿真为训练场,旨在驱动自动驾驶系统在海量真实与合成场景的博弈中,涌现出真正的决策智慧。
主页:https://opendrivelab.com/WorldEngine/
代码地址:https://github.com/OpenDriveLab/WorldEngine
从 UniAD 到 World Engine:从“看得见”到“想得到”
回顾 OpenDriveLab 的发展历程,2022 年底推出的 UniAD 曾是一个里程碑。作为首个将感知、预测、规划统一在单一框架下的端到端系统,它以“规划为中心”重新定义了自动驾驶的建模范式。
然而,在 UniAD 之后,一个更深层的痛点浮现出来:端到端系统在学术 Benchmark 上表现优异,却往往在真实世界的“长尾场景”中败下阵来。
雨夜里逆行的电动车、施工路段突然倒下的锥桶、大客车后方的“鬼探头”……这些决定生死的关键瞬间,在训练数据中几乎为零。单纯依靠更大的数据集或更深的网络,无法从根本上解决这一“稀疏性困境”。
为此,OpenDriveLab 开启了双线并行的探索:
技术筑基:通过 MTGS(多次遍历 3D 高斯泼溅)技术,构建高保真的可渲染驾驶场景,打造闭环仿真的物理底座。
模型突破:利用 Nexus、Omega 等世界模型,聚焦反事实难例与高动态交互模拟,突破真实数据对长尾场景覆盖的天然局限。
当高保真的环境与生成难例的能力具备后,核心问题随之而来:如何让端到端系统在这些极端场景中安全地进化?
答案,就是 后训练。
2025 年 4 月,华为在 ADS 4.0 中正式披露了全新技术架构 WEWA。其中云端核心——World Engine,正是这一联合攻关的成果。华为将这套架构的目标定义为:面向自动驾驶,实现从“类人”到“超人”的跨越。
World Engine:迈向物理 AI 的后训练时代
如果说预训练让自动驾驶系统学会了“模仿”,那么后训练要解决的,就是如何让系统学会“判断”。
World Engine 的设计哲学正是围绕这一目标展开。它并非单一模型,而是一套完整的后训练 Pipeline,由三个核心能力构成,形成了一个“仿真生成难例 → 难例驱动后训练 → 决策能力强化”的正向飞轮。

World Engine 架构总览
1. 3DGS 仿真环境:物理世界的高保真镜像
基于 3D 高斯泼溅(3DGS)构建的高保真视觉输入,为后训练提供了真正意义上的闭环反馈。在 World Engine 中,系统的每一个决策都能在环境中得到即时、真实的物理响应,而非简单的数据回放。
高保真闭环仿真效果图
2. 难例挖掘 & 扩散生成:主动制造“教学事故”
真实世界的长尾场景稀缺且难以复现。World Engine 首先从海量真实驾驶数据中主动挖掘模型表现差的“难例”,再以世界模型为工具,对这些难例进行扩散生成与渲染,成倍放大长尾场景的密度与多样性,确保系统在训练中“见过”路上可能遇到的一切极端情况。
难例扩散生成典型 case
3. 基于强化学习的后训练:内化安全价值观
在仿真生成的大规模难例场景上,World Engine 采用强化学习驱动系统优化。它将安全价值规范(如避障、合规、舒适)直接内化为奖励信号,让系统不只是“开得快”,更是“开得对”。
navsim 测试难例集对比
破除迷信:数据规模的“天花板”

验证 Data Scaling: 将预训练数据集场景数量从 12k 增广至 103k 进行对比
自动驾驶行业曾有一个长期信仰:数据越多,模型越安全。
World Engine 的实证研究给出了一个更复杂的答案。研究团队将预训练数据从 1.3 万个场景扩大到 10.3 万个,结果发现:在日常驾驶场景上,Scaling Law 确实生效;但在安全关键的长尾场景上,曲线迅速躺平。
原因显而易见:真实路测中,危险场景本就极度稀缺。堆砌再多的常规数据,模型在关键时刻依然可能束手无策。数据 Scaling 在长尾问题上,撞上了物理天花板。
World Engine 的后训练给出了另一条路径:在仿真环境中以强化学习反复博弈难例场景。
结果显示,从同一个基础模型出发,后训练直接跨越了 Scaling 曲线,实现了等效于将预训练数据扩大约 14 倍的闭环性能增益。
一块都不能少:后训练的“化学反应”
后训练之所以有效,源于其核心模块的协同作用。World Engine 对自身进行了拆解验证:
navsim 数据集上不同训练后范式对比
光喂数据没用:拿到稀有场景数据,若仅用模仿学习(Imitation Learning),几乎不改善闭环表现。模型学会了“照做”,却没学会“判断”。强化学习才是那个开关。
练什么比怎么练更重要:同样是强化学习,若在普通场景上训练,闭环成功率反而可能下降(过拟合简单题)。只有聚焦难例,能力才真正提升。
仿真得“活”起来:当仿真里的其他车辆只是录像回放,收益有限;当它们开始对自车行为做出反应、甚至主动制造对抗,闭环成功率从 76% 一路拉升至 89%。World Engine 的行为世界模型,补上了这至关重要的一环。
工业级验证:从仿真到实车的 200 公里
World Engine 不仅停留在论文中,它接受了一次严苛的工业级考验——华为 ADS 系统的实车验证。
基础模型底座:
基于超过 8 万小时真实驾驶数据预训练,覆盖全国 100 余座城市、逾千万条驾驶片段。这是一个极强的起点。
工业闭环仿真(10,000+ 场景):
ADS 工业级闭环仿真结果对比
团队利用华为 ADS 工业级闭环仿真平台进行了全面评估。在超过 1 万个高密度交互事件性场景中,后训练模型在六项安全指标上全面改善,其中切入碰撞率下降了 45.5%。
实车路测(上海 200km):
仿真之后,World Engine 走上了上海的真实路面。测试路线涵盖城市快速路与复杂城区道路,总计约 200 公里。
上海市内高架测试路线
上海市城区测试路线
测试场景包括了夜间施工区临时改道、盲区行人横穿、无保护左转遇施工区等“惊出冷汗”的时刻。
对于人类驾驶员而言,这些场景都需要高度集中注意力。而 World Engine 后训练模型,在全程 0 次人工介入 的情况下,平稳完成了所有测试。
典型实车场景1
典型实车场景2
典型实车场景3
结语:Post-Training 与 Physical AGI
World Engine 的故事始于自动驾驶,但它试图回答的问题却更为宏大。
回到最核心的洞见:当真实世界无法为你提供足够的关键失败场景时,就主动去创造它们。
在这些失败中反复博弈,在这些边界上持续进化。这一逻辑不仅关乎驾驶,更是所有 Physical AI 系统共同面临的根本困境。
Physical AI 与数字 AI 最本质的区别在于不可逆性。
语言模型说错一句话可以刷新重来,但物理世界里,机器人打碎一个杯子、自动驾驶追尾一辆车,错误已经发生,无法撤销。
这意味着,Physical AI 必须在真正上线之前,就已经“见过”那些最危险的时刻。
而 World Engine 提供的范式,正是针对这一困境的系统性解法:不被动等待数据,主动生成经验;不只模仿人类,在与世界的博弈中涌现能力。
从端到端自动驾驶出发,走向能在物理世界中感知、推理、行动、进化的通用智能体——这是具身智能研究的终极命题,也是 Physical AGI 真正的意涵所在。
自动驾驶,是这场旅程的第一个战场。
如需转载,请注明出处
而 Post-Training,将是 Physical AGI 时代最重要的基础设施之一。
#才创科技#才创机器人+ #具身智能#自动驾驶安全#WorldEngine#后训练