当前位置：首页>自动驾驶>DeepSeek之后,自动驾驶的“后训练”革命

DeepSeek之后,自动驾驶的“后训练”革命

2026-05-16 09:48:38

关注本公众号并设星🌟标，不错过最新精彩内容

一年前，DeepSeek R1 的横空出世，让整个 AI 行业意识到一个深刻的真理：真正驱动模型推理能力发生质变的，未必是更昂贵的预训练规模。

通过后训练（Post-Training），利用强化学习与闭环反馈，我们能以极低的算力代价，解锁原本需要数倍资源才能触及的能力边界。

如今，这场范式革命正在物理世界重演。

对于自动驾驶而言，尽管系统已在海量数据上完成了预训练，但距离真正的 Physical AGI（物理通用人工智能），仍横亘着一道鸿沟：当前的模型大多知道“该怎么开”，却无法理解“为什么这样开更安全”。

真正的进化，需要闭环、需要反馈，更需要在与物理世界的高频交互中不断修正。

近期，香港大学李弘扬团队联合华为、上海创智学院给出了他们的破局答案——世界引擎（World Engine）。

这不仅是一个技术项目，更是一套全新的核心范式：它以后训练为驱动，以闭环仿真为训练场，旨在驱动自动驾驶系统在海量真实与合成场景的博弈中，涌现出真正的决策智慧。

主页：https://opendrivelab.com/WorldEngine/

代码地址：https://github.com/OpenDriveLab/WorldEngine

从 UniAD 到 World Engine：从“看得见”到“想得到”

回顾 OpenDriveLab 的发展历程，2022 年底推出的 UniAD 曾是一个里程碑。作为首个将感知、预测、规划统一在单一框架下的端到端系统，它以“规划为中心”重新定义了自动驾驶的建模范式。

然而，在 UniAD 之后，一个更深层的痛点浮现出来：端到端系统在学术 Benchmark 上表现优异，却往往在真实世界的“长尾场景”中败下阵来。

雨夜里逆行的电动车、施工路段突然倒下的锥桶、大客车后方的“鬼探头”……这些决定生死的关键瞬间，在训练数据中几乎为零。单纯依靠更大的数据集或更深的网络，无法从根本上解决这一“稀疏性困境”。

为此，OpenDriveLab 开启了双线并行的探索：

技术筑基：通过 MTGS（多次遍历 3D 高斯泼溅）技术，构建高保真的可渲染驾驶场景，打造闭环仿真的物理底座。

模型突破：利用 Nexus、Omega 等世界模型，聚焦反事实难例与高动态交互模拟，突破真实数据对长尾场景覆盖的天然局限。

当高保真的环境与生成难例的能力具备后，核心问题随之而来：如何让端到端系统在这些极端场景中安全地进化？

答案，就是后训练。

2025 年 4 月，华为在 ADS 4.0 中正式披露了全新技术架构 WEWA。其中云端核心——World Engine，正是这一联合攻关的成果。华为将这套架构的目标定义为：面向自动驾驶，实现从“类人”到“超人”的跨越。

World Engine：迈向物理 AI 的后训练时代

如果说预训练让自动驾驶系统学会了“模仿”，那么后训练要解决的，就是如何让系统学会“判断”。

World Engine 的设计哲学正是围绕这一目标展开。它并非单一模型，而是一套完整的后训练 Pipeline，由三个核心能力构成，形成了一个“仿真生成难例 → 难例驱动后训练 → 决策能力强化”的正向飞轮。

World Engine 架构总览

1. 3DGS 仿真环境：物理世界的高保真镜像

基于 3D 高斯泼溅（3DGS）构建的高保真视觉输入，为后训练提供了真正意义上的闭环反馈。在 World Engine 中，系统的每一个决策都能在环境中得到即时、真实的物理响应，而非简单的数据回放。

高保真闭环仿真效果图

2. 难例挖掘 & 扩散生成：主动制造“教学事故”

真实世界的长尾场景稀缺且难以复现。World Engine 首先从海量真实驾驶数据中主动挖掘模型表现差的“难例”，再以世界模型为工具，对这些难例进行扩散生成与渲染，成倍放大长尾场景的密度与多样性，确保系统在训练中“见过”路上可能遇到的一切极端情况。

难例扩散生成典型 case

3. 基于强化学习的后训练：内化安全价值观

在仿真生成的大规模难例场景上，World Engine 采用强化学习驱动系统优化。它将安全价值规范（如避障、合规、舒适）直接内化为奖励信号，让系统不只是“开得快”，更是“开得对”。

navsim 测试难例集对比

破除迷信：数据规模的“天花板”

验证 Data Scaling: 将预训练数据集场景数量从 12k 增广至 103k 进行对比

自动驾驶行业曾有一个长期信仰：数据越多，模型越安全。

World Engine 的实证研究给出了一个更复杂的答案。研究团队将预训练数据从 1.3 万个场景扩大到 10.3 万个，结果发现：在日常驾驶场景上，Scaling Law 确实生效；但在安全关键的长尾场景上，曲线迅速躺平。

原因显而易见：真实路测中，危险场景本就极度稀缺。堆砌再多的常规数据，模型在关键时刻依然可能束手无策。数据 Scaling 在长尾问题上，撞上了物理天花板。

World Engine 的后训练给出了另一条路径：在仿真环境中以强化学习反复博弈难例场景。

结果显示，从同一个基础模型出发，后训练直接跨越了 Scaling 曲线，实现了等效于将预训练数据扩大约 14 倍的闭环性能增益。

一块都不能少：后训练的“化学反应”

后训练之所以有效，源于其核心模块的协同作用。World Engine 对自身进行了拆解验证：

navsim 数据集上不同训练后范式对比

光喂数据没用：拿到稀有场景数据，若仅用模仿学习（Imitation Learning），几乎不改善闭环表现。模型学会了“照做”，却没学会“判断”。强化学习才是那个开关。

练什么比怎么练更重要：同样是强化学习，若在普通场景上训练，闭环成功率反而可能下降（过拟合简单题）。只有聚焦难例，能力才真正提升。

仿真得“活”起来：当仿真里的其他车辆只是录像回放，收益有限；当它们开始对自车行为做出反应、甚至主动制造对抗，闭环成功率从 76% 一路拉升至 89%。World Engine 的行为世界模型，补上了这至关重要的一环。

工业级验证：从仿真到实车的 200 公里

World Engine 不仅停留在论文中，它接受了一次严苛的工业级考验——华为 ADS 系统的实车验证。

基础模型底座：

基于超过 8 万小时真实驾驶数据预训练，覆盖全国 100 余座城市、逾千万条驾驶片段。这是一个极强的起点。

工业闭环仿真（10,000+ 场景）：

ADS 工业级闭环仿真结果对比

团队利用华为 ADS 工业级闭环仿真平台进行了全面评估。在超过 1 万个高密度交互事件性场景中，后训练模型在六项安全指标上全面改善，其中切入碰撞率下降了 45.5%。

实车路测（上海 200km）：

仿真之后，World Engine 走上了上海的真实路面。测试路线涵盖城市快速路与复杂城区道路，总计约 200 公里。

上海市内高架测试路线

上海市城区测试路线

测试场景包括了夜间施工区临时改道、盲区行人横穿、无保护左转遇施工区等“惊出冷汗”的时刻。

对于人类驾驶员而言，这些场景都需要高度集中注意力。而 World Engine 后训练模型，在全程 0 次人工介入的情况下，平稳完成了所有测试。

典型实车场景1

典型实车场景2

典型实车场景3

结语：Post-Training 与 Physical AGI

World Engine 的故事始于自动驾驶，但它试图回答的问题却更为宏大。

回到最核心的洞见：当真实世界无法为你提供足够的关键失败场景时，就主动去创造它们。

在这些失败中反复博弈，在这些边界上持续进化。这一逻辑不仅关乎驾驶，更是所有 Physical AI 系统共同面临的根本困境。

Physical AI 与数字 AI 最本质的区别在于不可逆性。

语言模型说错一句话可以刷新重来，但物理世界里，机器人打碎一个杯子、自动驾驶追尾一辆车，错误已经发生，无法撤销。

这意味着，Physical AI 必须在真正上线之前，就已经“见过”那些最危险的时刻。

而 World Engine 提供的范式，正是针对这一困境的系统性解法：不被动等待数据，主动生成经验；不只模仿人类，在与世界的博弈中涌现能力。

从端到端自动驾驶出发，走向能在物理世界中感知、推理、行动、进化的通用智能体——这是具身智能研究的终极命题，也是 Physical AGI 真正的意涵所在。

自动驾驶，是这场旅程的第一个战场。

如需转载，请注明出处

而 Post-Training，将是 Physical AGI 时代最重要的基础设施之一。

#才创科技 #才创机器人+ #具身智能 #自动驾驶安全 #WorldEngine #后训练

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

DeepSeek之后,自动驾驶的“后训练”革命

最新文章

热门文章

随机文章

DeepSeek之后,自动驾驶的“后训练”革命

昊铂家族再添猛将!S600轿跑SUV亮相,轴距2936mm,增程纯电全覆盖

新车来袭!中型SUV价格打到12万级,续航2000km这是要逼死谁

最新文章

热门文章

随机文章