当前位置：首页>自动驾驶>Discrete-WAM:当自动驾驶学会“想象”未来,世界模型与策略学习走向统一

Discrete-WAM:当自动驾驶学会“想象”未来,世界模型与策略学习走向统一

2026-06-23 17:53:49

从“看到什么就做什么”，到“推演未来再决策”——自动驾驶的世界模型终于有了统一的离散化方案。

导读： 自动驾驶正在从“反应式驾驶”走向“推演式驾驶”。论文《Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning》提出了一种新的世界-策略统一建模框架：把视觉观测、未来状态、高层决策和底层动作全部映射到同一个离散 Token 空间中，让模型不仅能预测未来世界，还能在预测中学习如何决策。这可能是自动驾驶世界模型从“看懂场景”迈向“预演未来”的重要一步。

01 自动驾驶的“想象力”缺失

当前主流的端到端自动驾驶系统，本质上是一种行为克隆。

也就是说，模型看到当前路况，直接输出方向盘角度、油门和刹车。

这就像一个人开车从不看路牌、不预测前车意图，也不思考“如果我现在变道会怎样”，只是凭肌肉记忆在开。

这种方法有两个致命缺陷。

第一，它只学习表象关联，不学习因果动力学。

也就是说，它不知道“我的动作会如何改变世界”。

第二，它很难应对反事实场景。

也就是说，它无法回答：“如果刚才左转了会怎样？”

近年来，世界模型试图弥补这一空白。

它的目标不是简单地识别当前画面，而是预测未来：

如果采取某个动作，世界会变成什么样？

传统自动驾驶模型更像是在“看图做题”，而世界模型想做的是“在脑海里先开一遍”。

但问题在于，过去的世界模型和策略模型往往是分开训练的。

一个负责预测未来画面。

一个负责输出驾驶动作。

你练你的预测，我学我的开车，两者之间并没有真正打通。

这正是 Discrete-WAM 想要解决的核心问题。

02 什么是 Discrete-WAM？

Discrete-WAM 的核心想法，可以用一句话概括：

把自动驾驶中的“看见什么”“想去哪里”“怎么开”“未来会怎样”，全部放进同一个离散 Token 空间里。

这听起来有点抽象。

换个说法：

过去，视觉、动作和决策像是三种不同语言。摄像头图像是一种语言，轨迹控制是一种语言，高层规划又是另一种语言。

它们之间要不断翻译。

而 Discrete-WAM 做的事情，是给它们建立一套统一词表。

图像是 Token。

动作是 Token。

决策也是 Token。

未来状态还是 Token。

这样一来，自动驾驶就可以被看作一个统一的序列建模问题。

模型不再只是“看到画面后输出动作”，而是在同一个序列空间中同时学习：

现在是什么状态？

未来可能怎么变？

我应该做什么动作？

这个动作会带来什么后果？

真正关键的变化不是“模型更会识别”，而是它开始把感知、预测和决策放在同一个世界里思考。

03 统一离散 Token 空间

Discrete-WAM 的第一大贡献，是统一离散化。

具体来说，它把三类信息都转成 Token。

第一类是视觉 Token。

模型用 VQ-VAE 把摄像头图像编码成离散视觉 Token。

这相当于把连续的画面压缩成一组可建模的视觉词汇。

第二类是动作 Token。

自动驾驶中的动作不是简单的“左转”“右转”，而是连续的未来轨迹，例如加速度序列。

Discrete-WAM 将这些连续动作离散化为一个网格化的加速度词表。

关键创新在于，它不是简单地做硬量化。

硬量化的问题是：一个连续值一旦被强行归到某个格子里，就会损失精度。

Discrete-WAM 采用的是软标签插值。

每个连续加速度值，不是只对应一个词条，而是由周围 4 个最近邻词条加权表示。

这样训练时可以学习软标签分布，推理时再反解回连续值。

好处是：

既保留了离散 Token 的建模优势，又减少了硬量化带来的精度损失。

第三类是高层决策 Token。

比如换道意图、目标车道、速度趋势。

这些决策 Token 就像规划过程中的“骨架”。

有了它，模型不是盲目生成一串底层动作，而是先知道大方向，再生成具体控制。

离散 Token 的意义，不只是压缩数据，而是给视觉、动作和决策提供了一套共同语言。

04 三大训练模式：从预测到决策

有了统一的离散空间，Discrete-WAM 进一步设计了三种训练模式。

它不是一下子让模型学会所有事情，而是从“预测世界”逐步走向“生成策略”。

第一种模式叫 World Modeling。

输入是场景上下文和未来动作 Token。

输出是未来视觉 Token。

它学习的是：

给定某个动作，世界会怎样变化？

比如，如果车辆继续直行，前方车辆会不会靠近？行人会不会进入车道？路口场景会如何演化？

这是最典型的世界模型能力。

第二种模式叫 World-Policy Modeling。

输入只有场景上下文。

输出是未来动作 Token 和未来视觉 Token。

这一步开始把预测和决策绑在一起。

模型不仅要预测未来世界，还要预测自己可能采取的动作。

也就是说，它开始学习：

在这个场景下，我会怎么开？这样开之后，世界会怎样？

第三种模式叫 Policy Modeling。

输入仍然是场景上下文。

输出则分成两步：

先预测高层决策 Token，再生成底层动作 Token。

这一步把高层规划和底层控制解耦。

例如，模型可以先决定“向左变道”，再生成具体的加速度和轨迹序列。

世界模型的预测不是终点，而是为策略生成服务的。

这是 Discrete-WAM 最重要的思想之一。

当模型学会了：

如果这样开，世界会变成那样。

它就可以进一步反推：

如果我希望世界变成那样，我应该这样开。

05 推理阶段：先定方向，再改动作

在推理阶段，Discrete-WAM 采用了两层策略。

第一层是决策预测。

模型先预测一个高层决策 Token。

比如：

向左变道。

保持车道。

减速避让。

准备右转。

这个决策 Token 相当于整个规划过程的骨架。

它先确定大方向，避免模型在生成动作时前后矛盾。

第二层是并行动作 Token 编辑。

在高层决策的约束下，模型使用离散扩散模型，并行编辑未来所有动作 Token。

这和传统自回归生成不一样。

自回归方法是一帧一帧往后生成，前一步错了，后面可能跟着错。

而并行动作编辑更像是先画出一条粗略轨迹，再不断修改不确定的部分。

论文还引入了置信度调度机制。

模型先快速生成一条初始轨迹。

然后重点修正那些置信度较低的位置。

这带来了几个好处。

第一，高层决策保证全局一致性。

它可以避免出现“前 3 秒准备左转，后 3 秒又突然右转”这样的矛盾行为。

第二，动作层支持并行生成。

相比逐帧自回归，推理效率更高。

第三，它天然支持反事实评估。

例如，可以直接问模型：

如果我刚才右转了，世界会怎样？

这对于自动驾驶安全验证非常重要。

06 实验亮点：不只是会开车，还会预演

Discrete-WAM 在 nuScenes、OpenScene 等大规模自动驾驶数据集上进行了评估。

论文展示了几个值得关注的结果。

首先是规划性能领先。

在多种规划指标上，Discrete-WAM 超越了现有端到端自动驾驶方法。

这说明统一世界-策略建模并不只是概念好看，而是能实际提升规划效果。

其次是可控未来生成。

模型能够根据指定的高层决策，生成对应的未来视觉场景。

比如给定“变道”意图，模型可以生成与之匹配的未来道路画面。

第三是反事实推理。

给定不同动作序列，模型可以生成不同的未来世界状态。

这意味着它不只是预测“最可能发生什么”，还可以比较“如果我这样做”和“如果我那样做”的差异。

第四是意外度分析。

论文中还展示了一个很有意思的能力：

利用模型的“意外度”来检测分布外场景，也就是 OOD detection。

在自动驾驶这种安全关键场景中，这一点非常重要。

因为真正危险的，往往不是模型见过很多次的普通场景，而是那些它从未充分见过的异常情况。

一个好的自动驾驶世界模型，不仅要知道“未来会怎样”，还要知道“我是不是正在遇到一个不熟悉的未来”。

07 方法论启示：物理世界 AI 的统一范式

Discrete-WAM 的意义，不只在自动驾驶。

它更像是为物理世界 AI 提供了一套通用设计范式：

离散表示对齐。

统一世界-策略训练。

分层 Token 编辑。

这三件事合在一起，指向的是一种新的物理世界推理方式。

过去，感知、预测、规划、控制往往被拆成多个模块。

每个模块都有自己的表示空间。

视觉模型看图。

轨迹模型预测。

规划器做决策。

控制器执行动作。

问题在于，只要表示空间不统一，中间就一定会有信息损失和语义鸿沟。

而 Discrete-WAM 的核心洞察是：

如果视觉、动作和未来状态都能被表示成 Token，它们就可以在同一个 Transformer 空间中被联合建模。

这对自动驾驶之外的机器人、具身智能、工业控制等领域都有启发。

对于优化领域的研究者来说，这项工作还有一个值得关注的地方：

它把预测性世界模型和策略优化，通过共享表示与联合训练进行了对齐。

本质上，这是一种端到端的隐式模型基优化。

你不再需要一个显式的“规划器”或“优化器”。

模型在生成 Token 的过程中，其实已经完成了对未来轨迹的隐式搜索。

当“预测未来”和“选择动作”被统一到同一个生成过程里，规划本身就变成了一种序列生成。

写在最后

自动驾驶正在从“反应式驾驶”迈向“推演式驾驶”。

过去的模型更像是看到什么，就立刻做什么。

而 Discrete-WAM 代表的方向是：

先在内部世界中预演未来，再选择行动。

当然，从论文到真实道路落地，还有很长的距离。

计算效率、实时性、安全验证、极端场景泛化，仍然都是必须解决的问题。

但方向已经越来越清晰：

未来的物理世界 AI，不能只会识别现在。

它必须能想象未来。

从这个意义上说，Discrete-WAM 的价值不只是提出了一种自动驾驶方法，而是提醒我们：

真正可靠的智能体，应该先学会在脑海中开车。

论文信息

标题：Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

作者：Ziyang Yao, Haochen Liu, Yuncheng Jiang, et al.

发布平台：arXiv

发布时间：2026

论文编号：arXiv:2606.05645

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Discrete-WAM:当自动驾驶学会“想象”未来,世界模型与策略学习走向统一

01 自动驾驶的“想象力”缺失

02 什么是 Discrete-WAM？

03 统一离散 Token 空间

04 三大训练模式：从预测到决策

05 推理阶段：先定方向，再改动作

06 实验亮点：不只是会开车，还会预演

07 方法论启示：物理世界 AI 的统一范式

写在最后

最新文章

热门文章

随机文章

Discrete-WAM:当自动驾驶学会“想象”未来,世界模型与策略学习走向统一

01 自动驾驶的“想象力”缺失

02 什么是 Discrete-WAM？

03 统一离散 Token 空间

04 三大训练模式：从预测到决策

05 推理阶段：先定方向，再改动作

06 实验亮点：不只是会开车，还会预演

07 方法论启示：物理世界 AI 的统一范式

写在最后

12万级插混SUV,参数很亮眼?东风风神L7有些坑得先想清楚

奇瑞*引望深化合作:把L3、L4自动驾驶推到＂十五五＂量产前夜

最新文章

热门文章

随机文章