自动驾驶系统不能只"看见当下",还需可"预见未来",即自动驾驶车辆在进入现实场景复杂交通环境时,需要实时预测周围交通如何演化,在线评估候选动作的后果,并在闭环执行中持续修正决策。近年来,人工智能赋能的自动驾驶研究重心正在从感知与短时预测,转向能够生成未来场景、滚动推演状态、服务规划决策的世界模型。它既可以生成未来视频、BEV、占据栅格或点云,也可以在规划循环中提供代价、风险、奖励、约束与不确定性信息。
对此,来自同济大学、复旦大学、华东师范大学、深圳北理莫斯科大学和加拿大英属哥伦比亚大学的研究人员首次从模型预测控制(Model Predictive Control, MPC)视角对自动驾驶世界模型进行了系统性分析,完成首篇题为「World Models for Autonomous Driving: From Future Generation to Decision Making」的长文综述论文,以期规范领域发展并启发服务于真实自动驾驶感知、预测、规划和控制任务的世界模型研究。
项目主页:(含论文全文)https://huanghuan945-ops.github.io/ADWM-survey/

图1 自动驾驶、世界模型与自动驾驶世界模型相关研究趋势
◆ PART 01 从MPC视角重新理解世界模型
区别于其他世界模型综述,该文并未简单按模态或生成架构进行现有文献梳理,而是采用MPC视角,将自动驾驶世界模型视为一种可被规划器调用的预测转移接口。自动驾驶场景可用的世界模型不只是"画出逼真的未来",还应当支持动作条件下的状态滚动、约束推理、代价评估、不确定性传播和滚动时域决策。未来画面再真实,如果不能被规划器稳定、可解释、可验证地消费,仍然难以证明其系统价值。

图2 综述整体路线图:从定义、分类、比较到评价生态与开放挑战
◆ PART 02 任务导向:三类自动驾驶世界模型
围绕"未来如何被预见和使用"这一核心问题,该综述将现有自动驾驶世界模型划分为三类:未来世界生成、基于世界模型的规划,以及预测—规划混合式世界模型。

图3 自动驾驶世界模型的任务导向分类
01 未来世界生成:关注如何在视觉、BEV、占据、LiDAR等空间中表示和滚动生成驾驶环境。
02 基于世界模型的规划:将想象出的未来转化为轨迹评分、策略学习或MPC式候选动作评估。
03 预测—规划混合模型:进一步耦合世界建模与决策执行,走向统一表示、闭环交互与可执行系统。

未来世界生成:视觉、BEV、占据与LiDAR世界模型

基于世界模型的规划:轨迹评估、潜变量决策学习与自适应MPC规划
预测—规划混合模型:从生成未来到闭环决策系统◆ PART 03 跨范式比较:机制、表征与规划效用
该综述进一步比较了不同表征空间和建模机制的取舍。图像/视频世界模型具有较强的直观性和可视化能力,但在线规划成本较高;BEV和占据表示更贴近几何、自由空间和碰撞检测;LiDAR模型保留三维结构;潜变量模型则在滚动效率和策略学习方面更具优势。
在机制层面,扩散模型适合高维多模态生成,自回归模型适合序列化未来建模,潜动态模型适合快速滚动和策略优化,混合机制则试图在生成质量、控制条件、几何约束和计算效率之间取得平衡。因此,该综述明确指出:自动驾驶世界模型不应只按真实感排序,而应看它是否暴露了规划所需的状态、约束、风险和代价变量。
◆ PART 04 评价生态:从开放环到闭环证据
训练数据集、仿真平台、指标和基准协议共同决定了一个世界模型的证据强度。开放环评估可复现、成本低,适合调试预测和生成质量;但当模型进入规划器后,预测会影响自车动作,动作又会改变未来观测,形成反馈闭环。因此,该综述强调要把感知质量、几何正确性、条件可控性、规划指标和安全指标分层报告。仅有FVD、FID或位移误差并不足以证明模型能改善驾驶;闭环仿真、交互智能体、场景多样性和尾部风险分析同样关键。
数据集:nuScenes、Waymo、Argoverse、nuPlan、Occ3D等为多模态世界建模提供经验与监督。
仿真平台:CARLA、MetaDrive、Waymax、Bench2Drive等用于测试闭环执行和交互鲁棒性。
评价指标:视觉质量、几何一致性、可控性、安全、进度、舒适性和规则遵守需要共同构成证据链。
◆ PART 05 未来挑战:让想象真正服务安全
面向下一阶段,该综述论文总结了五个相互关联的挑战:长时域滚动可靠性、统一多模态世界表示、从生成质量到规划效用的桥接、效率与规模化部署,以及基础模型辅助的安全评估。
其中,长时域可靠性是核心瓶颈。世界模型不仅要生成更长的视频或状态序列,还要保证滚动误差不会破坏安全边界。统一多模态表示也并非简单融合传感器特征,而是要在视觉外观、三维几何、地图拓扑、交互关系、动作和语言之间保持物理一致性。未来的基准测试应建立从感知质量、行为对齐到闭环后果的完整证据链,让世界模型从"好看"走向"好用",最终成为自动驾驶系统中可靠的预测与决策组件。

图4 面向MPC视角的自动驾驶世界模型未来挑战
◆ 主要作者介绍

黄涵,同济大学电子与信息工程学院电子信息专业硕士研究生,于2025年获中南大学交通工程学士学位。研究方向包括自动驾驶、世界模型与智能交通系统。

杨鼎康,Fysics AI首席技术官、联合创始人,香港中文大学MM Lab访问学者,于2025年获复旦大学计算机应用技术专业博士学位,研究方向包括多模态学习、生成式人工智能与具身智能。

郭露露,同济大研究员,分别于2014年和2019年获吉林大学车辆工程学士学位和控制工程博士学位,并于2019-2021年任美国佐治亚大学博士后研究员。研究方向包括先进车辆控制、能量管理与车辆网络安全。

程晶,华东师范大学副研究员,于2022年获复旦大学电子信息博士学位。研究方向包括光纤传感与人工智能。

刘洋,同济大学助理教授,分别于2020年和2025年获得获南京大学自动化专业学士学位和复旦大学计算机应用技术专业博士学位,研究方向为具身感知及其在自动驾驶系统中的应用。

Victor C. M. Leung,加拿大皇家科学院院士,加拿大工程院院士,国际电气电子工程师学会终身会士(IEEE Life Fellow)和加拿大工程学会会士,现为深圳北理莫斯科大学人工智能研究院院长和加拿大英属哥伦比亚大学荣休教授暨无线网络与移动系统实验室主任。梁教授曾任UBC电机与计算机工程系教授,TELUS移动通信工程讲席教授,以及IEEE通信学会的杰出报告人。梁教授在无线网络、移动计算、智能系统等领域发表2200余篇学术论文和著作,引用80000余次,H因子132,多篇论文获得最佳论文奖,包括2017 IEEE通信学会Fred W. Ellersick奖等,并且是Clarivate Analytics认定的高引作者。梁教授曾获得2011年UBC Killam研究奖、IEEE温哥华分会100周年纪念奖等多项荣誉。梁教授长期担任多个计算机科学相关CCF A类/中科院一区期刊编委,作为会议总主席先后在世界各国组织举办了多个具有较大影响力的国际学术会议。

陈虹,同济大学教授、国际电气电子工程师学会会士(IEEE Fellow)、中国自动化学会会士(CAA Fellow),国家杰出青年科学基金获得者,曾任同济大学电子与信息工程学院院长和吉林大学汽车仿真与控制国家重点实验室主任。陈教授于1983年和1986年分别获浙江大学过程控制及自动化仪表专业工学学士和硕士学位,1997年以最高荣誉获德国斯图加特大学工学博士学位。陈教授长期从事先进优化控制、非线性控制及其在车辆系统中的应用研究,主持国家自然科学基金重大与重点项目、国家重点研发项目等科研任务。