当前位置：首页>自动驾驶>【自动驾驶】清华&阿里最新力作!DeepSight:BEV隐式长时序世界模型,闭环测试暴涨13%创SOTA!

【自动驾驶】清华&阿里最新力作!DeepSight:BEV隐式长时序世界模型,闭环测试暴涨13%创SOTA!

2026-05-15 09:28:43

文章末尾有顶会级idea分享

⚡️《DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving》

📖 导读

在端到端自动驾驶（End-to-End Autonomous Driving）领域，视觉语言模型（VLM）的引入正成为提升决策鲁棒性的新范式。然而，现有的世界模型大多是将通用领域的方法直接套用，存在两大“硬伤”：一是过度关注图像纹理的短时重构（如未来0.5秒的像素预测），导致“目光短浅”且丢失关键语义；二是仅依赖前向视角，缺乏对周围交通参与者的全方位空间感知，极易在复杂交互中引发安全隐患。
为了赋予自动驾驶系统人类级别的认知能力，清华大学、阿里高德与南洋理工大学的研究团队联合提出了 DeepSight。该模型摒弃了传统的像素重建路线，创新性地在鸟瞰图（BEV）空间中对连续未来帧的“隐式语义特征”进行并行预测，实现了真正的长时序世界建模。此外，DeepSight 引入了自适应思维链（Adaptive CoT）机制，在遇到长尾复杂场景时，能动态激活大模型的常识推理能力。在极具挑战的 Bench2Drive 闭环测试中，DeepSight 狂砍 86.23 的驾驶得分（DS）与 71.36% 的成功率（SR），以压倒性优势刷新了 SOTA 纪录！

📷 核心图表

图1 | 不同统一世界模型范式的对比
注：传统的 VLM 世界模型（图a）通过显式输出密码本（Codebook） token 来预测未来的单帧图像，这种“短视”阻碍了长程轨迹规划。而 DeepSight（图b）通过预测未来多帧的 BEV 隐式语义特征，实现了长时序的世界建模，从而能够规划出更安全的未来轨迹。

图2 | DeepSight 整体架构蓝图
资料来源：论文 Figure 2。DeepSight 包含两个核心模块：一是长时序驾驶世界模型，在训练时通过 DINOv3 提取未来多帧 RGB 图像的 BEV 语义特征进行对齐；二是自适应 CoT 模块，在长尾场景下动态整合外部知识（如识别施工标志、消防车等）以增强推理和决策。

📑 核心信息提炼

文献题目： DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving（《DeepSight：基于隐式状态预测的端到端自动驾驶长时序世界建模》）
作者团队： Lingjun Zhang, Changjie Wu, Linzhe Shi, Jiangyang Li, Jiaxin Liu 等（清华大学，阿里高德，南洋理工大学）
发表平台： arXiv（2026年5月11日）
核心数据/指标：
- 闭环测试霸榜：在 Bench2Drive 评测中，驾驶得分（DS）达到 86.23（较前SOTA提升 7.39），成功率（SR）达 **71.36%**（较前SOTA提升 13.63%）。
- 极低推理延迟：强大的自适应 CoT 机制仅带来了约 4.12% 的额外推理延迟。
- 开环轨迹预测：在 nuScenes 数据集上，L2 误差降低至 0.58 米。
核心发现/战绩：
- 相比于基于 VAE 重建未来图像纹理的模型，预测隐式语义特征（DINOv3）能带来 +47.04 DS 的恐怖性能飞跃。
- 将单视角感知升级为 BEV 多视角并行预测，能使系统驾驶得分显著提升 +8.8 DS。
核心创新点：
- 长时序语义预测：利用可学习的 World Queries 并行推理未来多帧的隐式状态，彻底摆脱了自回归生成像素的高昂代价。
- 自适应思维链（Adaptive CoT）：赋予模型自主判断场景复杂度的能力，仅在需避让紧急车辆、复杂交通灯等长尾场景激活大语言模型的常识推理，平衡了智商与速度。
核心主题： 世界模型 (World Models)、端到端自动驾驶 (End-to-End Autonomous Driving)、视觉语言模型 (VLMs)、鸟瞰图 (BEV)、自适应思维链 (Adaptive CoT)
核心受众： 自动驾驶算法工程师、具身智能研究员、大视觉语言模型 (MLLMs) 开发者

❓ 行业发展的 4 大“核心痛点”

沉迷“画图”，丢失语义： 现存的大量端到端世界模型使用 VAE/密码本来重建未来画面的像素纹理，过度拟合天气、光照等无用细节，反而忽略了对驾驶至关重要的底层语义结构。
“目光短浅”的致命伤： 大多数统一架构模型只能预测未来极短时间（如 0.5 秒）的单帧观察，无法为高速行驶或复杂动态环境中的车辆提供足够的避险前瞻时长。
前视视角的空间盲区： 目前大量研究仅局限于前向摄像头视角的预测，缺乏对自车周围全方位移动智能体（Agent）的建模，极易在变道或路口博弈中引发碰撞。
长尾场景的推理黑盒： 基于纯模仿学习的模型在面对训练数据中极少出现的场景（如前方施工、警车逆行）时极易崩溃，缺乏调用人类社会常识进行逻辑推理的机制。

🔧 核心真相：终极拆解“DeepSight 落地的四大现实逻辑”

1. 表征真相：用 DINOv3 提取高级语义，抛弃像素级重建

自动驾驶世界模型不需要知道未来天上的云是什么形状。DeepSight 使用具有强大自监督表征能力的 DINOv3 提取未来环境的语义特征图（Semantic Feature）作为预测目标（Ground Truth）。
实验证明，这种隐式语义建模比 VAE 像素级预测的驾驶得分高出近一倍。 2. 架构真相：在 BEV 空间并行预测，打破自回归的速度诅咒
模型通过接收一组可学习的 World Queries [q_0, q_1, ..., q_4]，在单次前向传播中并行解码出未来多个时间节点（最高预测至 2.0s）的鸟瞰图隐式特征。
BEV 空间自带的 3D 几何先验，加上免去了自回归生成的排队等待，使得 DeepSight 在实现长时序感知的同时，仅比原生 VLM 增加了 3.57% 的延迟。 3. 推理真相：好钢用在刀刃上，自适应 CoT 兼顾“快”与“智”
大语言模型的文本推理（CoT）非常耗时。DeepSight 设计了“按需激活”的机制：模型先观察环境，如果判断是跟车直行等简单场景，则直接输出轨迹并生成一个占位符 T_{\emptyset} 省略推理。
只有在识别到 STOP 标志、施工锥桶等复杂长尾场景时，才会触发生成详细的文本分析，这使得平均推理延迟仅微增 4% 左右。 4. 训练真相：闭环能力来源于海量高质量 CoT 标注
为了让模型学会“何时思考”，团队利用千亿级开源大模型（Qwen3-VL-235B）打造了一条全自动的高精度标注流水线。
经过“场景复杂度评估”到“驱动行为判定”的漏斗过滤，系统为 Bench2Drive 合成了约 130 万条精准的结构化思维链数据，赋予了小模型（3B级别）越级的逻辑判断力。

📊 关键内容与数据看板

表1：Bench2Drive 核心路线闭环评测结果对比（Base Set）

模型/架构方案	所属范式	驾驶得分 (DS) ↑	成功率 (SR) ↑	效率评分 (Efficiency) ↑
VAD	纯端到端 (E2E)	42.35	46.01%	157.94
ReasonPlan	视觉语言模型 (VLM)	64.01	25.63%	180.64
Auto VLA	视觉语言模型 (VLM)	78.84	57.73%	146.93
DeepSight (Ours)	隐式长时序 VLM	86.23	71.36%	201.71
注：在完全一致的 Think2Drive 专家数据协议下，DeepSight 以极大的断层优势超越了此前所有的端到端模型及大模型方案。
表2：世界模型核心设计消融实验（Dev 10 routes）
世界模型设计	预测时序	路线完成度 (RC) ↑	驾驶得分 (DS) ↑	核心结论
---	---	---	---	---
VAE 重建	预测单帧	47.56	27.75	强行预测像素导致系统决策崩溃
DINOv3 语义	预测单帧	90.49	74.79	语义特征对驾驶决策的贡献具有压倒性优势
VAE 重建	预测连续五帧	27.02	14.66	VAE 根本无力支撑长时序动力学建模
DINOv3 语义	预测连续五帧	95.95	86.57	隐式语义 + 长时序 = 完美的闭环世界模型

💬 深度 Q&A

Q1：既然大语言模型（LLM）已经具备了推理能力，为什么还要单独耗费算力去预测 BEV 空间的隐式特征？
A： LLM 的强项是常识推理（比如“看到救护车要让行”），但它的弱项是精确的三维空间定位与动力学推演。如果我们把自动驾驶比作人类驾驶员，LLM 相当于“大脑”，而 BEV 隐式预测则相当于小脑和视觉皮层建立的“时空直觉”。只有并行预测未来多帧的隐式状态，系统才能规划出物理上安全、轨迹平滑的规控动作。
Q2：增加 CoT 思维链输出，会不会导致自动驾驶系统在危险时刻“思考过载”，反应太慢导致车祸？
A：这正是传统 CoT 方法在自动驾驶落地的死穴。DeepSight 采用的 Adaptive CoT（自适应思维链） 完美避开了这个问题。系统在绝大多数常规行驶（如直行跟车）时，会跳过繁琐的文字生成，直接输出轨迹；仅在面临复杂路权博弈或长尾事件时介入。数据表明，该模块在低于 30% 的帧中被激活，整体推理延迟只增加了 4.12%。
Q3：与预测前视相机画面（Front-view）相比，在鸟瞰图（BEV）下做世界模型有什么不可替代的优势？
A：视角的选择直接决定了安全的上限。前视画面受限于透视投影，存在严重的遮挡问题且难以表达深度；而 BEV 俯视图能无死角地呈现自车与周边所有动态目标（行人、车辆）的空间位置关系。消融实验证实，从前视切换到 BEV 空间预测，能让闭环驾驶得分硬生生提高 8.8 分。

🎯 深度点评

核心贡献：

本文精准地切中了 VLM 在自动驾驶领域落地的“痛点”——空有常识但缺乏空间直觉。DeepSight 通过在统一模型内解耦“空间时序动力学（BEV隐式预测）”与“长尾社会常识（自适应CoT）”，为下一代具有高泛化能力、强可解释性的端到端自动驾驶指明了技术路径。

亮点总结：
① 克制的“世界模型”：坚决不卷像素重建，使用 DINOv3 提取纯语义信息，用极低的计算代价换取了对长时序的高效拟合。
② 高情商的算力分配：自适应思维链机制打破了 LLM 引入必致高延迟的魔咒，是极具工程落地价值的巧思。
③ 数据工程的胜利：利用两千亿参数大模型自动化构造超百万条闭环思维链数据，展现了强大的数据飞轮潜力。
不足与局限： 尽管在仿真测试（Bench2Drive）中表现优异，但 VLM 本身庞大的参数量（即便基础模型只有 3B）在部署至真实车端芯片（如 Orin-X）时，其内存占用、KV Cache 调度与极致的实时性要求，仍将是阻碍其大规模上车的严峻挑战。

🌟 总结金句

真正的自动驾驶世界模型，不在于完美地“画”出未来的每一颗像素，而在于精准地“预判”时空演变中的物理语义与因果法则。

📌 互动引导

在端到端自动驾驶演进的过程中，您认为决定系统“安全性”天花板的最关键因素是什么？ ✅ A. 模型对多模态传感器数据的原生融合能力
✅ B. 类似 DeepSight 这种对未来连续时空状态（世界模型）的预判能力
✅ C. 利用人类常识与自然语言处理长尾事件的逻辑推理能力
✅ D. 别整花里胡哨的，闭环强化学习（RL）疯狂试错才是硬道理！
欢迎在评论区留下你的真知灼见！ 👇

🧩 研究方向展望

针对冲刺 CVPR / ICCV / ICLR 等顶会的自动驾驶、世界模型及多模态大模型研究者，基于本文提供以下延伸思路：

融合 3D Gaussian Splatting (3DGS) 的下一代世界模型： 尽管 DeepSight 的 DINOv3 BEV 语义特征大幅提升了决策表现，但二维 BEV 仍然丢失了高度信息。可尝试在 VLM 的隐式预测分支中引入 3DGS 表征，在无需高昂渲染开销的前提下，构建具备高度感知的 3D 隐式世界模型，以应对立交桥、陡坡等复杂三维结构的轨迹规划。
基于异构大模型协作的云端-车端自适应 CoT 蒸馏： 论文中的 Adaptive CoT 仍然依赖车端（本地）的小型 VLM 执行。可探索构建一种异构多智能体架构：日常行驶由纯视觉极简网络控制；一旦触发长尾不确定度阈值，则将场景切片实时回传至云端的“超级大模型”（如 Qwen-Max），由其在云端进行深度的规则链（Rule-based CoT）推理并下发指令，同时将此过程在线蒸馏给车端小模型。
面向多智能体博弈（Multi-Agent Interaction）的共享隐式 BEV 演演： 论文目前的预测主要以自车（Ego）为中心。在无保护左转或狭窄路段会车时，可研究在 DeepSight 框架内加入多 Agent 意图推演机制：让模型在潜在空间中并行预测周围关键车辆的“多模态可能轨迹”，并通过计算这些隐式轨迹的碰撞概率，输出纳什均衡意义下最优的非侵略性驾驶决策。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【自动驾驶】清华&阿里最新力作!DeepSight:BEV隐式长时序世界模型,闭环测试暴涨13%创SOTA!

⚡️《DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving》

📖 导读

📷 核心图表

📑 核心信息提炼

❓ 行业发展的 4 大“核心痛点”

🔧 核心真相：终极拆解“DeepSight 落地的四大现实逻辑”

📊 关键内容与数据看板

💬 深度 Q&A

🎯 深度点评

🌟 总结金句

📌 互动引导

🧩 研究方向展望

最新文章

热门文章

随机文章

【自动驾驶】清华&阿里最新力作!DeepSight:BEV隐式长时序世界模型,闭环测试暴涨13%创SOTA!

⚡️《DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving》

📖 导读

📷 核心图表

📑 核心信息提炼

❓ 行业发展的 4 大“核心痛点”

🔧 核心真相：终极拆解“DeepSight 落地的四大现实逻辑”

📊 关键内容与数据看板

💬 深度 Q&A

🎯 深度点评

🌟 总结金句

📌 互动引导

🧩 研究方向展望

以为享界轿车要起量了,结果4月份享界S9T只卖出1241台

小米开源 OneVL:自动驾驶推理速度翻倍,还能「看到」未来

最新文章

热门文章

随机文章