当前位置：首页>自动驾驶>CVPR 2026!自动驾驶相关论文清单(List 2)| 持续更新中

CVPR 2026!自动驾驶相关论文清单(List 2)| 持续更新中

2026-03-07 09:28:54

点击上方蓝字加入我们

✨ CVPR 自动驾驶相关论文持续更新中...

CVPR 自动驾驶相关论文清单（List 2），聚焦近期公开的优质成果。后续将持续跟进，不断更新论文列表，欢迎大家收藏、转发，一起追踪前沿技术动态～

📚 CVPR 自动驾驶论文清单（List 2）

（以下论文均为 CVPR 收录，部分暂未公开的论文将在更新时补充）

论文标题：CycleBEV：通过视图周期一致性规范视图转换网络，实现鸟瞰视角语义分割

核心亮点：提出全新的正则化框架CycleBEV，用于增强现有 VT 模型的 BEV 语义分割性能：借鉴图像分布建模中广泛应用的循环一致性思想，设计逆视图转换（IVT）网络将 BEV 分割图映射回 PV 分割图，并通过循环一致性损失在训练阶段正则化 VT 网络，使其能从输入 PV 图像中捕捉更丰富的语义与几何信息。为进一步挖掘 IVT 网络的能力，作者还提出两种创新思路，将循环一致性拓展至几何空间与特征表示空间。基于大规模 nuScenes 数据集，在覆盖三大主流范式的四款代表性 VT 模型上验证了 CycleBEV 的有效性：该框架仅在训练阶段使用 IVT 网络，未增加推理复杂度，却实现了性能的稳定提升，可行驶区域、车辆、行人类别的 mIoU 分别提升最高 0.74、4.86 和 3.74。

原文链接：https://arxiv.org/abs/2602.23575

项目链接：https://github.com/JeongbinHong/CycleBEV

论文标题：OccuFly：从空中视角实现语义场景完成的3D视觉基准

核心亮点：提出OccuFly，这是首个基于真实相机的空中语义场景补全基准数据集，在 30m、40m、50m 高度及春夏秋冬四季采集，覆盖城市、工业、乡村场景，包含 22 个语义类别，数据格式遵循通用规范以方便与现有工作对接。本文还提出一种无 LiDAR、纯视觉的数据生成框架，借助传统三维重建技术，将部分标注 2D 掩码自动映射到重建点云以完成标签迁移，大幅降低人工 3D 标注成本。最后，本文在 OccuFly 上对现有最优方法进行基准测试，指出高空视角特有的挑战，为空中全域三维场景理解提供了首个综合性视觉基准。

原文链接：https://arxiv.org/abs/2512.20770
项目链接：https://github.com/markus-42/occufly

论文标题：空间检索增强自动驾驶

核心亮点：提出空间检索范式，引入离线获取的地理图像作为额外输入。这类图像可从离线缓存（如谷歌地图、已有的自动驾驶数据集）中轻松获取，无需新增传感器，可作为即插即用模块扩展现有自动驾驶任务。实验中，作者通过谷歌地图 API 检索地理图像扩展 nuScenes 数据集，并与自车轨迹完成对齐，在目标检测、在线建图、占据预测、端到端规划、生成式世界建模这五大核心自动驾驶任务上建立基线。大量实验表明，该新增模态能有效提升多项任务性能。本文将开源数据集构建代码、数据与基准方案，为这一新自动驾驶范式提供研究基础。

原文链接：https://arxiv.org/abs/2512.06865
项目链接：https://spatialretrievalad.github.io/

4. 论文标题：DrivePI：用于统一自动驾驶理解、感知、预测和规划的空间感知4D多模态大模型

核心亮点：提出DrivePI，一款全新的空间感知 4D MLLM，既可作为统一的视觉 - 语言 - 动作（VLA）框架，也兼容视觉 - 动作（VA）模型。该方法通过端到端优化，并行完成空间理解、3D 感知（3D 占据）、预测（占据流）与规划（动作输出）任务；为兼顾精准几何信息与丰富视觉外观，DrivePI 将点云、多视角图像和语言指令整合至统一的 MLLM 架构中，还构建了数据引擎生成文本 - 占据、文本 - 流 QA 对，以实现 4D 空间理解。值得注意的是，仅以 0.5B 规模的 Qwen2.5 模型为骨干，DrivePI 作为单一统一模型，性能已持平或超越现有 VLA 模型与专用 VA 模型：在 nuScenes-QA 上，其平均准确率较 OpenDriveVLA-7B 提升 2.5%，在 nuScenes 上碰撞率较 ORION 降低 70%（从 0.37% 降至 0.11%）；在 OpenOcc 上，3D 占据任务的 RayIoU 较 FB-OCC 提升 10.3，占据流任务的 mAVE 从 0.591 降至 0.509；在 nuScenes 规划任务上，L2 误差较 VAD 降低 32%（从 0.72m 降至 0.49m）。
原文链接：https://arxiv.org/abs/2512.12799

项目链接：https://github.com/happinesslz/DrivePI

5. MindDriver：引入用于自动驾驶的渐进式多模态推理

核心亮点：提出MindDriver，一种渐进式多模态推理框架，使 VLM 能够模仿人类的渐进式思考模式完成自动驾驶决策。MindDriver 构建了 “语义理解→语义到物理空间想象→物理空间轨迹规划” 的完整推理链路；为实现框架内推理过程的对齐，作者开发了反馈引导的自动数据标注流水线，生成对齐的多模态推理训练数据，并设计渐进式强化微调方法，通过基于高阶奖励的渐进式学习优化这种对齐效果。实验表明，MindDriver 在 nuScences 开环测试和 Bench2Drive 闭环评估中均展现出卓越性能。

原文链接：https://arxiv.org/abs/2602.21952
项目链接：https://github.com/hotdogcheesewhite/MindDriver

6. AMap：为前瞻感知在线高精地图构建提取未来先验

核心亮点：提出面向前向感知的在线高精地图构建新框架AMap，开创性设计 “从未来蒸馏” 范式：让可获取未来时序上下文的教师模型，指导仅能利用当前帧信息的轻量级学生模型，将前瞻性知识隐式压缩至学生模型中，使其在无推理时间成本的前提下具备前向感知能力。技术层面，该框架引入带空间掩码的多层 BEV 蒸馏策略与非对称查询适配模块，实现未来感知特征向学生模型静态查询的有效迁移。在 nuScenes 和 Argoverse 2 基准数据集上的大量实验表明，AMap 显著提升了当前帧的感知性能，尤其在关键的前向区域，其性能超越现有最优时序模型，同时还能保持单帧推理的高效性。
原文链接：https://arxiv.org/abs/2512.19150
项目链接：暂未公开

7. SpaceDrive：将空间感知注入基于VLM的自动驾驶

核心亮点：提出基于空间感知 VLM 的驾驶框架SpaceDrive，其将空间信息转化为显式位置编码（PE）而非文本数字令牌，实现语义与空间特征的联合推理。该框架为从多视角深度估计、历史自车状态和文本提示中提取的所有 3D 坐标配置通用位置编码器，先将这些 3D 位置编码叠加以增强对应的 2D 视觉令牌，同时将其作为与任务无关的坐标表征，替代数字令牌成为 VLM 的输入与输出。这一机制让模型能在空间推理中更好地索引特定视觉语义，还可直接回归轨迹坐标而非逐位生成数字，进而提升规划精度。大量实验验证，SpaceDrive 在 nuScenes 数据集上取得最优的开环性能，在 Bench2Drive 闭环基准测试中则以 78.02 的驾驶分数，在现有 VLM 基方法中位列第二。
原文链接：https://arxiv.org/abs/2512.10719
项目链接：https://zhenghao2519.github.io/SpaceDrive_Page/

8. 城市场景分割中的开放词汇域泛化

核心亮点：提出开放词汇语义分割领域泛化（OVDG-SS）这一新研究设定，同时解决未见过的域与未见过的类别两大问题；并构建了自动驾驶领域首个 OVDG-SS 基准数据集，针对这一此前未被探索的研究问题，覆盖了跨多样未知域、未知类别的合成到真实、真实到真实两种泛化场景。研究发现，在 OVDG-SS 设定下，域偏移往往会扭曲预训练 VLM 中的图文关联关系，进而影响 OV-SS 模型的性能，为此本文提出S2-Corr机制，一种由状态空间驱动的图文关联精修方法，能够缓解域偏移引发的扭曲问题，让模型在分布变化下生成更一致的图文关联。在构建的 OVDG-SS 基准数据集上的大量实验表明，该方法相较现有 OV-SS 方案，实现了更优的跨域性能与推理效率。
原文链接：https://arxiv.org/abs/2602.18853
项目链接：https://github.com/DZhaoXd/s2_corr

9. GuideFlow：面向端到端自动驾驶规划的约束引导流匹配

核心亮点：提出基于约束流匹配的全新规划框架GuideFlow：该框架对流程匹配过程进行显式建模，从本质上缓解模式坍缩问题，同时支持各类条件信号的灵活引导。其核心创新在于将显式约束直接施加于流匹配生成过程中，而非依赖隐式的约束编码；同时将流匹配的训练与基于能量的模型（EBM）相统一，增强模型自主优化能力，使其能稳定满足物理约束。此外，GuideFlow 在轨迹生成过程中将驾驶激进程度参数化为控制信号，实现对轨迹风格的精准调控。在 Bench2Drive、NuScenes、NavSim 和 ADV-NuScenes 等主流驾驶基准数据集上的大量实验验证了该框架的有效性，尤其在 NavSim 的高难度测试集（Navhard）上，GuideFlow 以 43.0 的 EPDMS 分数取得当前最优性能。
原文链接：https://arxiv.org/abs/2511.18729
项目链接：https://github.com/liulin815/GuideFlow

10.DriveMoE：用于端到端自动驾驶的视觉-语言-动作模型的专家混合

基于 MoE 的全新 E2E-AD 框架DriveMoE，包含场景专用视觉 MoE 与技能专用动作 MoE 两大核心模块。该框架基于源自具身智能领域的视觉 - 语言 - 动作（VLA）基线模型 Drive - 构建：一方面为 Drive - 新增视觉 MoE，通过训练路由模块根据驾驶场景动态选择相关摄像头，模拟人类驾驶认知中 “选择性关注关键视觉信息而非处理全部视觉输入” 的特点；另一方面新增动作 MoE，训练另一路由模块为不同驾驶行为激活专用专家模块，通过显式的行为专业化设计，让模型能应对多样场景且避免现有模型的模式平均问题。在 Bench2Drive 闭环评估实验中，DriveMoE 取得当前最优（SOTA）性能，验证了将视觉与动作 MoE 结合应用于自动驾驶任务的有效性。本文将开源 DriveMoE 与 Drive - 的代码及模型。