✨ CVPR 自动驾驶相关论文持续更新中...
CVPR 自动驾驶相关论文清单(List 2),聚焦近期公开的优质成果。后续将持续跟进,不断更新论文列表,欢迎大家收藏、转发,一起追踪前沿技术动态~
📚 CVPR 自动驾驶论文清单(List 2)
(以下论文均为 CVPR 收录,部分暂未公开的论文将在更新时补充)
核心亮点:提出全新的正则化框架CycleBEV,用于增强现有 VT 模型的 BEV 语义分割性能:借鉴图像分布建模中广泛应用的循环一致性思想,设计逆视图转换(IVT)网络将 BEV 分割图映射回 PV 分割图,并通过循环一致性损失在训练阶段正则化 VT 网络,使其能从输入 PV 图像中捕捉更丰富的语义与几何信息。为进一步挖掘 IVT 网络的能力,作者还提出两种创新思路,将循环一致性拓展至几何空间与特征表示空间。基于大规模 nuScenes 数据集,在覆盖三大主流范式的四款代表性 VT 模型上验证了 CycleBEV 的有效性:该框架仅在训练阶段使用 IVT 网络,未增加推理复杂度,却实现了性能的稳定提升,可行驶区域、车辆、行人类别的 mIoU 分别提升最高 0.74、4.86 和 3.74。
原文链接:https://arxiv.org/abs/2602.23575
项目链接:https://github.com/JeongbinHong/CycleBEV
核心亮点:提出OccuFly,这是首个基于真实相机的空中语义场景补全基准数据集,在 30m、40m、50m 高度及春夏秋冬四季采集,覆盖城市、工业、乡村场景,包含 22 个语义类别,数据格式遵循通用规范以方便与现有工作对接。本文还提出一种无 LiDAR、纯视觉的数据生成框架,借助传统三维重建技术,将部分标注 2D 掩码自动映射到重建点云以完成标签迁移,大幅降低人工 3D 标注成本。最后,本文在 OccuFly 上对现有最优方法进行基准测试,指出高空视角特有的挑战,为空中全域三维场景理解提供了首个综合性视觉基准。
原文链接:https://arxiv.org/abs/2512.20770
项目链接:https://github.com/markus-42/occufly
核心亮点:提出空间检索范式,引入离线获取的地理图像作为额外输入。这类图像可从离线缓存(如谷歌地图、已有的自动驾驶数据集)中轻松获取,无需新增传感器,可作为即插即用模块扩展现有自动驾驶任务。实验中,作者通过谷歌地图 API 检索地理图像扩展 nuScenes 数据集,并与自车轨迹完成对齐,在目标检测、在线建图、占据预测、端到端规划、生成式世界建模这五大核心自动驾驶任务上建立基线。大量实验表明,该新增模态能有效提升多项任务性能。本文将开源数据集构建代码、数据与基准方案,为这一新自动驾驶范式提供研究基础。
原文链接:https://arxiv.org/abs/2512.06865
项目链接:https://spatialretrievalad.github.io/
4. 论文标题:DrivePI:用于统一自动驾驶理解、感知、预测和规划的空间感知4D多模态大模型
核心亮点:提出DrivePI,一款全新的空间感知 4D MLLM,既可作为统一的视觉 - 语言 - 动作(VLA)框架,也兼容视觉 - 动作(VA)模型。该方法通过端到端优化,并行完成空间理解、3D 感知(3D 占据)、预测(占据流)与规划(动作输出)任务;为兼顾精准几何信息与丰富视觉外观,DrivePI 将点云、多视角图像和语言指令整合至统一的 MLLM 架构中,还构建了数据引擎生成文本 - 占据、文本 - 流 QA 对,以实现 4D 空间理解。值得注意的是,仅以 0.5B 规模的 Qwen2.5 模型为骨干,DrivePI 作为单一统一模型,性能已持平或超越现有 VLA 模型与专用 VA 模型:在 nuScenes-QA 上,其平均准确率较 OpenDriveVLA-7B 提升 2.5%,在 nuScenes 上碰撞率较 ORION 降低 70%(从 0.37% 降至 0.11%);在 OpenOcc 上,3D 占据任务的 RayIoU 较 FB-OCC 提升 10.3,占据流任务的 mAVE 从 0.591 降至 0.509;在 nuScenes 规划任务上,L2 误差较 VAD 降低 32%(从 0.72m 降至 0.49m)。
原文链接:https://arxiv.org/abs/2512.12799
项目链接:https://github.com/happinesslz/DrivePI
5. MindDriver:引入用于自动驾驶的渐进式多模态推理
核心亮点:提出MindDriver,一种渐进式多模态推理框架,使 VLM 能够模仿人类的渐进式思考模式完成自动驾驶决策。MindDriver 构建了 “语义理解→语义到物理空间想象→物理空间轨迹规划” 的完整推理链路;为实现框架内推理过程的对齐,作者开发了反馈引导的自动数据标注流水线,生成对齐的多模态推理训练数据,并设计渐进式强化微调方法,通过基于高阶奖励的渐进式学习优化这种对齐效果。实验表明,MindDriver 在 nuScences 开环测试和 Bench2Drive 闭环评估中均展现出卓越性能。
原文链接:https://arxiv.org/abs/2505.16278
本清单将持续更新,补充更多 CVPR 自动驾驶相关论文;
若有遗漏的优质论文、论文链接更新、代码开源等信息,欢迎在评论区留言补充;
关注公众号,第一时间获取后续论文清单更新通知,追踪 CVPR 自动驾驶前沿动态。
转发给身边做自动驾驶、计算机视觉的朋友,一起学习进步~
另外,欢迎各位小伙伴补充遗漏的CVPR自动驾驶相关论文,一起完善这份清单,共同学习前沿技术~

END
CVPR 2026放榜!自动驾驶相关论文清单(List 1)| 持续更新中
730 万条驾驶交互数据!同济打造自动驾驶 VLA 模型专属增强数据集,破解复杂路况推理难题
[T-ASE] 时空有向图赋能自动驾驶:实现混行交通下智能协商决策
东南 SG-CADVLM:上下文感知解码赋能,让自动驾驶危情模拟更真实
[ ICRA 2026 ] 车辆感知加持,3D 行人姿态预测新成果
ScenePilot:3847 小时跨 63 国驾驶数据,打造自动驾驶 VLMs 评估新标杆
清华 & 现代汽车 音频-情绪-视觉协同:EchoVLA 的多模态 CoT 推理与自动驾驶优化
浙大 & 港大 AutoDriDM: 给自动驾驶 “AI 大脑” 做决策考试,VLMs 的能力边界被说透了!
【TR-C】南理工 & 华科:博弈 + 稀疏性双 buff!自动驾驶极端场景生成算法,精准戳破算法漏洞
复旦 & 理想 & 同济等 SGDrive: 用场景 - 智能体 - 目标三层认知,让 AI 像老司机一样思考
慕尼黑工业提出:聊天控车的LLM 驱动框架,让自动驾驶语音指令精准落地!
CAR 实验室 & 特华拉 DAVOS:毫秒级响应 + 隐私防护双 buff,让自动驾驶又快又安全
清华 & 港中文 & 滴滴 ColaVLA:用 latent 推理 + 并行解码实现高效安全驾驶
西交 & 南理工 HOCD:融合司机意图与状态的协作驾驶方案,冲突率大降 2.4+
华科 & 小米 DriveLaw:让自动驾驶兼具场景想象力与行驶稳定性
港理工 UrbanV2X 多传感器车路协同数据集:3 大场景、含 7 类车载 + 3 类路侧设备,破解城市峡谷自动驾驶定位难题

分享

收藏

点赞

在看