✨ CVPR 自动驾驶相关论文持续更新中...
CVPR 自动驾驶相关论文清单(List 4),聚焦近期公开的优质成果。后续将持续跟进,不断更新论文列表,欢迎大家收藏、转发,一起追踪前沿技术动态~
📚 CVPR 自动驾驶论文清单(List 1-3)缺失文章与代码链接已更新到留言板
CVPR 2026放榜!自动驾驶相关论文清单(List 1)| 持续更新中
CVPR 2026!自动驾驶相关论文清单(List 2)| 持续更新中
核心亮点:构建了首个面向泊车场景三维重建的基准数据集 ParkRecon3D,包含四路已标定外参的环视鱼眼相机数据及密集车位标注;同时提出首个融合 3D 高斯 Splatting的泊车场景重建框架 ParkGaussian,并设计车位感知引导的重建策略,借助现有泊车感知方法强化车位区域重建质量,提升重建结果与下游车位检测任务的对齐效果。在 ParkRecon3D 数据集上的实验表明,所提方法不仅实现了当前最优的重建质量,还能更好地保证下游任务的感知一致性。
原文链接:https://arxiv.org/abs/2601.01386
项目链接:https://github.com/wm-research/ParkGaussian
核心亮点:提出统一的视觉 - 语言 - 动作框架 ColaVLA,将文本推理迁移至统一隐空间,并与分层并行轨迹解码器相结合。其认知隐式推理器通过自车自适应选择和仅两次视觉语言模型前向推理,将场景理解压缩为紧凑的、面向决策的元动作嵌入;随后分层并行规划器通过单次前向传播生成多尺度、因果一致的轨迹。整体框架在保留视觉语言模型泛化性与可解释性的同时,实现了高效、精准且安全的轨迹生成。在 nuScenes 数据集上的实验表明,ColaVLA 在开环与闭环设置下均取得了 SOTA 性能,同时具备优异的运行效率与鲁棒性。
原文链接:https://arxiv.org/abs/2512.22939
项目链接:https://github.com/pqh22/ColaVLA
核心亮点:提出一种新颖框架SGDrive,该框架围绕驾驶特定的知识层次,明确构建VLMs的表征学习过程。SGDrive以预训练VLM为骨干网络,将驾驶理解分解为场景-智能体-目标的层次结构,这一结构与人类驾驶认知相契合,驾驶员首先感知整体环境,随后关注对安全至关重要的智能体及其行为,最后在执行动作前制定短期目标。这种层次化分解弥补了通用VLMs缺乏的结构化时空表征,将多层面信息整合为紧凑且全面的形式,用于轨迹规划。在NAVSIM基准数据集上的大量实验表明,SGDrive在仅使用相机的方法中,于PDMS和EPDMS任务上均取得了当前最优性能,验证了层次化知识结构化在将通用VLMs适配于自动驾驶场景中的有效性。
原文链接:https://arxiv.org/abs/2601.05640
项目链接:https://github.com/LogosRoboticsGroup/SGDrive
4. 论文标题:DriveLaW: 在潜在驾驶世界中统一规划与视频生成
核心亮点: 提出一种新颖范式DriveLaW,将视频生成与运动规划进行统一。该范式通过将视频生成器的隐空间表征直接注入规划器,确保高保真未来场景生成与可靠轨迹规划之间的内在一致性。具体而言,DriveLaW包含两个核心组件:DriveLaW-Video和DriveLaW-Act,两个组件均通过三阶段渐进式训练策略进行优化。我们的统一范式的优势通过两项任务上的最新最优结果得到验证:DriveLaW不仅显著推动了视频预测技术的发展,在FID指标上超越最优现有方法33.3%、在FVD指标上超越1.8%,还在NAVSIM规划基准数据集上创下新纪录。
原文链接:https://arxiv.org/abs/2512.23421
项目链接:https://github.com/xiaomi-research/drivelaw
5.论文标题: WorldLens: 驾驶世界模型在现实世界中的全谱评估
核心亮点:构建了WorldLens-26K数据集,这是一个包含人类标注视频的大规模数据集,附带数值评分和文本说明,并开发了WorldLens-Agent评估模型,该模型从这些标注中提炼而来,能够实现可扩展、可解释的评分。基准测试、数据集和评估模型共同构成了一个统一的生态系统,用于衡量世界真实性,不仅通过视觉逼真度,更通过行为真实性,为未来模型的评估提供标准化依据。
原文链接:https://jeongyh98.github.io/dsertroll/static/
pdfs/paper.pdf

END
CVPR 2026!自动驾驶相关论文清单(List 2)| 持续更新中
CVPR 2026放榜!自动驾驶相关论文清单(List 1)| 持续更新中
730 万条驾驶交互数据!同济打造自动驾驶 VLA 模型专属增强数据集,破解复杂路况推理难题
[T-ASE] 时空有向图赋能自动驾驶:实现混行交通下智能协商决策
东南 SG-CADVLM:上下文感知解码赋能,让自动驾驶危情模拟更真实
[ ICRA 2026 ] 车辆感知加持,3D 行人姿态预测新成果
ScenePilot:3847 小时跨 63 国驾驶数据,打造自动驾驶 VLMs 评估新标杆

分享

收藏

点赞

在看