从数据集、3D感知到端到端规划,这15篇论文构成了自动驾驶技术的完整知识地图
自动驾驶是过去十年人工智能领域落地最成功、技术迭代最迅速的方向之一。从早期的单目视觉、手工特征,到如今的多模态BEV感知、端到端规划,每一次技术跃迁背后,都有一批高引用论文作为“引爆点”。
本文盘点了自动驾驶领域15篇硬核论文,累计引用量超过5万。没有灌水,全是里程碑。关注后台回复【15】获取论文链接。
1. UniAD:以规划为核心的端到端自动驾驶
论文:Planning-oriented Autonomous Driving引用量:1,103
传统自动驾驶系统采用串行式结构:感知→预测→规划。误差会层层累积,难以实现真正的智能驾驶。
UniAD(Unified Autonomous Driving)由上海AI Lab团队提出,将感知、跟踪、预测、交互建模与规划全部纳入统一的Transformer结构。模型并非分别优化各个子任务,而是始终以最终的规划结果为目标进行端到端优化。
在nuScenes上,UniAD在感知、预测和规划三大任务上全面超越SOTA,标志着自动驾驶从“任务堆叠”走向“全栈智能”的转折点。
一句话总结:UniAD开辟了“规划驱动的系统协同”这一重要方向。
2. PointNet:3D点云深度学习的奠基之作
论文:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation引用量:18,000+
在PointNet之前,点云因其无序、非结构化的特性难以直接被深度学习处理,主流做法是将点云投影到2D图像或转化为体素网格。PointNet提出了直接对原始点云进行深度学习的全新架构,核心洞察是利用对称函数(如最大池化)处理点云的无序性。
论文还从理论上证明了PointNet能够近似任何对点集连续的函数,并解释了模型对输入扰动和点缺失的鲁棒性来源。PointNet可同时用于物体分类、部件分割和场景语义解析。
一句话总结:PointNet彻底改变了自动驾驶中激光雷达点云的处理方式,PointNet++成为后续LiDAR感知的事实基准。
3. KITTI:自动驾驶视觉研究的“原点”
论文:Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite引用量:18,995
KITTI数据集由德国卡尔斯鲁厄理工学院与丰田技术研究院联合发布,是自动驾驶视觉研究绕不开的基准。
它采集自真实道路场景,搭载多相机、激光雷达和高精定位系统,涵盖立体视觉、光流估计、视觉里程计/SLAM、3D目标检测等核心任务。共包含超过20万个3D标注和39.2公里的驾驶序列。
论文最重要的洞察是:许多在室内数据集(如Middlebury)上表现优异的算法,在真实户外环境中性能骤降——这揭示了从实验室到真实道路的鸿沟。
一句话总结:KITTI让自动驾驶视觉研究有了“共同的考场”。
4. DeepDriving:直接感知的先行者
论文:DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving引用量:2,636
普林斯顿大学萧健雄团队提出了一种极具前瞻性的思路:让模型直接“看懂路”,而不是先识别万物再决策。
当时的主流方法分为两类:中介感知(先识别再决策)和行为反射(图像直接映射到控制指令)。DeepDriving走了一条中间路线——直接感知。
模型不识别所有物体,而是学习一组关键的可供性指标:车道距离、前车距离、车速差等。CNN从图像中直接估计这些指标,再由简单控制器完成驾驶决策。模型在虚拟游戏上训练后,竟能成功迁移到KITTI真实场景。
一句话总结:DeepDriving是端到端驾驶与“感知即控制”理念的源头之一。
5. Motion Planning for Autonomous Driving:规划领域最全面综述
论文:Motion Planning for Autonomous Driving: The State of the Art and Future Perspectives引用量:约2,000+
运动规划是自动驾驶模块化架构中的核心环节,连接上游感知模块与下游控制执行。这篇综述系统梳理了自动驾驶运动规划领域近二十年的技术演进,涵盖行为规划、轨迹规划、混合规划三大分支。
论文重点分析了基于采样的规划器(如RRT家族)、基于优化的规划器(如EM Planner)以及基于学习的规划器各自的优劣与适用场景。作者指出,混合运动规划——即将采样、优化与学习方法有机融合——是当前最具前景的方向。
一句话总结:这是运动规划领域最新、最全面的综述,入门规划方向的必读导航图。
6. nuScenes:多模态感知的里程碑
论文:nuScenes: A Multimodal Dataset for Autonomous Driving引用量:8,819
如果说KITTI是视觉时代的起点,nuScenes就是多模态融合时代的里程碑。
它是首个真正覆盖全车感知系统的公开数据集:6个摄像头 + 5个毫米波雷达 + 1个激光雷达,提供完整的360°视野。包含1000段驾驶场景,每段约20秒,标注了23类物体与8种属性,总标注量是KITTI的7倍。
nuScenes的出现,让研究者第一次能够系统研究图像、激光雷达、雷达的融合感知与跟踪问题,为后续BEV表征、3D检测、多目标跟踪提供了统一的实验平台。
一句话总结:从“看得到”到“看得全”,nuScenes定义了多模态感知的标准。
7. End to End Learning for Self-Driving Cars(NVIDIA PilotNet)
论文:End to End Learning for Self-Driving Cars引用量:约4,600
这是端到端自动驾驶领域最具标志性的论文之一。NVIDIA团队训练了一个卷积神经网络,将单个前视摄像头的原始像素直接映射到方向盘转角指令。
该网络——被称为PilotNet——仅需少量人类驾驶数据即可学会在各种道路条件下平稳行驶。后续的可解释性研究表明,PilotNet不仅学会了车道线、路沿等显而易见的特征,还能自主捕捉灌木丛、非常规车辆等工程师难以预编码的“隐性特征”。
一句话总结:PilotNet以极简设计证明了“原始像素→驾驶指令”的可行性,为UniAD等全栈端到端系统奠定了思想基础。
8. BEVFormer:纯视觉感知的范式革命
论文:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers引用量:2,018
BEVFormer的出现,几乎重新定义了纯视觉感知在自动驾驶中的地位。
核心创新是BEV Query(鸟瞰查询点)。这些查询点通过空间交叉注意力在多摄像头视角中查找并聚合对应区域特征,获得空间一致的全局表示;同时利用时间自注意力融合前一时刻的BEV信息,实现时序上的连续感知。
在nuScenes上,BEVFormer达到56.9%的NDS,比此前最优方法高出9个百分点,性能已可媲美激光雷达方案。
一句话总结:BEVFormer让纯视觉方案第一次接近了多模态感知的上限。
9. Trajectory Prediction for Autonomous Driving:轨迹预测权威综述
论文:A Survey on Trajectory-Prediction Methods for Autonomous Driving引用量:约1,300
轨迹预测是自动驾驶决策系统的关键前序任务,直接决定车辆能否安全应对动态交通参与者。这篇综述系统回顾了近二十年的轨迹预测方法,将现有方法分为三大类:基于物理的模型、基于经典机器学习的模型以及基于深度学习的模型(如RNN/LSTM、Transformer、图神经网络等)。
论文特别强调了对交互感知预测的讨论——在多智能体场景中,车辆的轨迹预测不仅要考虑自身运动,还要准确建模周围车辆、行人之间的相互影响。
一句话总结:这是轨迹预测领域的权威导航文献,适合作为入门预测研究的起点。
10. MV3D:多模态3D检测的开山之作
论文:*Multi-View 3D Object Detection Network for Autonomous Driving*引用量:4,271
MV3D由清华大学与百度联合提出,是最早系统地将激光雷达与图像融合的深度学习框架。
核心思路:将稀疏的激光点云分别投影为鸟瞰图(BEV)和前视图,再结合摄像头图像,共同输入神经网络进行特征提取与融合。模型从BEV图生成3D检测候选框,再通过“深度融合模块”将多视角特征进行联合预测。
在KITTI上,MV3D将3D检测和定位精度分别提升约25%和30%,显著领先同期方法。
一句话总结:MV3D证明了“激光雷达+图像”的多模态融合是3D检测的正确路径。
11. CARLA:自动驾驶的“虚拟试验场”
论文:CARLA: An Open Urban Driving Simulator引用量:8,473
在真实道路上验证自动驾驶系统,成本高、风险大、不可复现。CARLA的诞生改变了这一切。
由Intel Labs、丰田研究院和巴塞罗那计算机视觉中心联合开发,CARLA是首个开放源码的城市级自动驾驶仿真平台。它提供了大量可自由配置的城市道路、建筑物、行人、车辆等数字资产,支持灵活设置传感器套件和天气光照条件。
论文对比了三种驾驶策略:传统模块化控制、模仿学习的端到端驾驶、强化学习的策略模型。如今,CARLA已成为自动驾驶研究的“虚拟试验场”。
一句话总结:CARLA让端到端驾驶、强化学习、规划控制算法有了统一的测试平台。
12. Waymo Open Dataset:工业级规模的感知基准
论文:Scalability in Perception for Autonomous Driving: Waymo Open Dataset引用量:4,432
Waymo将自家自动驾驶车队积累的数据公开,打造了迄今规模最大、质量最高的工业级感知数据集。
包含1150个真实驾驶场景,每个场景持续约20秒,覆盖多地理区域、多天气、多交通密度,多样性比之前最大的公开数据集高出15倍。所有帧都带有精确的2D与3D边界框标注,并保持跨帧一致的目标ID。
论文还系统分析了数据规模与跨地域泛化对3D检测性能的影响,提供了强力基线模型。
一句话总结:Waymo Open Dataset让学术研究第一次能在接近真实工业数据的规模上验证算法。
13. Object Scene Flow:让机器理解物体的运动
论文:Object Scene Flow for Autonomous Vehicles引用量:2,925
来自KITTI作者团队的又一力作。对象级场景流的提出,让机器不仅能“看见”物体,还能“理解”它们如何运动。
核心思想:假设场景可以分解为若干独立运动的刚体物体,将每个物体的运动参数与对应的3D超像素平面联合建模。通过刚体+超像素+条件随机场的组合,模型既能估计像素级运动,又能自动分割出独立的动态目标。
作者还基于KITTI手动构建了400个带真实运动标注的动态场景数据集,填补了当时缺乏真实3D运动真值的空白。
一句话总结:动态场景理解与3D运动估计的奠基之作。
14. Multi-Task Learning for Autonomous Driving:多任务感知综述
论文:Multi-Task Learning for Autonomous Driving: A Survey引用量:增长迅速(近年发表)
自动驾驶系统通常需要同时完成多项感知任务:3D目标检测、语义分割、深度估计、实例分割等。传统做法是为每个任务训练独立模型,导致计算冗余且任务间无法共享知识。
这篇综述系统回顾了多任务学习在自动驾驶中的应用,涵盖硬参数共享、软参数共享、注意力机制融合等主流架构设计。论文指出,多任务学习的核心挑战在于任务间的梯度冲突与优化平衡,并介绍了梯度手术、任务不确定性加权等解决方案。
一句话总结:在车载计算资源受限的背景下,这是了解多任务感知最新进展与优化策略的必读综述。
15. Deep Reinforcement Learning for Autonomous Driving: A Survey
论文:Deep Reinforcement Learning for Autonomous Driving: A Survey引用量:3,036
这是一份DRL在自动驾驶领域最系统的综述。
论文回顾了RL与DRL的核心算法体系(DQN、PPO、SAC等),并以驾驶任务为线索,将应用划分为行为决策、轨迹规划、控制执行、多智能体交互等子领域。
更重要的是,它深刻讨论了DRL落地的现实挑战:高维状态空间、样本效率低、安全约束、不可复现性等。作者指出,仿真+迁移学习将是强化学习走向实车的关键桥梁。
一句话总结:这是入门自动驾驶决策方向的必读综述,也是一张“RL驱动智能决策”的技术路线图。
写在最后
从KITTI的数据基准奠基,到PointNet开创的点云深度学习范式,再到BEVFormer的纯视觉革命、UniAD的端到端规划——这15篇论文共同勾勒出自动驾驶技术从模块化走向统一化、从感知驱动走向规划驱动的完整演进路径。
如果时间有限,建议优先精读:
KITTI + nuScenes + Waymo(理解三大数据基准)
PointNet + MV3D + BEVFormer(掌握3D感知技术演进)
UniAD + PilotNet(看清端到端驾驶的过去与未来)
Motion Planning + Trajectory Prediction + DRL综述(建立规划与决策的全景认知)
欢迎收藏、转发,与更多同行分享~