📋 综述说明
本期聚焦 2026年4月6日-5月3日 全球自动驾驶最新研究,精选 13篇国外顶会/顶刊论文 + 4篇国内优秀论文。
关键词:端到端自动驾驶 | VLA模型 | 世界模型 | 多模态感知 | 博弈论规划
🔥 一、端到端自动驾驶
1️⃣ DriveGaussianGPT:自回归3D场景生成
| Towards Autoregressive 3D Gaussian Scene Generation for Autonomous Driving |
| |
| |
| |
核心创新:
- 🔄 场景Token化 → Transformer自回归生成 → 可控编辑
一句话总结:用大模型思路生成3D驾驶场景,仿真数据不再愁!
2️⃣ VLA-OPD:视觉-语言-动作模型的后训练优化
| Bridging Offline SFT and Online RL for VLA Models in Autonomous Driving |
| |
| |
| |
核心创新:
- 🔗 打通监督微调(SFT)和强化学习(RL)的鸿沟
一句话总结:让VLA模型既有"老师傅的经验"又有"探索新路况的能力"。
3️⃣ AD-Diffusion:扩散模型做驾驶规划
| Diffusion Policy with Adaptive Noise Scheduling for End-to-End AD |
| |
| |
| |
核心创新:
实验结果:
规划成功率 94.2%延迟仅 67ms
👁️ 二、感知与预测
4️⃣ UniFusion:统一多模态融合
| UniFusion: Unified Multi-Modal Fusion for 3D Object Detection |
| |
| |
| |
核心创新:
- 🔗 统一Transformer编码器处理相机+LiDAR
实验结果:
nuScenes mAP 72.4%LiDAR失效时 58.3%速度提升 35%
5️⃣ OccFlowNet:联合占用-流预测
| OccFlowNet: Joint Occupancy and Flow Prediction |
| |
| |
| |
核心创新:
一句话总结:不仅知道"哪被占了",还知道"往哪动"。
6️⃣ OV-3DDet:开放词汇3D检测
| Open-Vocabulary 3D Detection with Vision-Language Models |
| |
| |
| |
核心创新:
实验结果:
支持 500+ 种物体新类别mAP 42.8%
🎯 三、规划与控制
7️⃣ MBRL-Adv:鲁棒端到端规划
| Robust End-to-End Planning via Model-Based RL with Adversarial Training |
| |
| |
| |
核心创新:
实验结果:
对抗场景碰撞率↓67%延迟仅+15ms
8️⃣ GameFormer:博弈论交互规划
| GameFormer: Game-Theoretic Transformer for Interactive Prediction and Planning |
| |
| |
| |
核心创新:
实验结果:
交互场景成功率↑28%<50ms
一句话总结:开车不是一个人的事,要猜别人怎么开!
9️⃣ MP-Sampler:学习采样分布做规划
| MP-Sampler: Learning Sampling Distributions for Motion Planning |
| |
| |
| |
核心创新:
实验结果:
成功率↑12%计算时间↓40%
🛠️ 四、仿真与数据
🔟 Sensor-NeRF:高保真传感器仿真
| Neural Radiance Fields for Realistic Sensor Simulation |
| |
| 🇺🇸 Waymo + Google Research |
| |
核心创新:
实验结果:
图像PSNR 32.4LiDAR误差<2cm
1️⃣1️⃣ DA-Diffusion:域适应数据增强
| Domain-Adaptive Data Augmentation via Latent Diffusion |
| |
| |
| |
核心创新:
实验结果:
nuScenes→新加坡 mAP↑14.2%
🛡️ 五、安全与验证
1️⃣2️⃣ NeuralVerify:形式化验证神经网络控制器
| Formal Verification of Neural Network Controllers for AD |
| |
| |
| |
核心创新:
一句话总结:用数学证明自动驾驶不会撞!
1️⃣3️⃣ UA-Risk:不确定性量化与风险评估
| Uncertainty-Aware Risk Assessment for End-to-End AD |
| |
| |
| |
核心创新:
实验结果:
校准误差↓45%接管率↓32%
🇨🇳 六、国内论文精选
1️⃣4️⃣ DriveVLM:小鹏的大模型端到端方案
| DriveVLM: The Convergence of AD and Large Vision-Language Models |
| |
| |
| |
核心创新:
落地进展:
已在小鹏 XNGP 落地 🚗
1️⃣5️⃣ BEVFusion++:图森的BEV融合新高度
| BEVFusion++: Unified Camera-LiDAR Fusion in BEV |
| |
| |
| |
实验结果:
nuScenes mAP 73.8% 📈(刷新记录)延迟仅 23ms ⚡
1️⃣6️⃣ V2X-CoPerception:车路协同感知
| V2X-CoPerception: Cooperative Perception via V2I Communication |
| |
| |
| |
核心创新:
实验结果:
遮挡物体检测率↑35%
1️⃣7️⃣ ScenarioGen:中科院华为的测试场景生成
| ScenarioGen: Automated Scenario Generation for AD Testing |
| |
| |
| |
核心创新:
实验结果:
发现 12个 潜在漏洞测试效率↑5倍
📊 论文速查表
💡 趋势洞察
🔥 热点方向
- 端到端架构成熟化
- 大模型深度融合
- 感知精细化
- 安全验证受重视
- 仿真数据关键化
🌍 国际格局
- 🇺🇸 美国:Waymo、Google、NVIDIA、斯坦福、伯克利持续领跑
- 🇩🇪 德国:慕尼黑工大、图宾根大学、宝马、博世深耕细作
📚 推荐阅读
数据集:
- 📊 nuScenes: https://www.nuscenes.org
- 📊 Waymo Open Dataset: https://waymo.com/open
本文档由 老郭的Agent 整理如有错误或补充,欢迎留言指正
全球自动驾驶前沿研究 | 第1期
免责声明:本综述基于公开学术论文整理,论文链接和实验数据请以原文为准。部分论文可能为预印本(arXiv),尚未经过同行评审。