当前位置：首页>自动驾驶>ICMR2026 自动驾驶多模态 3D 目标检测综述

ICMR2026 自动驾驶多模态 3D 目标检测综述

2026-06-26 10:28:08

Armor推荐理由
自动驾驶感知最难的地方，已经从单个传感器能力竞争，转向雨雾、远距、小目标、遮挡和实时推理之间的系统级取舍。
这篇 ICMR 2026 综述把 Camera、LiDAR、毫米波雷达、4D Radar 和跨模态交互放到同一张地图里，对 300 多篇论文做了路线分类和性能对比。它的价值不在某个单点 SOTA，而在于把“谁更准、谁更快、谁更便宜、谁更抗天气”这些工程问题摆到了一起。
对自动驾驶感知系统来说，多模态 3D 检测已经进入“传感器拼图”阶段：拼得好，系统更稳；拼得重，成本、延迟和部署复杂度都会反噬。

原论文信息

论文标题： Multi-Modal 3D Object Detection in Autonomous Driving

发表日期： 2026年06月

发表单位： 华东师范大学

期刊： International Conference on Multimedia Retrieval 2026 (ICMR 2026)

原文链接： https://dl.acm.org/doi/10.1145/3805622.3810700

开源代码： 未开源

通讯作者： Xin Lin，华东师范大学

雨雾夜路上，单一传感器为什么会失手？

一辆自动驾驶车在夜雨里靠近路口，摄像头还能看见红绿灯和车道线，但远处行人的深度不可靠；LiDAR 给出空间结构，却会被雨雾和稀疏点云拖累；毫米波雷达能扛天气，还能给速度信息，但轮廓分辨率不够细。真正上车之后，感知系统面对的是一组互相牵制的硬件约束。

这篇综述讨论的核心问题，就是自动驾驶 3D 目标检测里这块“传感器拼图”该怎么拼。

第一个矛盾是精度和成本。Camera-LiDAR 组合在 KITTI、Waymo 等基准上长期占优，因为摄像头补语义，LiDAR 补空间几何。但 LiDAR 价格、安装、标定和恶劣天气稳定性都会进入整车 BOM 和维护成本。

第二个矛盾是鲁棒性和分辨率。Camera-Radar 成本更低，也更适合雨雾、低光和动态目标跟踪。问题在于普通毫米波雷达点云稀疏，角分辨率有限，对小目标、复杂外形和密集交通的表达能力弱。

第三个矛盾是模型能力和实时部署。深度融合、Transformer、跨模态交互能提高精度，但也会增加特征对齐、BEV 表示、注意力计算和多传感器同步的开销。车端嵌入式系统不只看 mAP，还要看 FPS、功耗、片上内存和数据带宽。

现有路线大致可以分成几类：

•

🚗 Camera-LiDAR 融合：精度强，空间和语义互补明显，但硬件成本和标定复杂度高。

•

📡 Camera-Radar 融合：更便宜、更抗天气，还能利用速度信息，但检测精细结构时吃亏。

•

🔦 LiDAR-Radar 融合：适合远距和动态场景，但两个传感器的数据稀疏性和成本问题仍然存在。

•

🧠 跨模态交互：通过注意力、对齐和知识蒸馏让模态之间互相补课，但工程上更依赖算力和稳定标定。

这些路线共同卡在同一个问题上：多模态检测的关键，是在不同传感器的短板之间寻找最不吃亏的组合。

化繁为简的妙招：从“堆传感器”到感知拼图

如果只按“用了哪些传感器”来分类，多模态检测很快会变成方法名列表。论文作者更有用的处理，是把传感器组合、融合阶段、跨模态交互和应用挑战拆开看，让读者能从系统设计角度判断一条路线适合什么场景。

第一层是传感器维度。摄像头、LiDAR、Radar、4D Radar 分别提供语义、几何、速度、全天候和更高维运动信息。它们更像能力互补关系。摄像头看得“像不像”，LiDAR 看得“在哪儿”，雷达看得“动不动”，4D Radar 进一步补上高度和更细的运动结构。

第二层是融合位置。早期融合把原始或浅层数据尽早拼起来，延迟低，但容易被噪声和坐标误差影响；深度融合在特征层学习互补关系，精度强，但算力更重；晚期融合把各自检测结果再合并，速度快、工程改造成本低，但信息交互不足。

第三层是跨模态交互。2023 年之后，很多工作不再满足于把特征拼接起来，而是显式建模 Camera-LiDAR、Camera-Radar、LiDAR-Radar 之间的对应关系。常见做法包括把 2D 图像特征提升到 3D 空间，把 3D 点云投影回图像平面，用注意力做局部匹配，或者用知识蒸馏让一种模态学习另一种模态的强项。

这套分类的好处是，它把“传感器拼图”拆成了可讨论的工程问题。一个团队如果目标是城区低速 Robotaxi，可能更愿意承受 LiDAR 成本换精度；如果目标是量产辅助驾驶，Camera-Radar 的成本和天气鲁棒性就会变得更关键；如果目标是高速远距感知，Radar、4D Radar 和协同感知的权重会继续上升。

从分类地图到选型流程

真正做系统选型时，工程师不会先问“哪个方法最新”，而会先问三个问题：目标场景是什么，硬件预算是多少，延迟上限在哪里。这篇综述最适合被当成一张路线地图来看。

面向高精度 3D 定位，Camera-LiDAR 仍然是主线。论文汇总的代表方法里，深度融合和跨模态交互在 KITTI、nuScenes、Waymo 上表现最稳。它们通过 BEV 表示、多尺度特征融合和空间对齐，把图像语义和点云几何合在一起，适合对检测精度要求高的自动驾驶场景。

面向低成本和恶劣天气，Camera-Radar 是更现实的方向。Radar 能提供速度信息，在雨、雾、低光和远距动态目标上有优势。论文中 RCBEVDet 这类 Camera-Radar 方法在 nuScenes 上达到 28 FPS，mAP 在 55% 左右。这个数字不如 Camera-LiDAR 深度融合漂亮，但对成本敏感的量产系统更有参考意义。

面向更远距离和更复杂协同，LiDAR-Radar、Camera-LiDAR-Radar 和 V2X 感知会继续扩展边界。单车传感器有视角盲区，路侧摄像头和车车协同可以补充被遮挡区域。不过，多主体感知会带来通信时延、时间同步、坐标对齐和安全攻击面的问题。拼图变大了，缝隙也会变多。

从计算资源看，融合模块通常会吃掉车端算力预算。特征对齐依赖投影和采样，BEV 表示依赖大量栅格特征，注意力交互的开销会随 token 或候选区域增长。论文也提到，轻量网络、剪枝、量化、ROI 裁剪、动态推理、AI 芯片和 FPGA 加速，都是多模态 3D 检测走向嵌入式部署时绕不开的工具。

谁在精度和速度之间更接近实车？

只看排行榜会误导人。自动驾驶检测系统真正要比较的是“同样的硬件预算下，能不能稳定跑完一帧”。论文的表 3 把 FPS、KITTI AP3D、KITTI mAP、nuScenes mAP、NDS、Waymo mAP 和 mAPH 放到了一起，能看到几条很清楚的工程趋势。

Camera-LiDAR 深度融合的精度优势最明显。IS-Fusion 在 nuScenes 上达到 76.50% mAP 和 77.40 NDS；SparseLIF、BiCo-Fusion 等方法也在 75% mAP 附近。KITTI 上，CMF-IoU 的 easy AP3D 达到 96.01%，all mAP 达到 78.07%。这说明跨模态交互和精细对齐已经把 Camera-LiDAR 的上限继续往上推。

速度侧则更有意思。CLOCs 能做到 150 FPS，Fast-CLOCs 有 125 FPS，但它们属于晚期融合，精度上不占优。3D-CVF 有 75 FPS，VirConvNet 有 22 FPS，RCBEVDet 作为 Camera-Radar 方案达到 28 FPS。CoreNet、MambaFusion 这类 2025 年方法在 nuScenes 上保持 73% mAP 以上，但 FPS 只有个位数级别。工程上，这意味着“更强的融合”常常会把延迟账单留给车端芯片。

Camera-Radar 的定位很明确：它给成本、天气鲁棒性和实时性留空间。RCBEVDet 的 28 FPS 配合约 55% nuScenes mAP，放在量产辅助驾驶语境里比单纯追求 76% mAP 更有讨论价值。因为车厂真正关心的是，一套方案能不能在目标 SoC 上稳定运行，并覆盖足够多的低光、雨雾和动态目标场景。

论文对 2019 到 2025 年方法数量的统计也透露了趋势：Camera-LiDAR 仍然最多，Camera-Radar 和跨模态交互在 2023 年后增长更快。行业正在从“谁的单点精度最高”转向“谁能更好地组合传感器能力”。

从榜单到路面：这张地图能怎么用？

同一套感知模型，在晴天开放道路上可能表现很好，一到雨雾、逆光、施工路段和密集行人场景就会暴露问题。综述把长距离检测、恶劣天气、安全、行人检测、路侧摄像头和协同感知单独拉出来讨论，说明多模态 3D 检测已经不能只靠 benchmark 精度讲故事。

长距离检测需要更强的动态目标建模。远处车辆和行人的点云更稀，图像目标更小，Radar 的速度信息反而变得重要。RangeFSD、RCBEVFusion、SaViD 这类工作代表了一个方向：按距离段处理目标，让近距离和远距离不再共用一套粗暴的特征策略。

恶劣天气会放大传感器短板。雨雪会干扰 LiDAR，低光会削弱摄像头，Radar 会带来散射和虚警。REDFormer、RIDERS、ContextualFusion 等路线说明，未来系统需要把天气条件纳入模型设计，而不是只在训练集里多塞一些雨天样本。

安全问题更值得警惕。论文把检测安全和系统安全分开：前者关心漏检、误检、遮挡、小目标和效率；后者关心攻击、传感器失效和网络安全。多模态系统看似更稳，但攻击面也更多。图像攻击、frustum 攻击、后门攻击和传感器欺骗都可能让“传感器拼图”出现错位。

这也是这篇综述对工程读者最有用的地方：它没有把多模态融合说成万能答案，而是把每种拼法背后的代价摊开。上车系统最怕的是只在论文指标里赢，到了真实道路上却被成本、标定、延迟和安全打回原形。

从车端到路侧：多模态检测下一步往哪走？

如果把 2017 到 2025 年的方法谱系连起来看，自动驾驶多模态 3D 检测正在从“车端多传感器融合”走向“跨模态、跨视角、跨主体协同”。这条路线会让感知系统更强，也会让工程问题更硬。

第一条方向是更高质量的跨模态对齐。Camera 和 LiDAR 的坐标系、分辨率、时间戳和噪声模式都不同。未来模型要解决的是稳定对应关系，让不同模态在 BEV、3D query 或语义空间里真正对齐。

第二条方向是雷达价值回归。毫米波雷达长期被认为精度不如 LiDAR，但 4D Radar 数据集、Radar-LiDAR 蒸馏、Camera-Radar BEV 检测正在改变这个判断。对量产车来说，Radar 的成本和天气鲁棒性决定了它不会只是配角。

第三条方向是协同感知。路侧摄像头、V2X 和车车通信能看到单车看不到的遮挡区域。问题是，通信带宽和时延会直接影响检测可信度。一个晚到 100 毫秒的外部目标框，在高速场景里可能已经不再安全。

第四条方向是部署友好的融合。论文提到的轻量网络、剪枝、量化、传感器预处理、ROI 裁剪、动态传感器管理，本质上都在回答同一个问题：如何让“传感器拼图”不把车端算力拖垮。未来有价值的方法，应该同时报告精度、FPS、功耗、硬件平台和极端天气表现。

Armor三问

问 1：Camera-LiDAR 已经这么强，Camera-Radar 还有必要吗？

有必要。Camera-LiDAR 更像高精度方案，Camera-Radar 更像量产友好方案。Radar 的速度信息、低成本和全天候能力，在雨雾、夜间和动态目标场景里很难被替代。它的问题是分辨率和小目标表达，所以更适合与图像语义、BEV 表示和蒸馏方法结合。

问 2：跨模态交互是不是一定比普通融合更好？

不一定。跨模态交互提高了信息交换能力，但也带来更多计算、更多标定依赖和更多时延风险。如果车端平台算力有限，晚期融合或轻量深度融合可能更稳。工程判断要看目标场景，而不是只看方法名字。

问 3：这篇综述对毫米波雷达方向最大的提醒是什么？

雷达的价值正在从“低成本补充传感器”变成“恶劣天气和动态目标的关键模态”。但雷达要进入高精度 3D 检测主线，必须解决角分辨率、虚警、稀疏点云和跨模态对齐问题。4D Radar 数据集和 Radar 蒸馏会是后续重点。

Armor测评

学术 / 科研价值：★★★★☆

这篇综述的学术价值在于重新整理了多模态 3D 目标检测的分类体系，把 Camera-LiDAR、Camera-Radar、LiDAR-Radar、三模态融合和跨模态交互放在一套框架下比较。它覆盖 300 多篇文献，并把 2017 到 2025 年方法演进、主流数据集和指标体系放到一起，对新进入这个方向的研究者很有参考意义。

工业 / 工程价值：★★★★☆

工程价值主要来自性能表和约束分析。论文没有只看 mAP，而是同时讨论 FPS、恶劣天气、长距离检测、嵌入式部署、功耗、传感器安装和协同感知。对做自动驾驶感知选型的人来说，这比单篇算法论文更接近真实决策。

商业 / 产品价值：★★★☆☆

商业价值取决于读者是否需要做传感器方案判断。综述本身不提供可直接落地的新模型，但它能帮助团队判断 Camera-LiDAR、Camera-Radar、4D Radar 和 V2X 感知各自适合什么产品阶段。对量产辅助驾驶来说，Camera-Radar 和轻量融合部分尤其值得关注。

可能的问题：

作为综述，它没有提出新算法，也没有统一复现实验。表 3 汇总了不同论文在不同数据集、验证集或测试集上的结果，横向比较时需要谨慎。部分方法缺 FPS，硬件平台也不统一，所以不能把表中数字直接理解成严格公平的工程排名。此外，论文对 4D Radar 的未来价值点到了，但受限于公开数据和成熟方法，分析深度还不够。

主要参考文献

Peng Zhang and Xin Lin. (2026). Multi-Modal 3D Object Detection in Autonomous Driving: A New Survey. International Conference on Multimedia Retrieval 2026. https://doi.org/10.1145/3805622.3810700

以上内容为论文阅读解读，不构成自动驾驶系统选型建议。对多模态感知、毫米波雷达和自动驾驶 3D 检测感兴趣的朋友，欢迎关注 Armor知道公众号！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

ICMR2026 自动驾驶多模态 3D 目标检测综述

原论文信息

雨雾夜路上，单一传感器为什么会失手？

化繁为简的妙招：从“堆传感器”到感知拼图

从分类地图到选型流程

谁在精度和速度之间更接近实车？

从榜单到路面：这张地图能怎么用？

从车端到路侧：多模态检测下一步往哪走？

Armor三问

Armor测评

主要参考文献

最新文章

热门文章

随机文章

ICMR2026 自动驾驶多模态 3D 目标检测综述

原论文信息

雨雾夜路上，单一传感器为什么会失手？

化繁为简的妙招：从“堆传感器”到感知拼图

从分类地图到选型流程

谁在精度和速度之间更接近实车？

从榜单到路面：这张地图能怎么用？

从车端到路侧：多模态检测下一步往哪走？

Armor三问

Armor测评

主要参考文献

自动驾驶与内裤化效应

湾顶会·前沿资讯|全球首个自动驾驶系统全球技术法规获批发布;英伟达谷歌AI液冷路线亮相,A股公司全产业链布局

最新文章

热门文章

随机文章