
🐉 龙哥读论文知识星球来了!公众号每日8篇拆解不够看?星球无上限更AI领域论文、资讯、招聘、招博、开源代码,一站式干货,每日2分钟刷完即赚!👇扫码加入「龙哥读论文」知识星球,前沿干货、实用资源一站式拿捏~

龙哥推荐理由:
这是首个面向多模态3D全景分割(mm-3DPS)的无监督域适应(UDA)研究,极具开创性。方法设计巧妙实用(模拟传感器故障+双专家伪标签细化),效果拔群,在多种跨域场景下全面超越SOTA,甚至能打平有监督的上限。对于研究自动驾驶、机器人感知的同学,这篇是必读的“抗域迁移”宝典。
原论文信息如下:
论文标题:
PanDA: Unsupervised Domain Adaptation for Multimodal 3D Panoptic Segmentation in Autonomous Driving
发表日期:
2026年04月
发表单位:
Singapore University of Technology and Design (SUTD), Institute for Infocomm Research (I2R), A*STAR, Singapore
原文链接:
https://arxiv.org/pdf/2604.19379v1.pdf
想象一下,你的自动驾驶汽车在熟悉的城市里开得好好的,可一旦换了个城市、遇到了雨夜,或者从德国跑到新加坡,它突然就“懵”了,连路边的行人和车辆都认不全了。这就是深度学习模型的“领域漂移”(Domain Shift)问题——模型在新环境下的表现会大打折扣。
要让车学会“举一反三”,最理想的做法是给新场景的数据打上标签重新训练,但这种操作成本高昂,不现实。于是,无监督域适应(UDA)就成了解决问题的关键。
之前UDA的研究主要集中在3D语义分割或目标检测上。但今天要介绍的这篇论文,首次将UDA的挑战推进到了更复杂、更具挑战性的任务——多模态3D全景分割(mm-3DPS)。它不仅要知道每个点是什么(语义),还要把每个“东西”(比如汽车、行人)给单独分出来(实例)。当模型在白天晴天的数据上练就一身本领,突然丢到一个雨夜的新城市,它还能保持冷静吗?
自动驾驶中的“全能眼”:PanDA如何攻克多模态3D全景分割的跨域难题?
要搞定自动驾驶,车必须对周围环境有“全景式”理解——不仅要认出这是“路”、那是“车”,还得把每一辆“车”单独标出来,这就是3D全景分割(3D Panoptic Segmentation)要干的事。最先进的方案通常结合激光雷达(LiDAR)和摄像头图像,两者互补,效果拔群。但问题来了:一旦场景变了,比如从白天换到黑夜,从美国波士顿换到新加坡,甚至仅仅下了一场雨,模型性能就哗啦掉下来。因为现实世界中的“领域漂移”无处不在,而给新场景打标签又贵得要死,所以无监督域适应(UDA,Unsupervised Domain Adaptation)就成了救星。
之前UDA的工作多集中在3D语义分割或目标检测,但多模态3D全景分割(mm-3DPS)呢?没人碰过。为什么?因为这里有两个死穴:第一,多模态模型极度依赖两个传感器都工作正常,一旦某个传感器“罢工”(比如夜晚相机模糊、雨雪天激光雷达稀疏),融合就崩溃;第二,UDA常用伪标签(pseudo-label)来监督未标注的目标域,但简单粗暴的置信度阈值法会切碎物体,导致实例不完整、边界模糊,这对全景分割来说是致命伤。
现在,新加坡科技设计大学(SUTD)与新加坡科技研究局资讯通信研究院(I2R, A*STAR)的研究者们带来了第一个针对多模态3D全景分割的UDA框架——PanDA。它像一位“全能眼”,能在传感器生病、标签残缺的情况下,依然给出漂亮的全景分割结果。
先看PanDA的核心理念图,一句话概括:左边模拟传感器故障,右边修补伪标签。
图1:PanDA的核心概念。 (a) 非对称多模态丢弃(AMD):模拟传感器损坏,迫使跨模态补全,提高鲁棒性。(b) 双专家伪标签细化(DualRefine):利用2D语义和3D几何先验生成密集可靠的监督,保证域适应下的高质量全景分割。
PanDA采用经典的均值教师(Mean-Teacher)半监督范式,学生模型和教师模型共享相同的多模态3D全景分割架构(具体用的是IAL [34],一个基于Transformer的多模态融合模型)。源域(有标签)数据用真实标签训练,目标域(无标签)数据用教师生成的伪标签训练,教师权重由学生权重的指数移动平均更新。在此基础上,PanDA插入了两个创新模块:非对称多模态丢弃(AMD)和双专家伪标签细化(DualRefine)。
非对称丢弃(AMD):模拟传感器“生病”,逼模型学会“急中生智”
现有多模态模型在训练时,两个模态都是高质量(比如大白天),所以模型变得很娇气,一旦某个模态变差(雨夜相机看不清、LiDAR点稀疏),它就傻眼了。怎么办呢?PanDA想了个招:在源域(有标签数据)上刻意模拟传感器部分损坏,让模型在训练时就学会“缺啥补啥”,这样到了目标域即使传感器真的坏了,也能靠另一个健康的模态撑住场面。
AMD可不是乱丢。它针对全景分割中最重要的两类区域下手:边界(Boundary)和实例内部(Instance Interior)。对图像,用Canny边缘检测找到边界小块,随机丢掉一部分;对LiDAR,检测几何不连续处的体素,也随机丢。对实例内部,在图像或LiDAR上随机抠掉属于该实例的一块区域。注意,每次只随机选一个模态(图像或LiDAR)来丢,概率各50%,这样形成了“非对称”的退化。丢多少?边界丢弃比:图像0.5,LiDAR 0.7;实例内部丢弃比:均是0.5。
图2:PanDA框架总览。在标注的源域(绿色块),AMD选择性丢弃LiDAR或图像中的实例内部和边界区域;在无标注的目标域(紫色块),DualRefine进行伪标签细化。
除了AMD,PanDA还在学生模型两侧附加了辅助语义分割头,分别对图像和LiDAR进行语义预测,并计算额外的辅助语义损失(auxiliary semantic loss)。这个损失强制模型在特征层面学会跨模态重建,进一步提升了鲁棒性。整个训练的总损失如下:
其中,L_seg是标准全景分割损失,L_aux是辅助语义损失,L_con是教师-学生之间的一致性损失(对齐每一层Transformer解码器的查询特征):
辅助语义损失L_aux^S 是对图像和LiDAR分别计算交叉熵:
AMD 只在源域上使用,和真实标签配合,形成“由易到难”的课程学习:先学会修复人为制造的退化,再应对真实世界的复杂退化。而且,AMD 超参数对所有的域漂移场景都一样,简单又通用。
双专家伪标签细化(DualRefine):用几何和视觉知识,给残缺的标签“修修补补”
目标域没有标签,只能靠教师模型生成伪标签来监督学生。最简单的做法是设置一个置信度阈值,只保留高置信度的点作为伪标签。但这样会把物体切得七零八落,尤其是对于“可数事物”(thing,如汽车、行人)和“不可数区域”(stuff,如道路、植被)都很不利。PanDA先做了一个类别感知的伪标签初始化:对stuff类按区域过滤,对thing类按实例过滤(如果整个实例平均置信度低于阈值,就把整个实例扔掉),这能减少噪声,但依然存在掩码不完整、边界模糊、分类错误的问题。
为了修补这些残缺的伪标签,PanDA提出了DualRefine,找来两位“专家”帮忙:一位是3D几何专家(基于LiDAR的几何超点,geometric superpoints),另一位是2D视觉专家(基于视觉基础模型VFM如Grounding DINO和SAM的2D分割掩码)。DualRefine分为两步:Grow(生长)和Reassign(重分配)。
生长(Grow):针对stuff类掩码被截断的问题,利用3D几何超点进行扩展。几何超点是从LiDAR点云中提取的形状一致区域,在严重域漂移下也保持稳定。具体做法:对每个截断的stuff掩码M_k,找到与之IoU最大的几何超点g*(要求IoU≥0.5),然后将超点合并到掩码中,填补空洞和断边。

重分配(Reassign):针对thing类实例分类错误的问题,利用2D视觉专家(VFM的语义预测)来纠正。对每个thing实例k,找到与之IoU最大的2D视觉超点q*(要求IoU≥0.5),如果该实例的平均置信度低于视觉专家的置信度(且低于阈值0.2),就用视觉专家的语义标签替换模型预测的标签。
通过Grow和Reassign,伪标签变得既完整又准确,学生模型就能学到更可靠的跨域表征。
打破旧有上限:在多种恶劣场景下,PanDA的性能全面领先
PanDA在三个数据集内域漂移(nuScenes数据集内,按白天→黑夜、晴天→雨天、波士顿→新加坡划分)和一个跨数据集域漂移(SemanticKITTI → nuScenes)上进行了全面评估。评价指标是全景质量(PQ,Panoptic Quality):
以下表格展示了PanDA与基线方法及两个改编的语义UDA方法(Pano-xMUDA、Pano-UniDSeg)的对比:
可以看到,在所有四个场景下,完整的PanDA(Ours-Final)全面碾压基线和其他方法。尤其是在最难的SemanticKITTI → nuScenes跨数据集场景下,基线PQ只有1.2%,而PanDA达到了54.5%,提升了53.3个百分点!甚至在白天→黑夜场景下,PanDA(73.1% PQ)超过了有监督的Oracle-Joint(70.6% PQ),这还是首个能在某些域适应任务上超越有监督上限的方法,说明其伪标签细化确实修复了原始监督中的问题。
单独使用边界丢弃(Bd.)或实例丢弃(Ins.)都有提升,两者结合加上辅助损失达到最佳,证明了每个设计都是有效的。
对DualRefine各阶段的消融也证实了生长和重分配都贡献了显著的增益:
我们还通过误差可视化对比了PanDA与xMUDA和UniDSeg:
图3:不同域漂移下的全景分割误差图。可以明显看到,PanDA的假阳性(红色)和假阴性(蓝色)区域远少于对比方法,说明其识别和分割精度都更优。
总体来看,PanDA在全部场景下都实现了大幅度且一致的提升,尤其对跨传感器、跨地域的极端漂移,效果更是惊人。总结与启发:一个方法,一个新的研究方向
PanDA 是第一个将无监督域适应引入多模态3D全景分割的工作,它用 AMD 和 DualRefine 两个精巧模块解决了传感器退化与伪标签残缺两大痛点。实验证明,它在时间、天气、地点、传感器等多种域漂移下都取得了 SOTA 结果,甚至在某些场景超越了有监督的上限。
这个方法简洁、通用、效果好,为后续研究开辟了一个新方向。未来的工作可以探索更灵活的模态退化模拟(比如连续退化程度)、更轻量的2D视觉基础模型蒸馏以及扩展到更多模态(如毫米波雷达)的域适应。
龙迷三问
这篇论文解决什么问题?之前没有针对多模态3D全景分割的域适应方法。PanDA 解决了多模态3D全景分割在无监督域适应下的两个核心挑战:单传感器退化导致的跨模态融合崩溃,以及传统伪标签方法导致的掩码不完整和分类错误。它让模型能在不同地点、天气、时间、传感器配置下都保持高精度的全景分割。
文章中提到的“VFM”和“超点(superpoint)”是什么意思?VFM 是 Vision Foundation Model(视觉基础模型)的缩写,比如论文中使用的 Grounding DINO 和 SAM,它们在大规模数据上预训练,具有很强的开放世界语义理解能力,可以在无监督场景下提供可靠的2D分割和识别先验。超点(superpoint)是指从 LiDAR 点云中通过聚类得到的一组具有连续几何结构的3D点,它们形状一致、不受域漂移影响,可以在目标域中稳定地辅助掩码修复。
PanDA的总体框架到底长什么样?PanDA 基于均值教师(Mean-Teacher)架构,学生和教师网络都是同一个多模态3D全景分割模型(IAL)。在源域,学生接收经过 AMD 增强的输入,并利用真实标签和辅助分割头进行训练;在目标域,教师生成初始伪标签,经过 DualRefine 细化后用于监督学生。教师权重由学生权重的指数移动平均更新。整个训练过程联合优化源域损失(L_seg + L_aux)和目标域损失(L_seg + L_con)。
如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~龙哥点评
论文创新性分数:★★★★★
首个针对多模态3D全景分割的UDA框架,提出AMD和DualRefine两个新颖且有效的模块,创性非常突出。实验合理度:★★★★★
在四种不同的域漂移场景(时间、天气、地点、传感器)上进行了全面评估,对比方法包括改编的SOTA语义UDA方法,消融实验细致,结果置信度高。学术研究价值:★★★★★
为多模态3D全景分割的域适应开辟了新方向,方法思想简洁、通用性强,对后续研究有重要的启发和参考价值。稳定性:★★★★☆
在多个域漂移场景下表现稳定,尤其在恶劣条件下显著超越基线。但AMD的随机丢弃存在一定随机性,在极端退化下可能仍有波动。适应性以及泛化能力:★★★★★
在同一数据集内和跨数据集场景下都取得了大幅提升,无需特殊调整即可适应多种域漂移,泛化能力很强。硬件需求及成本:★★★☆☆
训练需要4块A40/H100 GPU,批量大小2,训练迭代数根据数据集大小从15到30个epoch不等。推理阶段与基础模型IAL一致,运行在消费级GPU上应该也可以,但总体计算量不低。复现难度:★★★★☆
论文详细描述了实现细节(超参数、阈值、网络结构),但代码未公开,复现需要一定的工程能力。不过,基于已有开源模型(IAL、Grounding DINO等)进行改造,难度中等。产品化成熟度:★★★☆☆
方法在域适应上效果突出,但当前依赖IAL作为基础模型,且DualRefine需要VFM(Grounding DINO+SAM)辅助,推理时VFM的额外开销较大。如果需要实际部署,可能需要轻量化VFM或蒸馏策略。但核心思想很容易嵌入现有自动驾驶感知流水线。可能的问题:DualRefine中的Grow步骤使用了RANSAC+HDBSCAN提取几何超点,这些聚类方法可能对超参数敏感,且在点云极度稀疏或噪声大的场景下鲁棒性有待验证。另外,2D视觉专家的预测也可能出错,错误纠正虽然设定了阈值,但仍有引入新噪声的风险。
[18] Maximilian Jaritz et al. xMUDA: Cross-modal unsupervised domain adaptation for 3D semantic segmentation. CVPR 2020.[34] Yining Pan et al. IAL: Implicit Augmentation and Learning for Multimodal 3D Panoptic Segmentation. ECCV 2024.[50] Lihua Liu et al. UniDSeg: Unified Domain Adaptation for 3D Semantic Segmentation. ECCV 2024.[22] Alexander Kirillov et al. Segment Anything. ICCV 2023.[29] Shilong Liu et al. Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection. ECCV 2024.[46] Antti Tarvainen & Harri Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. NeurIPS 2017.*本文仅代表个人理解及观点,不构成任何论文审核或者项目落地推荐意见,具体以相关组织评审结果为准。欢迎就论文内容交流探讨,理性发言哦~ 想了解更多原文细节的小伙伴,可以点击左下角的"阅读原文",查看更多原论文细节哦!
看完了PanDA如何让自动驾驶的“眼睛”无惧风雨,是不是感觉技术细节满满?想第一时间获取这类前沿AI论文的深度解析、开源代码和行业动态?
欢迎加入龙哥读论文粉丝群,
扫描下方二维码或者添加龙哥助手微信号加群:kangjinlonghelper。
一定要备注:研究方向+地点+学校/公司+昵称(如 自动驾驶+上海+腾讯+龙哥),根据格式备注,可更快被通过且邀请进群。
『龙哥读论文』微信群目前包含:图像处理、大模型及智能体、自动驾驶及机器人、AI医疗及AI金融5个群