当前位置：首页>自动驾驶>自动驾驶的“全能眼”PanDA: 无惧风雨昼夜,跨域全景分割新SOTA

自动驾驶的“全能眼”PanDA: 无惧风雨昼夜,跨域全景分割新SOTA

2026-05-13 10:19:04

🐉 龙哥读论文知识星球来了！
公众号每日8篇拆解不够看？星球无上限更AI领域论文、资讯、招聘、招博、开源代码，一站式干货，每日2分钟刷完即赚！👇扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这是首个面向多模态3D全景分割（mm-3DPS）的无监督域适应（UDA）研究，极具开创性。方法设计巧妙实用（模拟传感器故障+双专家伪标签细化），效果拔群，在多种跨域场景下全面超越SOTA，甚至能打平有监督的上限。对于研究自动驾驶、机器人感知的同学，这篇是必读的“抗域迁移”宝典。

原论文信息如下：

论文标题:
PanDA: Unsupervised Domain Adaptation for Multimodal 3D Panoptic Segmentation in Autonomous Driving

发表日期:
2026年04月

发表单位:
Singapore University of Technology and Design (SUTD), Institute for Infocomm Research (I2R), A*STAR, Singapore

原文链接:
https://arxiv.org/pdf/2604.19379v1.pdf

想象一下，你的自动驾驶汽车在熟悉的城市里开得好好的，可一旦换了个城市、遇到了雨夜，或者从德国跑到新加坡，它突然就“懵”了，连路边的行人和车辆都认不全了。这就是深度学习模型的“领域漂移”（Domain Shift）问题——模型在新环境下的表现会大打折扣。

要让车学会“举一反三”，最理想的做法是给新场景的数据打上标签重新训练，但这种操作成本高昂，不现实。于是，无监督域适应（UDA）就成了解决问题的关键。

之前UDA的研究主要集中在3D语义分割或目标检测上。但今天要介绍的这篇论文，首次将UDA的挑战推进到了更复杂、更具挑战性的任务——多模态3D全景分割（mm-3DPS）。它不仅要知道每个点是什么（语义），还要把每个“东西”（比如汽车、行人）给单独分出来（实例）。当模型在白天晴天的数据上练就一身本领，突然丢到一个雨夜的新城市，它还能保持冷静吗？

自动驾驶中的“全能眼”：PanDA如何攻克多模态3D全景分割的跨域难题？

要搞定自动驾驶，车必须对周围环境有“全景式”理解——不仅要认出这是“路”、那是“车”，还得把每一辆“车”单独标出来，这就是3D全景分割（3D Panoptic Segmentation）要干的事。最先进的方案通常结合激光雷达（LiDAR）和摄像头图像，两者互补，效果拔群。但问题来了：一旦场景变了，比如从白天换到黑夜，从美国波士顿换到新加坡，甚至仅仅下了一场雨，模型性能就哗啦掉下来。因为现实世界中的“领域漂移”无处不在，而给新场景打标签又贵得要死，所以无监督域适应（UDA，Unsupervised Domain Adaptation）就成了救星。

之前UDA的工作多集中在3D语义分割或目标检测，但多模态3D全景分割（mm-3DPS）呢？没人碰过。为什么？因为这里有两个死穴：第一，多模态模型极度依赖两个传感器都工作正常，一旦某个传感器“罢工”（比如夜晚相机模糊、雨雪天激光雷达稀疏），融合就崩溃；第二，UDA常用伪标签（pseudo-label）来监督未标注的目标域，但简单粗暴的置信度阈值法会切碎物体，导致实例不完整、边界模糊，这对全景分割来说是致命伤。

现在，新加坡科技设计大学（SUTD）与新加坡科技研究局资讯通信研究院（I2R, A*STAR）的研究者们带来了第一个针对多模态3D全景分割的UDA框架——PanDA。它像一位“全能眼”，能在传感器生病、标签残缺的情况下，依然给出漂亮的全景分割结果。

先看PanDA的核心理念图，一句话概括：左边模拟传感器故障，右边修补伪标签。

图1：PanDA的核心概念。 (a) 非对称多模态丢弃（AMD）：模拟传感器损坏，迫使跨模态补全，提高鲁棒性。(b) 双专家伪标签细化（DualRefine）：利用2D语义和3D几何先验生成密集可靠的监督，保证域适应下的高质量全景分割。

PanDA采用经典的均值教师（Mean-Teacher）半监督范式，学生模型和教师模型共享相同的多模态3D全景分割架构（具体用的是IAL [34]，一个基于Transformer的多模态融合模型）。源域（有标签）数据用真实标签训练，目标域（无标签）数据用教师生成的伪标签训练，教师权重由学生权重的指数移动平均更新。在此基础上，PanDA插入了两个创新模块：非对称多模态丢弃（AMD）和双专家伪标签细化（DualRefine）。

非对称丢弃（AMD）：模拟传感器“生病”，逼模型学会“急中生智”

现有多模态模型在训练时，两个模态都是高质量（比如大白天），所以模型变得很娇气，一旦某个模态变差（雨夜相机看不清、LiDAR点稀疏），它就傻眼了。怎么办呢？PanDA想了个招：在源域（有标签数据）上刻意模拟传感器部分损坏，让模型在训练时就学会“缺啥补啥”，这样到了目标域即使传感器真的坏了，也能靠另一个健康的模态撑住场面。

AMD可不是乱丢。它针对全景分割中最重要的两类区域下手：边界（Boundary）和实例内部（Instance Interior）。对图像，用Canny边缘检测找到边界小块，随机丢掉一部分；对LiDAR，检测几何不连续处的体素，也随机丢。对实例内部，在图像或LiDAR上随机抠掉属于该实例的一块区域。注意，每次只随机选一个模态（图像或LiDAR）来丢，概率各50%，这样形成了“非对称”的退化。丢多少？边界丢弃比：图像0.5，LiDAR 0.7；实例内部丢弃比：均是0.5。

图2：PanDA框架总览。在标注的源域（绿色块），AMD选择性丢弃LiDAR或图像中的实例内部和边界区域；在无标注的目标域（紫色块），DualRefine进行伪标签细化。

除了AMD，PanDA还在学生模型两侧附加了辅助语义分割头，分别对图像和LiDAR进行语义预测，并计算额外的辅助语义损失（auxiliary semantic loss）。这个损失强制模型在特征层面学会跨模态重建，进一步提升了鲁棒性。整个训练的总损失如下：

其中，L_seg是标准全景分割损失，L_aux是辅助语义损失，L_con是教师-学生之间的一致性损失（对齐每一层Transformer解码器的查询特征）：

辅助语义损失L_aux^S 是对图像和LiDAR分别计算交叉熵：

AMD 只在源域上使用，和真实标签配合，形成“由易到难”的课程学习：先学会修复人为制造的退化，再应对真实世界的复杂退化。而且，AMD 超参数对所有的域漂移场景都一样，简单又通用。

双专家伪标签细化（DualRefine）：用几何和视觉知识，给残缺的标签“修修补补”

目标域没有标签，只能靠教师模型生成伪标签来监督学生。最简单的做法是设置一个置信度阈值，只保留高置信度的点作为伪标签。但这样会把物体切得七零八落，尤其是对于“可数事物”（thing，如汽车、行人）和“不可数区域”（stuff，如道路、植被）都很不利。PanDA先做了一个类别感知的伪标签初始化：对stuff类按区域过滤，对thing类按实例过滤（如果整个实例平均置信度低于阈值，就把整个实例扔掉），这能减少噪声，但依然存在掩码不完整、边界模糊、分类错误的问题。

为了修补这些残缺的伪标签，PanDA提出了DualRefine，找来两位“专家”帮忙：一位是3D几何专家（基于LiDAR的几何超点，geometric superpoints），另一位是2D视觉专家（基于视觉基础模型VFM如Grounding DINO和SAM的2D分割掩码）。DualRefine分为两步：Grow（生长）和Reassign（重分配）。

生长（Grow）：针对stuff类掩码被截断的问题，利用3D几何超点进行扩展。几何超点是从LiDAR点云中提取的形状一致区域，在严重域漂移下也保持稳定。具体做法：对每个截断的stuff掩码M_k，找到与之IoU最大的几何超点g*（要求IoU≥0.5），然后将超点合并到掩码中，填补空洞和断边。

重分配（Reassign）：针对thing类实例分类错误的问题，利用2D视觉专家（VFM的语义预测）来纠正。对每个thing实例k，找到与之IoU最大的2D视觉超点q*（要求IoU≥0.5），如果该实例的平均置信度低于视觉专家的置信度（且低于阈值0.2），就用视觉专家的语义标签替换模型预测的标签。

通过Grow和Reassign，伪标签变得既完整又准确，学生模型就能学到更可靠的跨域表征。

打破旧有上限：在多种恶劣场景下，PanDA的性能全面领先

PanDA在三个数据集内域漂移（nuScenes数据集内，按白天→黑夜、晴天→雨天、波士顿→新加坡划分）和一个跨数据集域漂移（SemanticKITTI → nuScenes）上进行了全面评估。评价指标是全景质量（PQ，Panoptic Quality）：

以下表格展示了PanDA与基线方法及两个改编的语义UDA方法（Pano-xMUDA、Pano-UniDSeg）的对比：

可以看到，在所有四个场景下，完整的PanDA（Ours-Final）全面碾压基线和其他方法。尤其是在最难的SemanticKITTI → nuScenes跨数据集场景下，基线PQ只有1.2%，而PanDA达到了54.5%，提升了53.3个百分点！甚至在白天→黑夜场景下，PanDA（73.1% PQ）超过了有监督的Oracle-Joint（70.6% PQ），这还是首个能在某些域适应任务上超越有监督上限的方法，说明其伪标签细化确实修复了原始监督中的问题。

下面是对AMD模块的消融实验：

单独使用边界丢弃（Bd.）或实例丢弃（Ins.）都有提升，两者结合加上辅助损失达到最佳，证明了每个设计都是有效的。

对DualRefine各阶段的消融也证实了生长和重分配都贡献了显著的增益：

我们还通过误差可视化对比了PanDA与xMUDA和UniDSeg：

图3：不同域漂移下的全景分割误差图。可以明显看到，PanDA的假阳性（红色）和假阴性（蓝色）区域远少于对比方法，说明其识别和分割精度都更优。

总体来看，PanDA在全部场景下都实现了大幅度且一致的提升，尤其对跨传感器、跨地域的极端漂移，效果更是惊人。

总结与启发：一个方法，一个新的研究方向

PanDA 是第一个将无监督域适应引入多模态3D全景分割的工作，它用 AMD 和 DualRefine 两个精巧模块解决了传感器退化与伪标签残缺两大痛点。实验证明，它在时间、天气、地点、传感器等多种域漂移下都取得了 SOTA 结果，甚至在某些场景超越了有监督的上限。

这个方法简洁、通用、效果好，为后续研究开辟了一个新方向。未来的工作可以探索更灵活的模态退化模拟（比如连续退化程度）、更轻量的2D视觉基础模型蒸馏以及扩展到更多模态（如毫米波雷达）的域适应。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

这篇论文解决什么问题？之前没有针对多模态3D全景分割的域适应方法。PanDA 解决了多模态3D全景分割在无监督域适应下的两个核心挑战：单传感器退化导致的跨模态融合崩溃，以及传统伪标签方法导致的掩码不完整和分类错误。它让模型能在不同地点、天气、时间、传感器配置下都保持高精度的全景分割。

文章中提到的“VFM”和“超点（superpoint）”是什么意思？VFM 是 Vision Foundation Model（视觉基础模型）的缩写，比如论文中使用的 Grounding DINO 和 SAM，它们在大规模数据上预训练，具有很强的开放世界语义理解能力，可以在无监督场景下提供可靠的2D分割和识别先验。超点（superpoint）是指从 LiDAR 点云中通过聚类得到的一组具有连续几何结构的3D点，它们形状一致、不受域漂移影响，可以在目标域中稳定地辅助掩码修复。

PanDA的总体框架到底长什么样？PanDA 基于均值教师（Mean-Teacher）架构，学生和教师网络都是同一个多模态3D全景分割模型（IAL）。在源域，学生接收经过 AMD 增强的输入，并利用真实标签和辅助分割头进行训练；在目标域，教师生成初始伪标签，经过 DualRefine 细化后用于监督学生。教师权重由学生权重的指数移动平均更新。整个训练过程联合优化源域损失（L_seg + L_aux）和目标域损失（L_seg + L_con）。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~