当前位置：首页>自动驾驶>【场景标注】SAM-ES:面向自动驾驶关键类别平衡的道路数据集分割增强 !

【场景标注】SAM-ES:面向自动驾驶关键类别平衡的道路数据集分割增强 !

2026-06-13 05:40:47

🛑 SAM-Enhanced Segmentation：面向自动驾驶关键类别平衡的道路数据集分割增强

导读

直击自动驾驶稠密语义分割四大核心缺陷——ZOD数据集仅提供2D bounding box无像素级标注、驾驶场景存在极端类别失衡（行人/骑行者/交通标识占比<1%）、激光雷达稀疏标注与密集预测不匹配、恶劣天气/夜间分割性能大幅下滑：传统方案依赖人工稠密标注成本极高，SAM零样本分割存在幻觉与边界误差，标准损失函数无法聚焦安全关键稀有类，多模态融合未适配稀疏激光雷达特性。为此塔尔图理工大学、查尔姆斯理工大学等提出SAM增强的自动驾驶道路分割框架，构建自动化标注流水线将ZOD边界框转为稠密语义掩码，人工精筛2300帧建立基准，基于CLFT与DeepLabV3+实现相机-激光雷达融合分割，提出类别专业化模型与集成策略，结合双向迁移学习提升跨域泛化。在ZOD数据集mIoU最高达**48.1%，Iseauto实车平台达77.5%**，稀有安全类别IoU显著提升，补齐ZOD数据集分割标注空白。

图1：基于SAM的预处理流程可视化，展示从原始ZOD边界框到密集语义分割掩码的转换过程。(a) ZOD数据集原始边界框；(b) 经过筛选、去重及尺寸约束处理后的结果；(c) 由SAM结合优先级分辨率生成的最终像素级分割掩码。

1 业务背景与技术背景

1.0 业务背景：自动驾驶多模态分割刚需

稠密语义分割是自动驾驶感知核心，支撑精细场景理解与安全决策，但落地存在致命短板：

ZOD等大规模多模态驾驶数据集仅提供边界框标注，无像素级标签，无法支撑监督分割训练；
人工像素标注成本极高、周期长，难以覆盖北欧雨雪、夜间等复杂天气场景；
驾驶场景类别极端失衡，行人、交通标识等安全关键类像素占比不足1%，标准模型分割失效；
激光雷达稀疏点云与相机密集图像标注不匹配，多模态融合分割性能难以发挥。

亟需低成本自动化标注、适配类别失衡、多模态鲁棒、跨域可迁移的自动驾驶分割方案。

1.1 技术背景：现有工作局限与本文突破

现有工作类型	核心局限	本文突破
人工稠密标注	成本高、效率低、难以规模化	SAM自动化标注+人工精筛，低成本生成高质量掩码
SAM零样本分割	小目标/遮挡幻觉、边界误差、无类别优先级	边界框过滤去重+优先级掩码融合，修正SAM输出误差
传统分割模型	无法处理极端类别失衡，稀有类性能差	类别专业化模型+集成，聚焦安全关键稀有类
多模态融合分割	激光雷达稀疏标注与密集预测不匹配	相机/激光雷达双标注生成，适配传感器稀疏特性
单数据集训练	跨域泛化差，收敛速度慢	双向迁移学习，跨数据集加速收敛

2 核心概念：关键定义与技术体系

术语/分类	技术细节	适用场景
SAM自动化标注流水线	边界框过滤去重→SAM推理→优先级掩码融合→双模态标注生成	无像素标注驾驶数据集自动标注、低成本分割标签生产
类别专业化模型	针对车辆/行人/标识单类别或组合训练，缩小优化范围	自动驾驶极端类别失衡、安全关键稀有类分割
CLFT融合Transformer	相机-激光雷达双编码器+跨模态注意力，多尺度特征融合	多模态自动驾驶语义分割、恶劣天气鲁棒分割
优先级掩码融合	行人>骑行者>标识>车辆优先级，解决掩码重叠冲突	拥挤交通场景、多目标重叠分割、安全类优先保留
双向迁移学习	ZOD↔Iseauto跨域初始化，加速收敛提升泛化	跨数据集分割、小样本场景快速适配

3 核心内容：框架架构与关键技术

图2：将ZOD边界框转换为密集分割掩码的数据预处理流程。该流程包含三步：一是依据各类别专属的尺寸阈值、长宽比约束及区域排除规则对输入数据进行筛选；二是采用交并比阈值0.3进行同类目标合并以完成去重，合并过程中优先保留尺寸更大的目标；三是将单帧目标数量限制为75个，以此提升处理效率与标注质量。

3.1 整体技术框架

采用SAM自动化标注→多模态融合分割→类别专业化均衡→跨域迁移增强四级架构，全链路解决自动驾驶分割痛点：

3.2 核心模块技术细节

3.2.1 SAM自动化标注流水线

将ZOD稀疏边界框转为稠密可靠像素标注，解决数据集无分割标签问题：

边界框预处理

类别尺寸过滤：车辆>30px，行人/骑行者/标识>15px，剔除极小无效框；
长宽比约束<8:1，剔除超长伪影框，面积>40%图像的框直接移除；
IoU=0.3去重合并，每帧保留最大75个目标，平衡效率与质量。

SAM推理与优先级融合

图像缩放至1024px，边界框为prompt批量输入SAM生成掩码；
优先级规则：行人/骑行者最高→标识→车辆，重叠像素按优先级赋值，保障安全类不被覆盖。

双模态标注生成

相机标注：仅剔除边缘1%区域与<25像素噪声块，保留全视野监督信号；
激光雷达标注：掩码投影至有效点云区域，距离<90m过滤，严格几何对齐，保留传感器稀疏特性。
图3：激光雷达标注生成流程，展示借助SAM模型生成原生激光雷达分割掩码的过程。(a) 基于深度着色的原始激光雷达点云投影图；(b) 将SAM分割掩码叠加至激光雷达数据上，以此确定目标位置；(c) 最终的原生激光雷达标注结果，仅在激光雷达覆盖区域应用对应类别的着色。

Iseauto标注精修

SAM中心prompt生成掩码，边缘扩张填充缺口+边缘收缩修正过分割，最大变化量约束避免语义漂移。

3.2.2 多模态融合分割模型

对比两种架构，适配自动驾驶多模态输入：

CLFT（Camera-LiDAR Fusion Transformer）

三阶段编解码，相机/激光雷达独立编码，跨模态多头自注意力融合，全局上下文建模更强；
含Base/Large/Hybrid三变体，Hybrid平衡精度与效率。

DeepLabV3+

ResNet101主干+空洞空间金字塔池化，解码器拼接激光雷达深度特征，CNN经典分割基线。

3.2.3 类别专业化与集成策略

解决极端类别失衡，稀有安全类性能突破：

专业化训练：单类别（车辆/行人/标识）或双类别组合训练，缩小损失优化范围，模型容量聚焦目标类；
参数合并集成：融合专业化模型参数，聚合各模型优势，进一步提升稀有类精度。

3.2.4 双向迁移学习

提升跨数据集泛化，加速训练收敛：

ZOD与Iseauto双向权重初始化，小学习率微调，20-30epoch即可达到较高精度，远快于从头训练；
跨域迁移保留通用几何与语义特征，适配不同场景、传感器配置。

3.3 关键技术创新点

SAM驱动自动化标注：首次为ZOD生成稠密分割标签，低成本规模化，人工精筛保障质量；
优先级掩码冲突解决：安全关键类优先，避免拥挤场景下行人/标识被车辆掩码覆盖；
类别专业化破失衡：针对稀有类专项优化，突破传统模型对小目标、低占比类的分割瓶颈；
双模态标注适配：相机密集/激光雷达稀疏双标注，贴合自动驾驶传感器真实特性；
跨域迁移泛化：双向迁移加速收敛，特征可跨数据集、跨传感器配置迁移。

4 实验验证

4.1 实验设置

数据集：ZOD（10万+帧处理，2300帧精筛，多天气）、Iseauto（2400帧，实车平台）；
评测指标：mIoU（平均交并比）、FW IoU（频率加权交并比）、单类别IoU；
模型：CLFT（Base/Large/Hybrid）、DeepLabV3+；
训练配置：NVIDIA A100，batch=8，Adam优化器，加权交叉熵损失，数据增强。

4.2 核心性能结果

图4：ZOD数据集第000404帧分割结果的定性对比。(a) 真实标注分割图，附带放大局部细节。(b) 基准模型预测结果，放大区域内目标轮廓精度较低。(c) 集成模型预测结果，针对行人、骑行者、交通标志这类小型安全关键目标，其放大区域内的轮廓精度得到明显提升。

4.2.1 主实验（精度SOTA）

ZOD数据集：CLFT-Hybrid融合模型日间晴天mIoU**48.1%**，全天气性能稳定，优于DeepLabV3+；
Iseauto实车平台：CLFT-Hybrid融合mIoU达**77.5%**，显著高于ZOD，适配规整城市场景。

4.2.2 类别专业化增益

标识类IoU：基线29.7%→专业化43.5%，**提升13.8%**；
行人类IoU：基线33.6%→专业化38.0%，**提升4.4%**；
集成模型：mIoU达51.3%，全面超越多类别基线。

4.2.3 多模态标注对比

密集相机标注远优于稀疏激光雷达标注，融合模态性能最优，解决稀疏标注与密集预测不匹配问题。

4.2.4 双向迁移学习

跨域初始化20epoch：ZOD→Iseauto mIoU从45.7%→57.6%，Iseauto→ZOD从18.6%→23.6%，收敛速度大幅提升。

4.2.5 SAM边缘精修

恶劣天气行人类IoU平均+3.2%，夜间雨天最高+5.3%，显著提升低可见度场景安全类分割。

5 挑战与未来方向

5.1 核心挑战

SAM小目标误差：远处、遮挡、微小目标仍存在幻觉与边界漂移；
实时性不足：CLFT与集成模型推理速度慢，难以满足车载实时需求；
极端天气鲁棒性：大雪、浓雾、强夜间光照干扰下性能仍有下滑；
标注规模化：当前仅2300帧精筛数据，全量数据集标注需进一步自动化。

5.2 未来方向

SAM进阶优化：结合SAM 2时序分割，提升视频连续帧掩码一致性；
轻量化专业化：蒸馏专业化模型知识，打造车载实时轻量化模型；
多模态深度融合：融合高精地图、雷达信号，提升全天气鲁棒性；
全自动标注闭环：引入伪标签与自监督，减少人工精筛依赖，实现全量标注；
长尾场景专项：针对极端天气、长尾交通事件优化稀有类分割。

6❓ 核心QA

Q1 为什么要给ZOD做SAM稠密标注？

A ZOD是北欧多天气多模态标杆数据集，但仅含检测框，本文首次补齐像素级分割标签，填补该数据集分割研究空白。

Q2 类别专属模型如何解决不平衡？

A 拆分多类别任务为单/双类别专属优化，让模型集中容量学习小目标特征，避免被背景、车辆主导。

Q3 激光雷达标注为何精度更低？

A 激光点云稀疏，仅采样物体局部，与相机稠密掩码预测存在天然监督不匹配。

Q4 SAM标注的局限是什么？

A 小/远/遮挡目标易出错，必须人工校验；复杂场景边界模糊，仍存在伪影与漂移。

7 总结

核心价值

数据集补全：首次为ZOD构建稠密分割标注，填补北欧多模态驾驶数据集分割研究空白；
标注范式革新：SAM自动化+人工精筛，低成本高效生产分割标签，适配工业级数据集；
类别失衡突破：专业化模型+集成，彻底解决自动驾驶安全关键稀有类分割难题；
工程实用：多模态适配、跨域迁移、实车验证，可直接落地自动驾驶感知系统。

总结金句

👉 本框架以SAM自动化标注为核心，用优先级融合修正掩码误差、用类别专业化破解类别失衡、用多模态融合适配车载传感器、用跨域迁移提升泛化能力，全方位补齐自动驾驶稠密分割的标注与精度短板，成为多模态驾驶场景感知的高效解决方案。

8 原论文信息

论文题目：SAM-Enhanced Segmentation on Road Datasets: Balancing Critical Classes in Autonomous Driving
作者团队：Toomas Tahves、Mauro Bellone、Junyi Gu、Raivo Sell
发表单位：塔尔图理工大学、查尔姆斯理工大学、Mercatorum大学
发表信息：arXiv:2605.28136v1（2026年5月）
核心创新：SAM驱动ZOD数据集稠密标注、类别专业化分割、相机-激光雷达融合、双向迁移学习
关键性能：ZOD mIoU 48.1%，Iseauto mIoU 77.5%，标识类IoU+13.8%，跨域收敛加速
技术特性：自动化标注、类别均衡、多模态融合、跨域泛化、实车平台验证

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【场景标注】SAM-ES:面向自动驾驶关键类别平衡的道路数据集分割增强 !

🛑 SAM-Enhanced Segmentation：面向自动驾驶关键类别平衡的道路数据集分割增强

导读

推荐理由