🛑 SAM-Enhanced Segmentation:面向自动驾驶关键类别平衡的道路数据集分割增强
导读
直击自动驾驶稠密语义分割四大核心缺陷——ZOD数据集仅提供2D bounding box无像素级标注、驾驶场景存在极端类别失衡(行人/骑行者/交通标识占比<1%)、激光雷达稀疏标注与密集预测不匹配、恶劣天气/夜间分割性能大幅下滑:传统方案依赖人工稠密标注成本极高,SAM零样本分割存在幻觉与边界误差,标准损失函数无法聚焦安全关键稀有类,多模态融合未适配稀疏激光雷达特性。为此塔尔图理工大学、查尔姆斯理工大学等提出SAM增强的自动驾驶道路分割框架,构建自动化标注流水线将ZOD边界框转为稠密语义掩码,人工精筛2300帧建立基准,基于CLFT与DeepLabV3+实现相机-激光雷达融合分割,提出类别专业化模型与集成策略,结合双向迁移学习提升跨域泛化。在ZOD数据集mIoU最高达**48.1%,Iseauto实车平台达77.5%**,稀有安全类别IoU显著提升,补齐ZOD数据集分割标注空白。
图1:基于SAM的预处理流程可视化,展示从原始ZOD边界框到密集语义分割掩码的转换过程。(a) ZOD数据集原始边界框;(b) 经过筛选、去重及尺寸约束处理后的结果;(c) 由SAM结合优先级分辨率生成的最终像素级分割掩码。
推荐理由
- 数据集空白填补:首次为无像素标注的ZOD多模态数据集生成SAM稠密掩码,构建2300帧人工精筛分割基准。
- 标注高效可靠:自动化处理10万+帧,36%人工通过率,兼顾标注效率与掩码质量,降低分割标注成本。
- 类别失衡根治:类别专业化模型+集成策略,让交通标识、行人等稀有类IoU大幅提升,突破安全关键类分割瓶颈。
- 多模态深度适配:生成相机/激光雷达双规格标注,融合分割在恶劣天气更鲁棒,适配自动驾驶传感器特性。
- 跨域泛化增强:双向迁移学习加速收敛,特征可跨数据集迁移,适配不同场景与传感器配置。
1 业务背景与技术背景
1.0 业务背景:自动驾驶多模态分割刚需
稠密语义分割是自动驾驶感知核心,支撑精细场景理解与安全决策,但落地存在致命短板:
- ZOD等大规模多模态驾驶数据集仅提供边界框标注,无像素级标签,无法支撑监督分割训练;
- 人工像素标注成本极高、周期长,难以覆盖北欧雨雪、夜间等复杂天气场景;
- 驾驶场景类别极端失衡,行人、交通标识等安全关键类像素占比不足1%,标准模型分割失效;
- 激光雷达稀疏点云与相机密集图像标注不匹配,多模态融合分割性能难以发挥。
亟需低成本自动化标注、适配类别失衡、多模态鲁棒、跨域可迁移的自动驾驶分割方案。
1.1 技术背景:现有工作局限与本文突破
| | |
|---|
| | |
| | 边界框过滤去重+优先级掩码融合,修正SAM输出误差 |
| | |
| | |
| | |
2 核心概念:关键定义与技术体系
| | |
|---|
| 边界框过滤去重→SAM推理→优先级掩码融合→双模态标注生成 | |
| 针对车辆/行人/标识单类别或组合训练,缩小优化范围 | |
| 相机-激光雷达双编码器+跨模态注意力,多尺度特征融合 | |
| | |
| ZOD↔Iseauto跨域初始化,加速收敛提升泛化 | |
3 核心内容:框架架构与关键技术
图2:将ZOD边界框转换为密集分割掩码的数据预处理流程。该流程包含三步:一是依据各类别专属的尺寸阈值、长宽比约束及区域排除规则对输入数据进行筛选;二是采用交并比阈值0.3进行同类目标合并以完成去重,合并过程中优先保留尺寸更大的目标;三是将单帧目标数量限制为75个,以此提升处理效率与标注质量。