点击蓝字
关注我们
关注并星标
从此不迷路


公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://www.nature.com/articles/s41598-025-90743-4
计算机视觉研究院专栏
Column of Computer Vision Institute

PART/1
概述
因此,本研究提出了一种专门针对乡村道路场景设计的空间-通道协同注意力YOLO网络。该网络集成了一种创新的注意力机制,以顺序方式融合具有共享语义的空间注意力和通道自注意力,从而提升YOLOv8的精度。此外,还集成了Ghost模块以实现网络的轻量化特性。我们在自有数据集和公开数据集上进行的评估,验证了该检测网络性能的有效性。
自动驾驶技术的快速发展已将显著注意力转向提升感知系统的精度领域。尽管已有大量研究旨在提高检测精度,但挑战仍然存在,尤其是在偏远高速公路和乡村道路的边缘案例中。这些区域复杂的交通环境以及多样道路使用者的存在,对自动驾驶中使用的感知系统提出了更高要求。本文通过提出一种新颖的空间-通道协同注意力机制来应对这些挑战,该机制旨在增强自动驾驶系统的感知能力,特别是在偏远高速公路场景中。我们的研究动机是在确保系统保持轻量化和高效的同时,实现更高的精度。
PART/2
背景
本研究的主要贡献如下:
1.我们构建了一个包含1050张图像的数据集,这些图像被分为六组,涵盖四种大型动物、行人与车辆,专门针对偏远高速公路的独特驾驶条件定制。据我们所知,这是同类数据集中的首个,为未来的研究工作提供了宝贵资源。
2.本文提出了一种结合空间-通道协同注意力的YOLO网络,通过从多尺度空间信息中提取丰富的语义特征来增强信息表达,从而实现更优性能。该网络在我们建立的数据集上表现出色,同时显著提高了检测精度和效率。与CBAM相比,我们的方法在不同数据集上的性能均有提升。
3. 我们将Ghost模块集成到空间-通道协同注意力增强型YOLO网络(SCCA-YOLO)中,以优化其计算效率,从而减少资源消耗并增强实际部署的实用性。
4. 为进一步验证我们提出的网络的有效性,我们在两个公开可用的数据集COCO128和African-Wildlife上进行了测试。结果表明,我们的检测网络在这些标准数据集上也表现优异。
通过本文呈现的研究成果,我们期望为偏远高速公路场景下自动驾驶感知系统的发展提供创新思路和方法。本文的结构安排如下:第二节综述相关文献,聚焦智能交通系统和感知检测领域,同时强调该领域的显著研究贡献;第三节详细阐述研究方法,包括对自建数据集、SCCA-YOLO网络、SCCA模块和Ghost模块的深入探讨;第四节介绍实验设置与讨论,详细说明实验环境、参数配置以及对数据和结果的综合分析;最后,结论部分总结我们的研究发现并概述未来的研究方向。
PART/3
新算法框架解析
在本节中,我们将首先研究传统检测算法,重点关注YOLO系列。随后,我们将介绍我们提出的SCCA-YOLO网络,并讨论通过集成Ghost模块开发轻量化变体的方法。
YOLO网络 “一次看尽”(YOLO,You Only Look Once)由Ross Girshick等人于2016年在计算机视觉与模式识别会议(CVPR)上提出。在深度学习目标检测器领域,YOLO与R-CNN、SSD以及EfficientDet等算法形成鲜明差异,最终成为目标检测领域的主流框架之一。
在YOLOv1问世之前,R-CNN系列算法在目标检测领域占据主导地位,其显著特点是检测精度较高。然而,R-CNN固有的两阶段网络架构导致其检测速度无法满足实时性需求,因而受到较多诟病。为解决这一局限,单阶段目标检测网络YOLO应运而生,其检测速度可达每秒45帧,具备了实时检测能力。
随后发布的YOLOv2在YOLOv1的基础上进行了大幅改进,尤其着力提升召回率与定位精度。YOLOv3则通过多项优化进一步完善该框架,例如引入多尺度训练机制,使网络能够输出三种不同尺度的特征图;同时,它还采用了新的网络架构——利用特征金字塔网络(FPN)实现特征融合,并集成了残差连接模块;在分类部分,YOLOv3也从softmax(软最大化)分类器转向了逻辑回归(logistic regression)。
2020年,Alexey Bochkovskiy发布了YOLOv4,不久后Glenn Jocher又推出了YOLOv5。尽管YOLOv5缺乏正式的学术论文发表,但作者已将其源代码上传至GitHub平台,供学术界与工业界社区使用和研究。
YOLOv6由美团视觉智能部研发,是一款专为工业应用场景设计的目标检测算法。YOLOv8在YOLOv5的基础上开发而来,在速度与精度两方面均表现卓越,其设计简洁高效,适用场景广泛,且能轻松适配从边缘设备到云API的各类硬件平台。这种高通用性使YOLOv8成为多种任务的理想解决方案,可应用于目标检测与跟踪、实例分割、图像分类以及姿态估计等领域。 作为后续版本,YOLOv10进一步提升了性能与效率;而YOLOv11则以YOLOv8为基础,在不损失精度的前提下将参数数量减少了20%,同时在速度与精度上仍保持优异表现。其高效的架构设计使其能够持续支持不同硬件平台上的各类应用场景。
SCCA-YOLO模型概述
YOLO系列算法从版本1到版本11,在性能和效率上持续提升。但这并不意味着在所有应用中都应不加区分地选择最新版本。场景、任务和具体需求的差异会显著影响算法的性能。在对各类YOLO算法进行评估后,我们确定YOLOv8在我们的特定任务中表现更优。与其他YOLO网络以及采用卷积块注意力模块(CBAM)的YOLO网络相比,我们提出的方法在自有数据集和两个公开数据集上,在检测精度和参数效率方面均表现更出色。具体而言,在coco128数据集上,我们的方法实现的平均精度均值(mAP0.5:0.95)比传统YOLOv8高1.6%,比采用CBAM的YOLOv8变体高0.7%。它在精度、计算效率和内存利用率方面具有最优异的综合性能。更多细节请参见“对比实验”小节和附录。因此,我们选择采用YOLOv8作为基础网络,并将在此框架上进行进一步开发。YOLOv8的架构如图1所示。

图1
SCCA-YOLO网络是通过将YOLOv8中的C2f模块替换为SCCA模块而开发的。下一小节将对SCCA模块进行全面概述。图2展示了SCCA-YOLO网络的架构。

空间-通道协同注意力
SCCA-YOLO受Yunzhong等人于2024年提出的注意力机制的启发,该机制研究了空间注意力与通道注意力之间的相互作用。尽管以往的研究已经探讨了空间注意力和通道注意力在提取特征依赖关系以及理解空间结构关系方面的各自作用,但缺乏对它们联合效应的综合性研究。SCCA模块由两个部分组成:共享多语义空间注意力(SA)和渐进式通道自注意力(CA)。共享多语义方面整合了不同空间维度上的多种语义信息,这些信息随后被通道自注意力机制利用。这种语义信息的整合能够有效指导通道校准,从而提升网络的整体性能。网络的整体架构如图3所示,其中X为特征图。
SCCA(X)=CA(SA(X))

Ghost模块
GhostNet是一种用于卷积神经网络的轻量化架构¹¹,其核心原理是通过简单的线性运算生成更多的特征图。这种方法能有效降低计算需求和模型参数数量,从而提高网络的效率,尤其适用于移动设备应用场景。Ghost模块是GhostNet的基础组件,它通过标准的1×1卷积减少通道数,随后采用深度可分离卷积(逐层卷积)来生成额外的特征图。这些生成的特征图被称为“Ghost”特征图,因为它们是通过简单运算从原始特征图衍生而来的。Ghost模块的实现通常包含两个部分:1×1卷积和深度可分离卷积,如图4所示。通过将Ghost模块集成到网络架构中,可以显著减少参数数量,实现轻量化设计,从而提高在硬件平台上部署的可行性。

PART/4
新算法框架解析
我们在自有数据集、非洲野生动物数据集和coco128数据集上开展了一系列实验。SCCA-YOLO在我们自有数据集上的训练结果如图5所示。

图5
余图表置于附录中。具体而言,图6、图7和图8展示了Yolov8、CBAM-Yolov8和SCCA-YOLO在三个数据集上的训练结果对比分析。

图6

图7

图12
图12利用我们的自有数据集及对应标签,对Yolov8、Ghost-Yolov8、SCCA-YOLO和SCCA-Ghost-YOLO进行了对比分析。

上图展示了SCCA-YOLO在我们自有数据集上检测各类别的性能表现。

END


转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
🔗