原文摘要
在各种计算机视觉任务中,通道或空间注意力机制在生成更具辨识度的特征表示方面表现出显著的效果。然而,通过通道维度减少来建模跨通道关系可能会在提取深度视觉表示时带来副作用。本文提出了一种新颖的高效多尺度注意力(EMA)模块。该模块重点在于保留每个通道的信息并降低计算开销,我们将部分通道重新排列到批次维度,并将通道维度分组为多个子特征,使得空间语义特征在每个特征组内分布均匀。
EMA理论详解可以参考链接:论文地址
EMA代码可在这个链接找到:代码地址
本文在YOLOv8中引入EMA,并与C2f融合,代码已经整理好了,跟着文章复制粘贴,即可直接运行