YOLOv8 with Attention 注意力机制

时间：2024-07-14 20:56:39浏览次数：14

标签：places nn self Attention expansion YOLOv8 模块注意力 out

本文来源于：YOLOv8-AM: YOLOv8 with Attention Mechanisms for Pediatric Wrist Fracture Detection
代码：github

总的结构图，可以看到注意力机制模块被加载在neck部分，在upsample、C2f之后。
在这里插入图片描述
相比yolov8的模型配置文件，根据以上结构图，在每次upsanple、C2f模块后，添加了注意力机制。
其中[-1, 1, ShuffleAttention, [512]]参数含义为：
“-1” ：使用前一层的输出作为输入；
“1” ：重复一次；
“ShuffleAttention”：注意力机制模块；
“[512]” ：注意力机制模块的参数，和前一层的输出通道数一致，也可以有多个参数，根据模块要求配置。
最后，修改相应的detect head的输入的层编号为[17, 21, 25]。
在这里插入图片描述
下面需要修改相应的代码，让模型能加载注意力机制模块。

1.如果把注意力机制模块的代码放在了“ultralytics/nn/modules/conv.py” 中，那么就要修改__init__.py ，import 相应的模块。

在解析yaml配置文件，构建模型的时候，需要修改“ultralytics/nn/tasks.py” ,在开头import 相应模块。
在这里插入图片描述
然后修改parse_model函数，

构建模型后，可以看到已经添加了ShuffleAttention模块。

根据作者的实验结果，ResBlock_CBAM取得了较好的效果，并且推理时间只增加了1ms。

class ResBlock_CBAM(nn.Module):
    def __init__(self, in_places, places, stride=1, downsampling=False, expansion=1):
        super(ResBlock_CBAM, self).__init__()
        self.expansion = expansion
        self.downsampling = downsampling

        self.bottleneck = nn.Sequential(
            nn.Conv2d(in_channels=in_places, out_channels=places, kernel_size=1, stride=1, bias=False),
            nn.BatchNorm2d(places),
            nn.LeakyReLU(0.1, inplace=True),
            nn.Conv2d(in_channels=places, out_channels=places, kernel_size=3, stride=stride, padding=1, bias=False),
            nn.BatchNorm2d(places),
            nn.LeakyReLU(0.1, inplace=True),
            nn.Conv2d(in_channels=places, out_channels=places * self.expansion, kernel_size=1, stride=1,
                      bias=False),
            nn.BatchNorm2d(places * self.expansion),
        )
        # self.cbam = CBAM(c1=places * self.expansion, c2=places * self.expansion, )
        self.cbam = CBAM(c1=places * self.expansion)

        if self.downsampling:
            self.downsample = nn.Sequential(
                nn.Conv2d(in_channels=in_places, out_channels=places * self.expansion, kernel_size=1, stride=stride,
                          bias=False),
                nn.BatchNorm2d(places * self.expansion)
            )
        self.relu = nn.ReLU(inplace=True)

    def forward(self, x):
        residual = x
        out = self.bottleneck(x)
        out = self.cbam(out)
        if self.downsampling:
            residual = self.downsample(x)

        out += residual
        out = self.relu(out)
        return out

更多的注意力机制模块可以参考CNN中的注意力机制

标签：places,nn,self,Attention,expansion,YOLOv8,模块,注意力,out
From： https://blog.csdn.net/zhilaizhiwang/article/details/140301801

YOLOv8中根据标签绘制真实框
这个在写论文的过程中获取展示图片的时侯可能会需要用的。最近也是自己在弄目标检测方面的东西，然后这也是自己碰到的问题，想着能分享一下，希望对有需要的人有所帮助。也欢迎大家来讨论问题、交流心得。importcv2importos#定义输入文件夹和输出文件夹路径input_img_folder......
Transformer模型：intra-attention mask实现
前言这是对Transformer模型WordEmbedding、PostionEmbedding、Encoderself-attentionmask内容的续篇。视频链接：20、Transformer模型Decoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili文章链接：Transformer模型：WordEmbedding实现-CSDN博客 ......
Lookback Lens：用注意力图检测和减轻llm的幻觉
在总结文章或回答给定段落的问题时，大语言模型可能会产生幻觉，并会根据给定的上下文回答不准确或未经证实的细节，这也被称为情境幻觉。为了解决这个问题，这篇论文的作者提出了一个简单的幻觉检测模型，其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被......
Transformer模型：Encoder的self-attention mask实现
前言这是对Transformer模型的WordEmbedding、PostionEmbedding内容的续篇。视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili文章链接：Transformer模型：WordEmbedding实现-CSDN博客 Transf......
【CPO-TCN-BiGRU-Attention回归预测】基于冠豪猪算法CPO优化时间卷积双向门控循环单元
%数据准备%假设有一个输入变量X和一个目标变量Y%假设数据已经存储在X和Y中，每个变量为列向量%参数设置inputWindowSize=10;%输入窗口大小outputWindowSize=1;%输出窗口大小numFeatures=1;%输入变量的数量numFilters=32;%TCN中的滤波器数......
yolov8_pytorch目标检测和图像分割深度学习模型
yolov8论文无模型结构yolov8是一种单阶段目标检测算法，该算法在YOLOV5的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。算法原理YOLOv8算法通过将图像划分为不同大小的网格，预测每个网格中的目标类别和边界框，利用特征金字塔结构和自适应的模型缩放......
FlashAttention/ PagedAttention原理,大模型加速
1.1GPU硬件特点由于FlashAttention计算self-attention的主要关键是有效的硬件使用，所以了解GPU内存和各种操作的性能特征是很有必要的。以A100(40GBHBM)为例，下面显示其内存层次结构的粗略图。SRAM内存分布在108个流式多处理器(SMs)上，每个处理器192KB。片上SRAM比......
Lookback Lens：用注意力图检测和减轻llm的幻觉
在总结文章或回答给定段落的问题时，大语言模型可能会产生幻觉，并会根据给定的上下文回答不准确或未经证实的细节，这也被称为情境幻觉。为了解决这个问题，这篇论文的作者提出了一个简单的幻觉检测模型，其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被称为回......
T5架构和主流llama3架构有什么区别和优缺点、transformer中encoder 和decoder的不同、
T5架构和主流llama3架构有什么区别和优缺点T5和LLaMA是两种在自然语言处理（NLP）领域广泛应用的大型语言模型，它们在架构和应用上有显著的区别和各自的优缺点。T5架构架构特点:Encoder-Decoder结构:T5（Text-to-TextTransferTransformer）采用了经典的Encoder-DecoderTransform......
YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合SimAM和Channel Attention形成全
1.CSimAM介绍 CSimAM（ChannelSimAM）注意力机制结合了SimAM和通道注意力机制（ChannelAttention），在图像特征提取上展现出比单独使用SimAM更为优异的性能。以下是详细描述： SimAM注意力机制 SimAM（SimilarityAttentionMechanism）通过计......

YOLOv8 with Attention 注意力机制

相关文章

赞助商

阅读排行