首页 > 其他分享 >【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络

【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络

时间:2024-07-26 16:42:36浏览次数:12  
标签:Transformer 卷积 self Backbone ResNet YOLOv8 实例 BoTNet 注意力

YOLOv8目标检测创新改进与实战案例专栏

专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

image-20240724090953394

摘要

我们提出了BoTNet,这是一种概念上简单但功能强大的骨干架构,结合了自注意力机制,用于图像分类、目标检测和实例分割等多个计算机视觉任务。通过仅在ResNet的最后三个瓶颈块中用全局自注意力替换空间卷积,并且没有其他更改,我们的方法显著提高了实例分割和目标检测的基线性能,同时减少了参数,且在延迟方面的开销极小。通过设计BoTNet,我们还指出带有自注意力的ResNet瓶颈块可以视为Transformer块。无需任何额外的技巧,BoTNet在使用Mask R-CNN框架时,在COCO实例分割基准上达到了44.4%的Mask AP和49.7%的Box AP,超过了之前ResNeSt [67]在COCO验证集上发布的单模型和单尺度的最好结果。最后,我们提出了BoTNet设计在图像分类中的简单适应性,生成的模型在ImageNet基准上实现了84.7%的top-1准确率,同时在TPU-v3硬件上的“计算”时间比流行的EfficientNet模型快1.64倍。我们希望这种简单而有效的方法将作为未来自注意力模型研究的强大基线。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

BoTNet(Bottleneck Transformers for Visual Recognition)是一种结合自注意力机制和卷积神经网络的骨干架构,主要用于图像分类、目标检测和实例分割等视觉任务。BoTNet通过在ResNet的最后三个瓶颈块中用全局自注意力层替代空间卷积层,显著提高了基线性能,并减少了参数量,同时保持了较低的延迟。

  1. 瓶颈块与自注意力机制:

    • ResNet瓶颈块:经典的ResNet瓶颈块使用多个3×3的卷积层来提取特征。尽管卷积操作能够有效捕捉局部信息,但对于需要建模长距离依赖关系的任务(如实例分割)存在一定局限。
    • 多头自注意力(MHSA):BoTNet通过用多头自注意力层替代ResNet瓶颈块中的3×3卷积层,来捕捉全局信息。这种替换使得BoTNet不仅能够捕捉局部特征,还能建模图像中的长距离依赖关系,从而更有效地完成复杂的视觉任务。
  2. 架构设计:

    • 混合模型:BoTNet是一种混合模型,结合了卷积和自注意力机制。卷积层用于从大图像中高效地学习抽象和低分辨率的特征图,自注意力层则用于处理和聚合卷积层捕捉到的信息。
    • 具体实现:BoTNet保留了ResNet的大部分架构,仅在最后三个瓶颈块中将3×3卷积层替换为多头自注意力层。这种设计在实例分割任务中显著提升了性能,例如在COCO数据集上,BoTNet在Mask R-CNN框架下实现了44.4%的Mask AP和49.7%的Box AP。
  3. 计算效率与扩展性:

    • 计算效率:尽管自注意力机制的计算和内存需求随着空间维度呈二次方增长,但通过在低分辨率特征图上应用自注意力层,BoTNet有效地控制了计算开销。
    • 扩展性:BoTNet不仅适用于图像分类,还在更高分辨率的图像检测和实例分割任务中表现出色。例如,BoTNet在训练72个epoch后,在更大图像尺寸(1280×1280)上的性能优于ResNet,展示了其良好的扩展性。
  4. 性能表现:

    • COCO实例分割:在COCO实例分割基准上,BoTNet显著提升了基于ResNet的Mask R-CNN性能。例如,与使用ResNet-50的基线相比,BoTNet-50在使用相同超参数和训练配置下,Mask AP提高了1.2%。
    • ImageNet分类:在ImageNet分类任务中,BoTNet在标准训练设置下表现优异,尤其在使用增强的数据增强和更长时间训练时,BoTNet模型的top-1准确率达到了84.7%。
  5. 相对位置编码

    • 相对位置编码:BoTNet采用了相对位置编码,使得自注意力操作能够感知位置,这对于视觉任务尤为重要。这种编码方式不仅考虑内容信息,还能有效关联不同位置的特征,从而提高模型性能。

核心代码

 
class BoT3(nn.Module):
 
    def __init__(self, c1, c2, n=1, e=0.5, e2=1, w=20, h=20):  # ch_in, ch_out, number, , expansion,w,h
        super(BoT3, self).__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.cv3 = Conv(2 * c_, c2, 1)  # act=FReLU(c2)
        self.m = nn.Sequential(
            *[BottleneckTransformer(c_, c_, stride=1, heads=4, mhsa=True, resolution=(w, h), expansion=e2) for _ in
              range(n)])
        

    def forward(self, x):
        return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), dim=1))

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/140653663

标签:Transformer,卷积,self,Backbone,ResNet,YOLOv8,实例,BoTNet,注意力
From: https://www.cnblogs.com/banxia-frontend/p/18325676

相关文章

  • 【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
    YOLOv8目标检测创新改进与实战案例专栏专栏目录:YOLOv8有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要虽然卷积神经网络(CNNs)中使用自下而上的局部操作符与自......
  • 【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下
    YOLOv8目标检测创新改进与实战案例专栏专栏目录:YOLOv8有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要卷积神经网络(CNNs)在计算机视觉中无处不在,具有众多高效......
  • 【YOLOv8改进- 多模块融合改进】GhostConv + ContextAggregation 幽灵卷积与上下文聚
    YOLOv8目标检测创新改进与实战案例专栏专栏目录:YOLOv8有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例ContextAggregation介绍摘要卷积神经网络(CNNs)在计算机视觉中无......
  • 大语言模型系列-Transformer
    Transformer模型是一种基于自注意力机制的深度学习架构,首次由Vaswani等人在2017年提出,并迅速成为自然语言处理(NLP)领域最具影响力的模型之一。该模型的核心思想是通过自注意力机制来捕捉输入序列中的全局依赖关系,从而充分利用输入序列的信息。Transformer模型的主要组成部分包......
  • YOLOV8训练过程中的那些事
    经过一系列的折腾,终于可以开始训练模型了,好在官网上提供了多种情况下的训练代码,直接使用即可。官网提供的代码如下:点击查看代码fromultralyticsimportYOLO#加载模型model=YOLO("yolov8n.yaml")#从YAML中创建一个新的模型model=YOLO("yolov8n.pt")#使用一个......
  • Transformer模型的可视化介绍|深度学习什么是 GPT|探索流经大模型的数据
    本文文字内容来自于《Transformer模型的可视化介绍|深度学习什么是GPT|探索流经大模型的数据》,该视频由CDA数据科学研究院赵安豆博士重磅推出,有兴趣的小伙伴可以点击下方链接观看,了解更多关于Transformer模型的内容https://edu.cda.cn/goods/show/3645引言本文将深入探讨G......
  • Transformer模块的相关代码实现/缝合模块/即插即用模块
    代码描述:数据生成:generate_data函数生成序列数据用于训练。注意力机制:定义了缩放点积注意力和多头注意力机制。前馈神经网络:定义了前馈神经网络层。编码器和解码器层:定义了编码器层和解码器层。编码器和解码器:定义了完整的编码器和解码器结构。Transformer模型:构建了完整的Tra......
  • YOLOv8改进 | 主干网络 | ⭐重写星辰Rewrite the Stars⭐【CVPR2024】
     秋招面试专栏推荐:深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
  • Transformer —— 李沐老师论文跟读
    论文地址:https://arxiv.org/pdf/1706.03762摘要当时的序列转录模型主要依赖于复杂的循环或者卷积神经网络加encoder+decoder架构组成,而论文提出了一种简单的网络架构transformer,在原有的encoder+decoder基础上增加注意力机制,而不使用循环和卷积。引言在引言中提到RNN的缺点......
  • AI大模型原理(通俗易懂版)——Transformer
    传送门:AI大模型原理(通俗易懂版)-CSDN博客关于GPT的生成等大语言模型背后的技术原理,一个很常见的说法是,它们是通过预测出现概率最高的下一个词来实现文本生成的,这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词,输入框就开始预测后面的文本,概率越高的,排在越上面。......