【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互，保持高准确度的同时减少计算成本

时间：2024-07-18 17:29:39浏览次数：16

标签：src None SPPF AIFI nn self torch 计算成本 pos

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

YOLO系列因其在速度和准确性之间的合理权衡，成为了实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受NMS（非极大值抑制）的负面影响。最近，基于Transformer的端到端检测器（DETRs）提供了一种消除NMS的替代方案，但其高计算成本限制了其实用性，并阻碍了其完全利用排除NMS的优势。在本文中，我们提出了实时检测Transformer（RT-DETR），据我们所知，这是第一个解决上述困境的实时端到端目标检测器。我们借鉴先进的DETR，分两步构建RT-DETR：首先，我们专注于在提高速度的同时保持准确性，然后在保持速度的同时提高准确性。具体而言，我们设计了一种高效的混合编码器，通过解耦内尺度交互和跨尺度融合来快速处理多尺度特征，从而提高速度。然后，我们提出了不确定性最小化查询选择，以向解码器提供高质量的初始查询，从而提高准确性。此外，RT-DETR通过调整解码器层数支持灵活的速度调节，以适应各种场景，而无需重新训练。我们的RT-DETR-R50/R101在COCO数据集上分别达到了53.1%和54.3%的AP，并在T4 GPU上达到了108 FPS和74 FPS，超越了之前先进的YOLOs在速度和准确性上的表现。此外，RT-DETR-R50在准确性上比DINO-R50高2.2% AP，且FPS高约21倍。经过Objects365的预训练后，RT-DETR-R50/R101分别达到了55.3%和56.2%的AP。项目页面：https://zhao-yian.github.io/RTDETR。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

核心代码

class AIFI(TransformerEncoderLayer):
    """Defines the AIFI transformer layer."""

    def __init__(self, c1, cm=2048, num_heads=8, dropout=0, act=nn.GELU(), normalize_before=False):
        """Initialize the AIFI instance with specified parameters."""
        super().__init__(c1, cm, num_heads, dropout, act, normalize_before)

    def forward(self, x):
        """Forward pass for the AIFI transformer layer."""
        c, h, w = x.shape[1:]
        pos_embed = self.build_2d_sincos_position_embedding(w, h, c)
        # Flatten [B, C, H, W] to [B, HxW, C]
        x = super().forward(x.flatten(2).permute(0, 2, 1), pos=pos_embed.to(device=x.device, dtype=x.dtype))
        return x.permute(0, 2, 1).view([-1, c, h, w]).contiguous()

    @staticmethod
    def build_2d_sincos_position_embedding(w, h, embed_dim=256, temperature=10000.0):
        """Builds 2D sine-cosine position embedding."""
        grid_w = torch.arange(int(w), dtype=torch.float32)
        grid_h = torch.arange(int(h), dtype=torch.float32)
        grid_w, grid_h = torch.meshgrid(grid_w, grid_h, indexing="ij")
        assert embed_dim % 4 == 0, "Embed dimension must be divisible by 4 for 2D sin-cos position embedding"
        pos_dim = embed_dim // 4
        omega = torch.arange(pos_dim, dtype=torch.float32) / pos_dim
        omega = 1.0 / (temperature**omega)

        out_w = grid_w.flatten()[..., None] @ omega[None]
        out_h = grid_h.flatten()[..., None] @ omega[None]

        return torch.cat([torch.sin(out_w), torch.cos(out_w), torch.sin(out_h), torch.cos(out_h)], 1)[None]

下载YoloV8代码

直接下载

GitHub地址

Git Clone

git clone https://github.com/ultralytics/ultralytics

安装环境

进入代码根目录并安装依赖。

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

在最新版本中，官方已经废弃了requirements.txt文件，转而将所有必要的代码和依赖整合进了ultralytics包中。因此，用户只需安装这个单一的ultralytics库，就能获得所需的全部功能和环境依赖。

pip install ultralytics

新版本yolov8已经集成AIFI

请注意AIFI以及被官方集成到了新版本yolov8中，具体路径是：ultralytics/ultralytics/nn/modules/transformer.py

直接配置yaml进行训练即可：

# Ultralytics YOLO 
标签：src,None,SPPF,AIFI,nn,self,torch,计算成本,pos	

From： https://blog.csdn.net/shangyanaf/article/details/140500654

YOLOv10涨点改进：SPPF原创自研创新 | SPPF创新结构，重新设计全局平均池化层和全局最大池
......
万字详解YOLOv8网络结构Backbone/neck/head以及Conv、Bottleneck、C2f、SPPF、Detect
YOLO目标检测创新改进与实战案例专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例简介YOLOv8是由Ultralytics开发的最先进的目标检测模型，推升了速度、准确性和用户友好性的界限。YOLO这一缩写代表“你......
YOLO报错AttributeError: Can‘t get attribute ‘SPPF‘ on ＜module ‘models.common
解决方案：model/common.py里面去找到这个SPPF的类,把它拷过来到Tags5的model/common.py里面,这样你的代码就也有这个类了,还要引入一个warnings包1、把importwarnings放在上面去：importwarnings2、把SPPF类的代码复制到common.py中classSPPF(nn.Module):#SpatialP......
【YOLOv5改进系列(9)】高效涨点----使用CAM（上下文增强模块）替换掉yolov5中的SPPF模块
文章目录......
SAP SCM 标准报表 /SAPAPO/SPPFIXREQ 的作用介绍
SAPSCM（SupplyChainManagement）是SAP公司推出的供应链管理解决方案，涵盖了多个模块，包括计划、执行和协同等。其中，APO（AdvancedPlanningandOptimization）是SAPSCM中的一个关键组件，提供高级的计划和优化功能。在APO中，/SAPAPO/SPPFIXREQ是一个标准报表，用于固定需求的计划。/SAPAP......
YOLOv5/YOLOV4中的SPP/SPPF
目录一、SPP的应用的背景二、SPP结构分析三、SPPF结构分析四、YOLOv5中SPP/SPPF结构源码解析（内含注释分析）一、SPP的应用的背景在卷积神经网络中我们经常看到固定输入的设计，但是如果我们输入的不能是固定尺寸的该怎么办呢？通常来说，我们有以下几种方法：（1）对输入进行resize......
训练yolov5模型时报错AttributeError: Can't get attribute 'SPPF' on module 'models
解决方法打开common.py文件，增加以下代码importwarningsclassSPPF(nn.Module):#SpatialPyramidPooling-Fast(SPPF)layerforYOLOv5byGlennJocherdef__init__(self,c1,c2,k=5):#equivalenttoSPP(k=(5,9,13))super().__init_......
pytorch模型降低计算成本和计算量
下面是如何使用PyTorch降低计算成本和计算量的一些方法：压缩模型：使用模型压缩技术，如剪枝、量化和哈希等方法，来减小模型的大小和复杂度，从而降低计算量和运行成本。分布式训练：使用多台机器进行分布式训练，可以将模型训练时间大大缩短，提高训练效率，同时还可以降低成本。硬件加......
数据治理如何做？火山引擎 DataLeap 帮助这款产品 3 个月降低计算成本 20%
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群本文讲述字节跳动一款App产品的数据治理故事。该产品随着用户体量和数据体量不断增长......
数据治理如何做？火山引擎DataLeap帮助这款产品3个月降低计算成本20%
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群本文讲述字节跳动一款App产品的数据治理故事。该产品随着用户体量和数据体量不......