首页 > 其他分享 >YOLOv8改进系列,YOLOv8添加BiFormer注意力机制,助力小目标检测能力

YOLOv8改进系列,YOLOv8添加BiFormer注意力机制,助力小目标检测能力

时间:2024-08-23 19:23:37浏览次数:22  
标签:助力 双层 YOLOv8 计算 BiFormer 注意力 路由


在这里插入图片描述

原论文摘要

作为视觉Transformer的核心构建模块,注意力机制是捕捉长距离依赖关系的强大工具。然而,这种能力伴随着高昂的代价:由于需要计算所有空间位置之间的成对标记交互,导致巨大的计算负担和高内存占用。一系列工作试图通过引入手工设计的与内容无关的稀疏性来缓解这一问题,例如将注意力操作限制在局部窗口、轴向条带或扩张窗口内。与这些方法不同,我们提出了一种通过双层路由实现动态稀疏注意力的新方法,以实现更灵活的计算分配,同时具备内容感知性。具体而言,对于查询,首先在粗略区域级别过滤掉无关的键值对,然后在剩余候选区域(即路由区域)的联合中应用细粒度的标记对标记注意力。我们提出了这种双层路由注意力的一个简单而有效的实现,该实现利用稀疏性节省计算和内存,同时仅涉及GPU友好的稠密矩阵乘法。基于所提出的双层路由注意力,我们推出了一种新的通用视觉Transformer,称为BiFormer。由于BiFormer能够在查询自适应的方式中仅关注相关标记,而不受其他无关标记的干扰,因此在密集预测任务中表现出良好的性能和高计算效率。多个计算机视觉任务(如图像分类、目标检测和语义分割)的实验证明了我们设计的有效性。

BiFormer介绍

BiFormer的主要贡献在于提出了双层级路由注意力(Bi-Level Routing Attention),具体而言包括以下几点:
1.双层级路由注意力机制:局部路由机制利用了稀疏的局部连接,类似于卷积神经网络中的卷积操作,但具有更灵活的学习能力。全局路由机制采用了一种类似于自注意力的全局特征聚合方法,但通过智能选择关注的区域,减少了计算量。
2.高效的计算和存储设计:BiFormer通过选择性地在局部和全局特征之间进行信息交换,减少了传统Transformer模型的计算复杂度。通过引入层级化的信息处理方式,该模型在保持高性能的同时显著降低了内存和计算资源的消耗。
传统的全局注意力机制到不同的稀疏注意力方法,再到双层级路由注意力机制过程如下图所示
在这里插入图片描述

BiFormer理论详解可以参考链接:论文地址
BiFormer代码可在这个链接找到:代码地址

本文在YOLOv8中引入BiFormer,代码已经整理好了,跟着文章复制粘贴,即可直接运行


目录

相关文章