首页 > 其他分享 >用于参数和计算效率的超细粒度图像识别的降采样插入层适配器

用于参数和计算效率的超细粒度图像识别的降采样插入层适配器

时间:2024-09-20 18:53:17浏览次数:3  
标签:采样 图像识别 细粒度 ILA 适配器 准确率 参数

2024年9月17日提交的论文《Down-Sampling Inter-Layer Adapter for Parameter and Computation Efficient Ultra-Fine-Grained Image Recognition》

一. 研究背景

  1. 研究问题:这篇文章要解决的问题是超细粒度图像识别(UFGIR),即将对象分类到极其细小的类别中,例如区分同一物种内的不同品种,而不是像细粒度图像识别(FGIR)那样分类到物种级别。由于类别之间的差异小,类内差异大,且标注数据稀缺,这一任务非常具有挑战性。

  2. 研究难点:该问题的研究难点包括:类别间差异小,类内差异大,标注数据稀缺,以及现有方法在参数效率和计算成本方面仍有改进空间。

  3. 相关工作:为了应对这些挑战,现有方法采用了粗图像识别主干并结合额外模块或损失函数来集中利用细微的区分特征。最近的工作使用Vision Transformer(ViT)由于其自注意力机制的全局感受野,能够有效提取和聚合细粒度特征。然而,现有的参数高效迁移学习方法(PETL)在UFGIR任务中仍落后于专门的FGIR方法。

 

二. 研究方法

这篇论文提出了一种新的中间层适配器(Intermediate Layer Adapter, ILA)用于解决冻结ViT在UFGIR任务中面临的注意力坍塌问题。具体来说,

  1. 双分支下采样设计:ILA模块通过在Transformer层之间插入双分支下采样适配器来聚合空间特征,同时保留细粒度细节。主分支包括通道下采样(CDS)、深度可分离卷积(DWC)和通道上采样(CUS)模块。设计的主要变化包括:
    1. 使用深度可分离卷积以提高计算效率。
    2. 不使用填充,以减少前向传播过程中的空间维度。
    3. 公式如下:
    4. 残余空间下采样分支(RSDS):为了促进层间信息流动并减轻网络内的梯度消失风险,提出了一种基于深度卷积的可学习残余下采样分支。初始权重接近1,使其能够轻松近似恒等函数。公式如下: 其中,K为卷积核大小,W为卷积核权重。

 

三. 实验设计

实验在10个UFGIR数据集上进行,每个类别代表一个品种。实验设计包括:

  1. 数据集:使用了Yu等人收集的10个超细粒度叶片数据集,每个类别代表一个确认的品种名称。
  2. 模型配置:所有实验均使用ViT B-16作为主干,patch大小为16,层数L=12,隐藏维度大小D=768。提出了三种不同的ILA变体:
    • ILA:仅在层4和8之后插入带下采样的中间层适配器模块。
    • ILA+:包括ILA模块,并在除了层4和8之外的其他每层插入不带下采样的ILA模块。
    • ILA++:包括ILA模块,并在所有层插入传统的层内适配器。
  3. 对比模型:将提出的模型与15种最先进的模型进行比较,分为三类:仅微调分类头的方法、基于某些标准选择特征的FGIR方法、专用的PETL方法。
  4. 训练过程:使用随机梯度下降(SGD)优化器,动量为0.9,批量大小为8,余弦学习调度器,预热500步,所有模型训练50个epoch,使用自动混合精度。
  5. 数据预处理:将图像调整为300x300或600x600的方形,然后在训练期间随机裁剪224x224或448x448的图像。所有图像水平翻转并根据标准ImageNet均值和标准差进行归一化。

 

四. 结果与分析

  1. 总体结果:不同版本的ILA在所有任务中均取得了最高的平均准确率,并且在参数和计算效率方面表现出色。ILA++的准确率提高了6.8%,但所需的浮点运算(FLOPs)减少了8%,训练参数减少了90%。
  2. 每数据集准确率:虽然ILA在准确率上不如最佳的微调FGIR模型,但在参数成本方面具有竞争力。例如,尽管ILA++的准确率比CSD低1%,但其训练参数减少了123倍。
  3. 消融实验:结果表明,使用RSDS是必要的,以避免网络坍塌,并且所提出的方法作为残差比其他方法更有效。

 

五. 总体结论

本文提出了一种基于双分支空间下采样的新颖中间层适配器,用于参数和计算高效的超细粒度图像识别。该方法增加了注意力图的多样性,并在准确性和成本方面取得了出色的结果。

 

六. 创新点

  1. 提出了新的中间层适配器(ILA)模块,解决了冻结的ViT在UFGIR任务中面临的注意力坍塌问题。ILA通过双分支空间下采样来聚合判别特征并减少计算成本。
  2. 在10个UFGIR数据集上进行了全面的实验,结果表明,所提出的方法在分类性能和计算效率方面表现出色。具体来说,ILA++在参数效率设置中将平均准确率提高了至少6.8%,同时需要的可训练参数比当前最先进的UFGIR方法少123倍,并且平均减少了30%的浮点运算(FLOPs)。
  3. 通过引入残差空间下采样(RSDS)分支,促进了层间信息流动,缓解了网络内的梯度消失风险。RSDS分支的设计允许模型根据梯度调节权重,从而有效地作为门控或池化函数。
  4. 实验结果表明,ILA在参数和计算效率方面具有显著优势,同时在多个数据集上取得了有竞争力的准确率。

 

七. 不足点

  1. ILA++在某些数据集上的准确率略低于最好的FT FGIR模型(如CSD),但其在参数成本上具有显著优势。未来的工作可以考虑将自监督学习和知识蒸馏与ILA结合,以进一步提高性能。
  2. 论文中提到的三种ILA变体(ILA、ILA+、ILA++)在不同程度上引入了下采样和非下采样模块,未来可以进一步探索不同组合和配置对性能的影响。

标签:采样,图像识别,细粒度,ILA,适配器,准确率,参数
From: https://blog.csdn.net/boboly186/article/details/142328420

相关文章

  • 适配器模式
    适配器模式适配器模式(AdapterPattern)是一种结构型设计模式,用于解决接口不兼容的问题。它的主要作用是将一个类的接口转换成客户端期望的另一个接口,使得原本由于接口不兼容而无法一起工作的类可以一起工作。概念目标接口(Target):客户端期望使用的接口。源接口(Adaptee):需要被......
  • 工人是否佩戴安全帽图像识别
    工人是否佩戴安全帽图像识别系统能从繁杂的场景下对对未戴安全帽多个目标同时开展识别分析,识别、记录和预警提醒。工人是否佩戴安全帽图像识别系统若发现违规操作,直接向有关人员推送报警消息记录,协助有关管理者进行安全生产工作,大大提升了安全监督的时效性,减少了人力成本。工人......
  • 安全帽图像识别算法
    安全帽图像识别算法依据AI深度学习+边缘计算,通过机器视觉ai分析检测算法可以有效识别工人是不是合规和佩戴安全帽,安全帽图像识别算法提高视频监控不同场景下的主动分析与识别报警能力。安全帽图像识别算法系统搭载了全新的人工智能图像识别技术实时分析现场监控画面图像,与人力监管......
  • C# 设计模式:适配器模式(Adapter Pattern)
    摘要适配器模式是一种结构型设计模式,它允许不兼容的接口之间能够相互合作。这种模式涉及到一个单独的类,它负责加入独立的或不兼容的接口功能。简单来说,适配器模式就是一个中间件,它使得原本由于接口不兼容而不能一起工作的类可以一起工作。正文应用场景适配器模式通常应用于以下情况......
  • 在半监督学习中,用于细粒度图像分类中精确增强的伪标记方法
    2024年9月5日提交的原论文《PEPL:Precision-EnhancedPseudo-LabelingforFine-GrainedImageClassificationinSemi-SupervisedLearning》GitHub-TianSuya/SemiFG:ASemi-supervisedframeworkforfinegrainedclassificationASemi-supervisedframeworkforfine......
  • 适配器设计模式
    设计模式(Designpattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解解、保证代码可靠性、程序的重用性。简单理解:设计模式就是各种套路。适配器设计模式:解决接口与接口实现类之间的矛盾问题如......
  • C++模拟实现stack和queue(容器适配器)
    适配器是一种设计模式(设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结),该种模式是将一个类的接口转换成客户希望的另外一个接口。简单理解,将模板参数给成容器,就是容器适配器,写成参数的容器的各种接口,均满足需要。#include<list>#includ......
  • FALCON:打破界限,粗粒度标签的无监督细粒度类别推断,已开源| ICML'24
    在许多实际应用中,相对于反映类别之间微妙差异的细粒度标签,我们更容易获取粗粒度标签。然而,现有方法无法利用粗标签以无监督的方式推断细粒度标签。为了填补这个空白,论文提出了FALCON,一种从粗粒度标记数据中无需细粒度级别的监督就能发现细粒度类别的方法。FALCON同时推断未知的细......
  • 通过特征幅度正则化,增强少数据情况下的细粒度识别精度
    原论文《EnhancingFine-GrainedVisualRecognitionintheLow-DataRegimeThroughFeatureMagnitudeRegularization》一.研究背景1.研究问题:这篇文章要解决的问题是细粒度图像识别(FGVR)在数据有限的情况下如何进行训练。由于类别之间的细微差异可能难以区分,尤其是在存......
  • 适配器模式
    适配器模式是一种结构型设计模式,用于将一个类的接口转换成另一个客户期望的接口。这种模式可以让原本由于接口不兼容而无法在一起工作的类能够协同工作。以下是一个简单的适配器模式的示例代码:usingSystem;//目标接口interfaceITarget{voidRequest();}//适配......