2024年9月17日提交的论文《Down-Sampling Inter-Layer Adapter for Parameter and Computation Efficient Ultra-Fine-Grained Image Recognition》
一. 研究背景
-
研究问题:这篇文章要解决的问题是超细粒度图像识别(UFGIR),即将对象分类到极其细小的类别中,例如区分同一物种内的不同品种,而不是像细粒度图像识别(FGIR)那样分类到物种级别。由于类别之间的差异小,类内差异大,且标注数据稀缺,这一任务非常具有挑战性。
-
研究难点:该问题的研究难点包括:类别间差异小,类内差异大,标注数据稀缺,以及现有方法在参数效率和计算成本方面仍有改进空间。
-
相关工作:为了应对这些挑战,现有方法采用了粗图像识别主干并结合额外模块或损失函数来集中利用细微的区分特征。最近的工作使用Vision Transformer(ViT)由于其自注意力机制的全局感受野,能够有效提取和聚合细粒度特征。然而,现有的参数高效迁移学习方法(PETL)在UFGIR任务中仍落后于专门的FGIR方法。
二. 研究方法
这篇论文提出了一种新的中间层适配器(Intermediate Layer Adapter, ILA)用于解决冻结ViT在UFGIR任务中面临的注意力坍塌问题。具体来说,
- 双分支下采样设计:ILA模块通过在Transformer层之间插入双分支下采样适配器来聚合空间特征,同时保留细粒度细节。主分支包括通道下采样(CDS)、深度可分离卷积(DWC)和通道上采样(CUS)模块。设计的主要变化包括:
- 使用深度可分离卷积以提高计算效率。
- 不使用填充,以减少前向传播过程中的空间维度。
- 公式如下:
- 残余空间下采样分支(RSDS):为了促进层间信息流动并减轻网络内的梯度消失风险,提出了一种基于深度卷积的可学习残余下采样分支。初始权重接近1,使其能够轻松近似恒等函数。公式如下: 其中,K为卷积核大小,W为卷积核权重。
三. 实验设计
实验在10个UFGIR数据集上进行,每个类别代表一个品种。实验设计包括:
- 数据集:使用了Yu等人收集的10个超细粒度叶片数据集,每个类别代表一个确认的品种名称。
- 模型配置:所有实验均使用ViT B-16作为主干,patch大小为16,层数L=12,隐藏维度大小D=768。提出了三种不同的ILA变体:
- ILA:仅在层4和8之后插入带下采样的中间层适配器模块。
- ILA+:包括ILA模块,并在除了层4和8之外的其他每层插入不带下采样的ILA模块。
- ILA++:包括ILA模块,并在所有层插入传统的层内适配器。
- 对比模型:将提出的模型与15种最先进的模型进行比较,分为三类:仅微调分类头的方法、基于某些标准选择特征的FGIR方法、专用的PETL方法。
- 训练过程:使用随机梯度下降(SGD)优化器,动量为0.9,批量大小为8,余弦学习调度器,预热500步,所有模型训练50个epoch,使用自动混合精度。
- 数据预处理:将图像调整为300x300或600x600的方形,然后在训练期间随机裁剪224x224或448x448的图像。所有图像水平翻转并根据标准ImageNet均值和标准差进行归一化。
四. 结果与分析
- 总体结果:不同版本的ILA在所有任务中均取得了最高的平均准确率,并且在参数和计算效率方面表现出色。ILA++的准确率提高了6.8%,但所需的浮点运算(FLOPs)减少了8%,训练参数减少了90%。
- 每数据集准确率:虽然ILA在准确率上不如最佳的微调FGIR模型,但在参数成本方面具有竞争力。例如,尽管ILA++的准确率比CSD低1%,但其训练参数减少了123倍。
- 消融实验:结果表明,使用RSDS是必要的,以避免网络坍塌,并且所提出的方法作为残差比其他方法更有效。
五. 总体结论
本文提出了一种基于双分支空间下采样的新颖中间层适配器,用于参数和计算高效的超细粒度图像识别。该方法增加了注意力图的多样性,并在准确性和成本方面取得了出色的结果。
六. 创新点
- 提出了新的中间层适配器(ILA)模块,解决了冻结的ViT在UFGIR任务中面临的注意力坍塌问题。ILA通过双分支空间下采样来聚合判别特征并减少计算成本。
- 在10个UFGIR数据集上进行了全面的实验,结果表明,所提出的方法在分类性能和计算效率方面表现出色。具体来说,ILA++在参数效率设置中将平均准确率提高了至少6.8%,同时需要的可训练参数比当前最先进的UFGIR方法少123倍,并且平均减少了30%的浮点运算(FLOPs)。
- 通过引入残差空间下采样(RSDS)分支,促进了层间信息流动,缓解了网络内的梯度消失风险。RSDS分支的设计允许模型根据梯度调节权重,从而有效地作为门控或池化函数。
- 实验结果表明,ILA在参数和计算效率方面具有显著优势,同时在多个数据集上取得了有竞争力的准确率。
七. 不足点
- ILA++在某些数据集上的准确率略低于最好的FT FGIR模型(如CSD),但其在参数成本上具有显著优势。未来的工作可以考虑将自监督学习和知识蒸馏与ILA结合,以进一步提高性能。
- 论文中提到的三种ILA变体(ILA、ILA+、ILA++)在不同程度上引入了下采样和非下采样模块,未来可以进一步探索不同组合和配置对性能的影响。