首页 > 其他分享 >通过特征幅度正则化,增强少数据情况下的细粒度识别精度

通过特征幅度正则化,增强少数据情况下的细粒度识别精度

时间:2024-09-10 12:25:49浏览次数:20  
标签:细粒度 训练 特征 幅度 FMR 正则 精度

原论文《Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization》

一.研究背景

1. 研究问题:这篇文章要解决的问题是细粒度图像识别(FGVR)在数据有限的情况下如何进行训练。由于类别之间的细微差异可能难以区分,尤其是在存在干扰性噪声模式的情况下,训练一个细粒度图像识别模型具有挑战性。

2. 研究难点:该问题的研究难点包括:预训练神经网络通常针对不同的任务进行训练,因此提取的特征可能与FGVR任务不相关;在数据有限的情况下,这些不相关的特征可能会主导训练过程,掩盖更有用的、具有泛化能力的判别特征。

3. 相关工作:该问题的研究相关工作有:基于局部定位-分类子网络的方法(如R-CNN、FCN、Faster R-CNN等)和基于端到端特征编码的方法(如Bilinear Convolutional Neural Networks、高阶特征交互、新型损失函数等)。此外,还有一些基于损失函数的技术,如MC-Loss、L2-SP、DELTA、Batch Spectral Shrinkage、Co-Tuning、MaxEnt等。

二. 研究方法

这篇论文提出了一种名为特征幅度正则化(FMR)的方法,用于解决细粒度图像识别中数据少的问题。具体来说,

    1.特征幅度正则化(FMR):首先,使用Softmax操作对从网络主干提取的特征进行归一化,得到一个伪概率分布:

计算这个伪概率分布的负熵,形成一个正则化损失项:

其中,λ 是一个权重系数。通过最小化最终结果值,鼓励伪分布 p 尽可能接近均匀分布。

2.动态系数调整:为了有效应用FMR,选择合适的 λ 值非常重要。本文引入了一个动态加权机制,根据训练过程中的特征幅度分布动态调整 λ 的值:

其中,β 是一个常数,是最近特征向量的熵的运行平均值,是给定特征向量大小的最大可能熵:

初始熵 在训练开始前通过以下公式获得:

通过实证分析,本文发现这种动态加权方案相比静态加权方案有显著的性能提升。

三. 实验设计

本文在四个流行的细粒度视觉识别数据集上进行了广泛的实验评估:CUB200、Stanford Cars、FGVC-Aircraft和iNaturalist(仅包含Order Passeriformes子集)。实验设计包括以下几个方面:

  1. 数据集:由于计算资源有限,使用了各个数据集的15%、30%、50%和100%的数据子集。
  2. 实现细节:实验使用PyTorch进行,采用在ImageNet上预训练的ResNet-50作为主干网络。每个实验配置重复三次,分别使用和不使用FMR损失。动态损失权重参数 ββ 设为50。
  3. 训练过程:训练图像被调整为256×256像素,并随机裁剪成224×224的像素块。这些裁剪后的图像经过随机水平翻转和RandAugment增强。使用SGD优化器,批量大小为24,学习率为0.001,动量为0.9,权重衰减为0.0001。
  4. 测试过程:测试时,取5个图像块及其做水平镜像处理,对所有10个图像块获得的的预测结果取平均值。

三. 结果与分析

1. 标准FGVR基准测试:实验结果表明,所提出的方法在各种数据集上的性能均优于现有方法。例如,在CUB200数据集的15%训练集大小下,FMR的准确率为61.30%,比次优方法MaxEnt高出近7%。这种优越性能在所有训练集大小下均保持一致。

2. 范式的消融实验:

  • 预训练范式的影响:FMR在自监督(无监督)方法和随机初始化的模型上均表现出类似的改进,表明特征幅度偏差可能存在于自监督学习中。当从头开始训练的模型时,FMR的贡献最小。
  • 动态加权与静态加权的比较:动态加权方案在各种情况下均优于静态加权方案,性能差距在某些情况下接近10%。

3. 特征幅度正则化的分析

  • 鼓励学习泛化特征:通过定量评估训练集和测试集中前k个加权特征的百分比,发现FMR方法选择的特征更具泛化能力。

    • 特征贡献的可视化:通过热图可视化不同方法学习的前k个特征对应的图像区域,发现FMR方法更关注对象区域,而微调方法偶尔会关注对象外的区域。

      (FMR与微调的一些示例可视化。FMR结果在列(c)中,而微调结果在列(B)中。在许多情况下,微调会集中在一些背景的细节上。)

  • 四. 总体结论

  • 本文提出了一种名为特征幅度正则化(FMR)的新方法,用于改善少数据场景下的细粒度图像识别。FMR通过均衡特征幅度,解决了预训练模型中存在的特征幅度偏差问题。该方法根据特征幅度分布动态调整正则化强度,从而获得更平衡的特征表示并提高模型性能。实验结果表明,FMR在各种数据集上的性能均优于传统的微调方法,展示了其在具有挑战性的数据有限环境中的潜力。

  • 五. 创新点

  • 提出了一种名为特征幅度正则化(FMR)的新方法,用于在低数据场景下提高细粒度图像识别的性能。
  • FMR通过最大化归一化特征分布的均匀性来确保特征幅度的均匀分布,从而减少预训练模型中的特征幅度偏差。
  • 开发了一种动态加权机制,根据学习过程中的特征幅度分布差异动态调整正则化强度。
  • 实验结果表明,FMR在各种细粒度视觉识别数据集上均表现出显著的性能提升,特别是在数据有限的情况下。
  • FMR能够有效识别更具泛化能力的特征,并通过可视化技术展示了其学习到的特征对图像区域的贡献。
  • 六. 不足点

  • 论文中提到的动态加权方案虽然有效,但作者指出其在不同阶段的优化可能需要不同程度的正则化。未来的研究可以进一步探索如何更精细地调整正则化强度。
  • 由于计算资源有限,作者在实验中使用了iNaturalist数据集的子集。未来的研究可以在更大规模的数据集上进行验证,以进一步评估FMR的适用性和鲁棒性。

标签:细粒度,训练,特征,幅度,FMR,正则,精度
From: https://blog.csdn.net/boboly186/article/details/142088247

相关文章

  • redis 正则匹配符合条件的key 进行删除
    //根据名字的key,如果key数量超过100,就进行一次删除publicintclearRedis(@PathVariable("prefix")Stringprefix)throwsIOException{ScanOptionsoptions=ScanOptions.scanOptions().match(prefix+"*").count(1000).build();Cursorcursor=r......
  • 四剑客_正则
    1四剑客1.1概述1.2find命令基本用法1.2.1找出/etc/目录下面以.conf结尾的文件⭐⭐⭐⭐⭐[root@Kylin-V10-sp3~/test]#find/etc/-typef-name*.conf|head-5/etc/resolv.conf/etc/dnf/protected.d/systemd.conf/etc/dnf/protected.d/sudo.conf/etc/dnf/protect......
  • 前端解决Long类型精度丢失的问题
    问题数据库数据:前端得到的数据:出现了Long类型的数据出现精度丢失问题!原因JS中Long最大值:9007199254740992JAVA中Long最大值:9223372036854775807雪花算法id外加数据范围的不同导致地前后端不匹配解决方法把Long类型转为String再传给前端;这里用的方法是通过Jackson......
  • 一种基于YOLOv8的高精度PCB缺陷检测算法(原创自研)
      ......
  • 深入掌握Go语言中的正则表达式与字符串处理
    Go语言中的正则表达式与模式匹配在编程中,字符串处理是常见的需求之一,而正则表达式则是一个强大的工具,能够帮助我们实现复杂的字符串匹配、提取和替换功能。Go语言内置了对正则表达式的支持,通过regexp包,我们可以轻松实现模式匹配的各种操作。本文将详细介绍正则表达式在Go语......
  • 单身狗进化(高精度篇)
    算法与数据结构实验题1.10单身狗进化★实验任务这一天晚上,弯通又做梦了,并且梦到了一个帅气的男孩纸!这个男孩给了弯通一个数字n。男孩离开前告诉弯通,n!(n的阶乘)的位数就是距离弯通脱单的天数。矜(ji)持(ke)的弯通想知道自己还有多久能脱单,快写个程序帮助他!★数据输入输入第一......
  • PCB线路板高精度印刷应用
    在当代电子设备的构造中,印刷电路板(PCB)扮演着至关重要的角色,作为承载并集成各类电子元器件的信息平台。PCB板在电子领域内享有广泛的应用范围,其质量优劣直接关联到最终产品的性能表现。随着电子科技的不断进步与电子制造业的蓬勃发展,贴片元件的尺寸日趋微型化,安装密度显著提升,这......
  • 【PL/SQL】PL/SQL中的正则表达式
      在Oracle数据库中,同样是有正则表达式的匹配支持的,主要的函数有REGEXP_LIKE ——与like的直接模糊匹配类似;REGEXP_INSTR ——与INSTR的功能类似;REGEXP_SUBSTR ——与SUBSTR的功能相似;REGEXP_REPLACE ——与REPLACE的功能相似;REGEXP_COUNT ——与count的......