一、背景
CAM的方法通常只定位了对象中最具判别性的部分(训练过程中缺乏详细的位置信息),后续一些先进的方法定位目标区域包括:利用多个特征映射;采用对抗性擦除;合并伪标签;设计替换架构;引入额外处理或者利用单独的网络或者伪标签生成器等
这篇论文专注于不增加额外的处理或网络分支的情况下提高定位性能。即侧重于为训练引入新的和增强的损失项,包括改进的隐式对抗性擦除方法和伪标签生成方法。
在本文中,我们介绍了一个弱监督对象定位(WSOL)框架,该框架由三个主要模块组成:特征提取器、分类器和定位器,如图3所示。然后,我们使用一种基于对抗性擦除、伪标签生成和前景预测的新型损失函数来训练网络。
本文的贡献:
1)提出一个弱监督对象定位框架其使用一种新的损失函数进行训练并达到最先进性能
2)所提的新损失是通过有效地使用对抗性擦除的特征映射、对抗性擦除的前景掩码、伪标签、前景掩码和图像级类标签来计算的
二、相关工作
1.前人在弱监督目标定位的工作总结
三、本文所建议的方法
目的:
训练一个神经网络,该神经网络仅使用图像级标签可以同时预测物体的类别和位置
训练流程图:
为了通过训练所提出的网络来实现高精度,我们提出了一种基于对抗性擦除、伪标签生成和前景预测的新型损失函数(如下图Figure5所示)
推理流程图:
该网络由三个主要模块组成,特征提取器Ef、分类器Ec和定位器El,如下图所示。
Loss
损失函数由七个损失项组成:
1)Classification loss Lcls
这是一种典型的用于图像分类任务的交叉熵损失。将预测的分类概率向量p与对应的图像级分类标签y进行比较,分类损失Lcls计算如下:
2)Foreground classification loss Lcls- fg
它是通过使用背景抑制的分数图来引导定位器和分类器。为了计算背景抑制的分数图,使用分类器的分数图Fc和预测的前景掩码Ffg。由于Ffg的空间维度高于Fc,首先使用平均池化对前景掩膜Ffg进行2倍的下采样。然后,通过将Fc的每个通道的逐元素乘法与下采样后的前景掩码Ffg串联起来,得到背景抑制分数图(Fc∈R14×14×C)。然后通过全局平均池化层和类似于Eq.(1)的softmax函数对其进行处理,得到前景区域的概率向量(p∈RC)。
3)Adversarially erased classification loss Lae
Lae对应于减少分类对高度判别区域(分数图Fc上的高分区域)的依赖并增加对象的鉴别性较弱区域的分类分数。为了解决学习的网络不能定位整个对象,训练网络不仅依赖高度判别的区域,还依赖其他区域来更好地定位。它是通过在特征映射上删除相应的区域来显式地断开对判别部分的依赖来实现的。
基于预测的前景掩码Ffg,生成一个二进制掩码Fe1∈Z28×28。如果其对应的前景概率超过阈值,则二进制掩码将其元素分配为零,否则为正。具体生成掩码Fe1如下:
随后,掩码Fe1被下采样,并与分数映射Fc相乘,类似于Eq.(2)。这个二进制掩码用零替换具有高前景概率的元素,同时保留其他元素在按元素相乘时的原始分数。阈值t1决定对抗性擦除的程度,其中较低的阈值对应于更明显的擦除。乘法的输出随后由全局平均池化和softmax函数处理。最后,使用交叉熵损失函数计算对抗性擦除的分类损失Lae。
4)Adversarially erased foreground classification loss Lae-fg.
Lae-fg与Lae相似,它是为了减轻对高度区分区域的依赖,并对整个对象进行定位。但与Lae不同的是,它像Lcls- fg一样既引导分类器又引导定位器。Lae利用Fe1平等传播除高度判别部分外的所有元素,而该loss Lcls- fg使用预测的前景图来控制分数图Fc的像素级信息流。因此,它会影响定位器和分类器的训练。
5)Pseudo label loss Lpseudo.
伪标签生成过程如下图。训练定位器将伪背景中的激活值抑制为0,并将伪前景中的激活值增加为1。不确定区域用于训练。
Lpseudo是通过使用像素级伪标签显式地引导定位器。假设伪标签是合理的,它可以用来增加或减少激活值。对于伪标签认为对象存在的元素,损失的目的是增加相应的激活值。损失显然是为了减少伪标签认为对象不在的元素的激活值。
然后,通过测量伪标签映射Fpsd与预测前景掩码Ffg之间的距离来计算伪标签损失Lpseudo。具体来说,我们分别计算对象存在区域和不存在区域的距离并将它们相加。
6)Background activation suppression loss Lbas
引导网络预测前景分类分数较高,背景分类分数较低。为了实现这一点,它比较了整个图像和背景区域的平均分 。给定来自分类器的分数映射Fc,通过提取与基本真实类对应的通道来获得基本真实类的分数映射。然后对其进行全局平均池化处理,得到整个图像的平均分Sall。
为了从背景区域获得平均分数Sbg,首先将特征提取器得到的特征映射Ff与前景掩码Ffg相乘。对每个通道进行逐个元素的乘法处理。这个过程在图5中用E3(·)表示。然后由分类器处理乘法的输出,以从背景区域获得分数图。然后,与Eq.(9)类似,提取与ground-truth类对应的映射,并通过全局平均池化进行处理。
7)Area constraint loss Lac
为了限制前景的区域。考虑到Lbas,增加Ffg值明显降低sbg和Lbas。因此,为了避免Ffg中所有元素的值都很大,我们使用了面积约束损失Lac。
Total loss
四、实验
实验用到的数据集包括:ILSVRC、CUB-200-2011、PASCAL VOC 2012
评价指标:Top-1 and Top-5 to evaluate classification and localization;GT-known
backbone:MobileNetV1和InceptionV3
SOTA效果对比图如下图
五、总结
读完这篇论文,作者最大的改进点就是把前人在弱监督目标定位提出的方法(eg:伪标签,对抗性擦除)杂糅到一个特征提取器,一个定位器和一个分类器的架构中,提出了几个新颖的损失项包括:一个使用对抗性擦除的特征映射计算的损失项,另一个是使用来自对抗性擦除的前景区域的特征计算的损失项,一个基于像素级伪标签的损失项。
对于下图伪标签的生成过程中,从(b)到(c)的过程中,最后伪标签丢失了很多目标的轮廓区域,对于伪标签的生成仅仅依赖于(b),此处可能是一个潜在的改进点
标签:Erasing,分数,Weakly,Localization,标签,损失,分类器,擦除,掩码 From: https://blog.csdn.net/qq_52191127/article/details/142301976