首页 > 其他分享 >Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label 论文阅读

Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label 论文阅读

时间:2024-09-16 15:54:11浏览次数:13  
标签:Erasing 分数 Weakly Localization 标签 损失 分类器 擦除 掩码

一、背景

        CAM的方法通常只定位了对象中最具判别性的部分(训练过程中缺乏详细的位置信息),后续一些先进的方法定位目标区域包括:利用多个特征映射;采用对抗性擦除;合并伪标签;设计替换架构;引入额外处理或者利用单独的网络或者伪标签生成器等

        这篇论文专注于不增加额外的处理或网络分支的情况下提高定位性能。即侧重于为训练引入新的和增强的损失项,包括改进的隐式对抗性擦除方法和伪标签生成方法。

        在本文中,我们介绍了一个弱监督对象定位(WSOL)框架,该框架由三个主要模块组成:特征提取器、分类器和定位器,如图3所示。然后,我们使用一种基于对抗性擦除、伪标签生成和前景预测的新型损失函数来训练网络。

        本文的贡献:

1)提出一个弱监督对象定位框架其使用一种新的损失函数进行训练并达到最先进性能

2)所提的新损失是通过有效地使用对抗性擦除的特征映射、对抗性擦除的前景掩码、伪标签、前景掩码和图像级类标签来计算的

二、相关工作

1.前人在弱监督目标定位的工作总结

三、本文所建议的方法

目的:

训练一个神经网络,该神经网络仅使用图像级标签可以同时预测物体的类别和位置

训练流程图:

为了通过训练所提出的网络来实现高精度,我们提出了一种基于对抗性擦除、伪标签生成和前景预测的新型损失函数(如下图Figure5所示)

推理流程图:

该网络由三个主要模块组成,特征提取器Ef、分类器Ec和定位器El,如下图所示。

Loss

损失函数由七个损失项组成:

1)Classification loss Lcls     

  这是一种典型的用于图像分类任务的交叉熵损失。将预测的分类概率向量p与对应的图像级分类标签y进行比较,分类损失Lcls计算如下:

2)Foreground classification loss Lcls- fg

它是通过使用背景抑制的分数图来引导定位器和分类器。为了计算背景抑制的分数图,使用分类器的分数图Fc和预测的前景掩码Ffg。由于Ffg的空间维度高于Fc,首先使用平均池化对前景掩膜Ffg进行2倍的下采样。然后,通过将Fc的每个通道的逐元素乘法与下采样后的前景掩码Ffg串联起来,得到背景抑制分数图(Fc∈R14×14×C)。然后通过全局平均池化层和类似于Eq.(1)的softmax函数对其进行处理,得到前景区域的概率向量(p∈RC)。

3)Adversarially erased classification loss Lae 

        Lae对应于减少分类对高度判别区域(分数图Fc上的高分区域)的依赖并增加对象的鉴别性较弱区域的分类分数。为了解决学习的网络不能定位整个对象,训练网络不仅依赖高度判别的区域,还依赖其他区域来更好地定位。它是通过在特征映射上删除相应的区域来显式地断开对判别部分的依赖来实现的。

        基于预测的前景掩码Ffg,生成一个二进制掩码Fe1∈Z28×28。如果其对应的前景概率超过阈值,则二进制掩码将其元素分配为零,否则为正。具体生成掩码Fe1如下:

         随后,掩码Fe1被下采样,并与分数映射Fc相乘,类似于Eq.(2)。这个二进制掩码用零替换具有高前景概率的元素,同时保留其他元素在按元素相乘时的原始分数。阈值t1决定对抗性擦除的程度,其中较低的阈值对应于更明显的擦除。乘法的输出随后由全局平均池化和softmax函数处理。最后,使用交叉熵损失函数计算对抗性擦除的分类损失Lae。

4)Adversarially erased foreground classification loss Lae-fg.   

        Lae-fg与Lae相似,它是为了减轻对高度区分区域的依赖,并对整个对象进行定位。但与Lae不同的是,它像Lcls- fg一样既引导分类器又引导定位器。Lae利用Fe1平等传播除高度判别部分外的所有元素,而该loss Lcls- fg使用预测的前景图来控制分数图Fc的像素级信息流。因此,它会影响定位器和分类器的训练。

5)Pseudo label loss Lpseudo.

        伪标签生成过程如下图。训练定位器将伪背景中的激活值抑制为0,并将伪前景中的激活值增加为1。不确定区域用于训练。

        Lpseudo是通过使用像素级伪标签显式地引导定位器。假设伪标签是合理的,它可以用来增加或减少激活值。对于伪标签认为对象存在的元素,损失的目的是增加相应的激活值。损失显然是为了减少伪标签认为对象不在的元素的激活值。

         然后,通过测量伪标签映射Fpsd与预测前景掩码Ffg之间的距离来计算伪标签损失Lpseudo。具体来说,我们分别计算对象存在区域和不存在区域的距离并将它们相加。

6)Background activation suppression loss Lbas

        引导网络预测前景分类分数较高,背景分类分数较低。为了实现这一点,它比较了整个图像和背景区域的平均分 。给定来自分类器的分数映射Fc,通过提取与基本真实类对应的通道来获得基本真实类的分数映射。然后对其进行全局平均池化处理,得到整个图像的平均分Sall。

        为了从背景区域获得平均分数Sbg,首先将特征提取器得到的特征映射Ff与前景掩码Ffg相乘。对每个通道进行逐个元素的乘法处理。这个过程在图5中用E3(·)表示。然后由分类器处理乘法的输出,以从背景区域获得分数图。然后,与Eq.(9)类似,提取与ground-truth类对应的映射,并通过全局平均池化进行处理。

 

7)Area constraint loss Lac

        为了限制前景的区域。考虑到Lbas,增加Ffg值明显降低sbg和Lbas。因此,为了避免Ffg中所有元素的值都很大,我们使用了面积约束损失Lac。

Total loss 

四、实验 

        实验用到的数据集包括:ILSVRC、CUB-200-2011、PASCAL VOC 2012

        评价指标:Top-1 and Top-5 to evaluate classification and localization;GT-known

        backbone:MobileNetV1和InceptionV3

 SOTA效果对比图如下图

五、总结

        读完这篇论文,作者最大的改进点就是把前人在弱监督目标定位提出的方法(eg:伪标签,对抗性擦除)杂糅到一个特征提取器,一个定位器和一个分类器的架构中,提出了几个新颖的损失项包括:一个使用对抗性擦除的特征映射计算的损失项,另一个是使用来自对抗性擦除的前景区域的特征计算的损失项,一个基于像素级伪标签的损失项。

        对于下图伪标签的生成过程中,从(b)到(c)的过程中,最后伪标签丢失了很多目标的轮廓区域,对于伪标签的生成仅仅依赖于(b),此处可能是一个潜在的改进点

       

 

标签:Erasing,分数,Weakly,Localization,标签,损失,分类器,擦除,掩码
From: https://blog.csdn.net/qq_52191127/article/details/142301976

相关文章

  • 【弱监督时间动作定位】Weakly-Supervised Temporal Action Localization with Multi-
    Weakly-SupervisedTemporalActionLocalizationwithMulti-ModalPlateauTransformers论文阅读Abstract1.Introduction2.RelatedWork3.TheProposedMethod3.1.PreliminaryandMotivation3.2.BaseModel3.3.Multi-ModalPlateauTransformers3.3.1Multi-Mo......
  • A Brief Introduction to Weakly Supervised Learning 论文总结
    目录论文详情摘要前言IncompleteSupervision(不完全监督)ActiveLearning(主动学习)Semi-SupervisedLearning(半监督学习)ClusterAssumption(集群假设)ManifoldAssumption(流形假设)InexactSupervision(不精确监督)InaccurateSupervision(不准确监督)总结论文详情论文标......
  • Robot_localization,将NED imu转为相对、绝对航向的 “ENU“ 数据
    Robot_localization,将NEDimu转为相对、绝对航向的"ENU"数据文章约定:谈及NED、ENU、NWU坐标系都是指的xyz对应顺序ROS中,xyz轴对应红、绿、蓝如有错误,请包容,以及麻烦在评论区勘误书山有路勤为径,学海无涯苦作舟1.问题来源使用robot_localization进行:imu融合gps......
  • Boosting Weakly-Supervised Temporal Action Localization with Text Information
    标题:利用文本信息增强弱监督时间动作定位源文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Boosting_Weakly-Supervised_Temporal_Action_Localization_With_Text_Information_CVPR_2023_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2023/papers/......
  • 显著性目标检测(弱监督):Mutual Information Regularization for Weakly-supervised
    文章地址:MutualInformationRegularizationforWeakly-SupervisedRGB-DSalientObjectDetection|IEEEJournals&Magazine|IEEEXplore摘要:1.引入一个信息上界和一个互信息最小化正则项,鼓励每个模态的解纠缠表示用于SOD;2.运用非对称的特征提取器;3.引入多模态的......
  • 论文笔记 SimpleNet A Simple Network for Image Anomaly Detection and Localization
    背景对于工业场景上的异常检测和定位任务,由于零件的异常情况具有多样性和随机性,所以很难用有监督的方式来解决;目前用的最多的是用无监督的方式,在训练过程中只使用正常样本进行训练,目前无监督解决异常检测任务的三个趋势是基于重建的方法,基于合成的方法以及基于嵌入的......
  • 使用Unity Localization插件进行项目本地化实战详解
    在使用Unity开发游戏的过程中,本地化是必不可少的。网络上也有很多的本地化工具,本次我介绍的是Unity官方提供的Localization插件,大家可以在PackageManager进行安装 一、语言配置,本地化表创建在ProjectSetting中找到Localization,(需要先创建这个LocalizationSetting文件)点击L......
  • Cross-modal Moment Localization in Videos
    Cross-modalMomentLocalizationinVideos摘要:在本文中,我们探讨了时间时刻定位问题,即在未经剪辑的视频中定位自然语言查询所描述的视频时刻。这是一项通用但极具挑战性的视觉语言任务,因为它不仅需要对时刻进行定位,还需要对文本时间信息(如"第一次"和"离开")进行多模态理解,以帮......
  • CF938F Erasing Substrings 题解
    ErasingSubstrings一个神奇的想法是设\(f_{i,j}\)表示在位置\([1,i]\)中,我们删去了长度为\(2^k(k\inj)\)的一些串,所能得到的最小字典序。使用二分加哈希可以做到\(O(n^2\log^2n)\),无法承受。发现对于状态\(f_{i,j}\),它已经确定了\(i-j\)位的串,因为所有\(\inj\)......
  • TALL: Temporal Activity Localization via Language Query
    1introduction确定任务:TALL(TemporalActivityLocalizationviaLanguage):基于文本的时间活动定位,具体来说就是给定给定一个未修剪的视频和一个自然语言查询,目标是确定视频中所描述活动的开始和结束时间。将视觉和文本特征嵌入到公共空间以获得更好效果,但是这样对齐任务(alignme......