首页 > 其他分享 >Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection阅读笔记

Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection阅读笔记

时间:2022-11-20 12:35:00浏览次数:51  
标签:样本 Shot 新类 Object 语义 Detection 嵌入 FSD 推理

原文链接:https://arxiv.org/pdf/2103.01903.pdf

摘要:由于真实世界数据服从长尾分布,导致小样本目标检测的性能在很大程度上受数据缺乏的新类影响。但是新类和基类之间的语义关系都是恒定不变的。本文探究利用新类和基类之间的语义关系和视觉信息,并将显式关系的推理引入到新目标检测的学习中。通过从很大的文本语料库中学习到的语义嵌入来表示每个类的概念。训练后的检测器将目标的图像表示投影到嵌入空间。提出使用启发式的关系图来解决原始嵌入的问题,并提出用动态关系图来增强嵌入。小样本检测器称为SRR-FSD,对新目标的样本变化是鲁棒性和稳定的。实验表明,SRR-FSD在较低的显性和隐式样本中明显有更好的表现。从预先训练好的分类数据集中删除隐式样本的benchmark protocol可以为未来的研究提供更现实的设置。

 

创新点:

1)研究了小样本目标检测任务中的语义关系推理。

2)提出的语义关系推理小样本检测器SRR-FSD。

3)提出更现实的FSOD设置,即从预训练模型的分类数据集中删除新类的隐式样本。与以前的方法相比,如果使用新的预训练模型,SRR-FSD可以保持更稳定的性能。

学习由数据驱动的动态关系图来建模类之间的关系推理,而不是预先定义基于启发式的知识图。

 

显式样本:来自新类的可用标记样本。

隐式样本:预训练模型从新类中提前获取的大量目标样本

对于隐式样本,常见的训练目标检测器的做法是:使用在大规模图像分类数据集上预训练的模型来初始化骨干网络。分类数据集包含许多与新类重叠的目标类的隐式样本。

SRR-FSD:Semantic Relation Reasoning Few-Shot Detector,语义关系推理小样本检测器,以端到端的方式从视觉信息和语义关系中学习新目标。

直接将语言模型中的单词嵌入应用到小样本检测器中会导致一些实际问题,比如视觉和语言之间的域差距、在FSOD数据集中的类的指示图的启发式定义等。

使用单词嵌入来建立一个语义空间。在类的单词嵌入的指导下,训练后的检测器将目标从视觉空间投影到语义空间,并将其图像表示与相应的类嵌入对齐。

为了解决上述问题,学习由图像数据驱动的动态关系图,而不是基于启发式的预定义关系图。然后利用学习到的图进行关系推理,并增加原始嵌入以减少域间距。

 

Related Work部分 分别介绍了目标检测、小样本目标检测、视觉任务中的语义关系。

目标检测:Anchor-based目标检测器都依赖于预定义的锚框来对目标的大小和纵横比进行初始估计。Anchor-free检测器都是在完全监督下训练的,每个类都有大量的注释目标实例。

小样本目标检测:现有的小样本目标检测方法都完全依赖于视觉信息,并且受到样本变化的影响。

语义推理:视觉任务中的语义推理语义单词嵌入已用于zero-shot学习任务中,以学习从视觉特征空间到语义空间的映射,如零样本识别和零样本目标检测。在零样本或小样本识别中,单词嵌入通常与知识图相结合,通过图卷积运算进行关系推理。知识图通常是基于常识知识规则的数据库中的启发法定义的。在FSOD任务中很少探讨单词嵌入和知识图的使用。Any-Shot 探测器(ASD)是唯一使用单词嵌入完成FSOD任务的工作。但是ASD更多地关注零样本检测,它不考虑类之间的显式关系推理,因为每个单词嵌入是独立处理的。

 

小样本检测器中的语义推理

首先简要介绍了小样本目标检测的准备工作,包括问题设置和一般训练方法。

然后基于Faster R-CNN,通过将语义关系与视觉信息集成,并允许其在语义空间中执行关系推理,构建了SRR-FSD。

讨论了简单使用原始单词嵌入和预定义知识图的问题。最后介绍了两个阶段的训练过程。

 

语义空间投影

在 Faster R-CNN的第二阶段,为每个区域候选框提取一个特征向量,并将其转发到分类子网和回归子网。在分类子网中,将特征向量转换为d维向量v通过全连接层。然后v乘以可学习的权重矩阵W以输出概率分布。为了从视觉信息和语义关系中学习对象,首先构建一个语义空间,并将视觉特征v投射到该语义空间中。具体地说,使用一组d维单词嵌入来表示语义空间对应于N个目标类(包括背景类)。然后训练检测器学习分类子网中的线性投影,以便v在投影后与其类的单词嵌入对齐。在训练过程中,W是固定的,可学习变量是P投影矩阵。一个好处是对新目标的泛化不涉及P中的新参数。可以简单地通过嵌入新类来扩展语义空间。仍然保留b偏差向量来模拟检测数据集中的类别不平衡。

视觉和语言之间的域差异

小样本检测器可以依赖于图像和嵌入来学习新目标的概念。当图像少时,嵌入的知识可以引导检测器。当图像多时,由于语言和图像的域差异,嵌入的知识可能会产生误导。因此,需要增强语义嵌入来减少视觉和语言之间的域差异。本文利用类之间的显式关系更有效地增强嵌入,从而提出了动态关系图。

 

关系推理

语义空间投影学习将视觉空间中的概念与语义空间对齐。但是它独立地处理每个类,没有在类之间进行知识传播。因此进一步引入知识图来对它们之间的关系进行建模。知识图G是一个N×N邻接矩阵,表示每个相邻类对的连接强度。G通过图卷积运算参与分类。知识图的定义:知识图G是基于启发式算法预定义的。它通常是从一个常识知识规则的数据库中构造出来的,通过规则路径对一个子图进行采样,使得语义相关的类具有强连接。提出学习由数据驱动的动态关系图来建模类之间的关系推理,而不是预先定义基于启发式的知识图。数据驱动图还负责缩小视觉和语言之间的领域差距,因为它是通过图像输入进行训练的。使用自注意力架构实现动态图。

 

 

原始单词嵌入We由三个线性层f,g,h转换而成,同时由f,g输出计算出一个自注意力矩阵。自注意力矩阵乘以h的输出,然后再乘以另一个线性层l。剩余连接将 l 的输出与原始We相加。学习动态图可以很容易地适应新的类别。图形不是固定的,而是从单词嵌入动态生成的。不需要重新定义一个新的图,也不需要从头重新训练检测器。可以简单地插入新类的相应嵌入并微调检测器。

 对于分类子网,我们微调了关系推理模块和投影矩阵P中的参数。对于定位子网,不依赖于单词嵌入,而是与分类子网共享特征。新目标的定位学习会通过共享特征干扰分类子网,导致许多误报。分离两个子网之间共享的完全连接层可以有效地使每个子网为其任务学习更好的特性。换句话说,分类子网和本地化子网具有单独的全连接层,并且它们是独立微调的。

 

实验

SRR-FSD是基于Faster R-CNN实现的,它以ResNet-101和特征金字塔网络为主干,使用MMDetection框架。以50%的概率在基集和新集之间随机选择,然后从所选集随机选择图像,从而对输入图像进行采样。在VOC和COCO数据集上评估SRR-FSD。

1)在VOC数据集划分的三个新类上进行小样本目标检测,SRR-FSD实现了更稳定的性能,在大多数的实验中达到了 SOTA结果。

2)在VOC数据集的新类1上进行小样本目标检测方法的对比,结果表明在泛化到新目标之后,基本目标的性能不会下降。SRR-FSD的基类AP和新类AP都优于以前基于与ResNet-101相同的Faster RCNN的方法。基类AP甚至有点增加,可能是由于从有限的新目标到基本目标的语义关系推理。

3)在COCO数据集上进行FSOD性能比较,结果表明SRR-FSD始终优于先前的方法。

4) 对于跨域FSOD设置,在COCO和VOC共20个新类的数据集上进行跨域性能比较,结果表明SRR-FSD在跨域情况下具有更好的泛化能力。

预训练模型可以从新类中提前获取大量目标样本,即隐式样本,并在进一步训练用于检测任务之前将其知识编码到参数中。即使针对识别任务对预训练模型进行了优化,提取的特征仍然对新目标的检测有很大影响。然而,在现实世界中,一些稀有类可能具有非常有限或有价值的数据,因此在其上预先训练分类网络是不现实的。提出为FSOD设置一个更现实的设置,它扩展了现有设置。系统地、分层地从C0中删除新类。

5)在新的现实设置下重新评估了以前的方法,比较了VOC数据集的性能。SRR-FSD在大多数情况下,尤其是在小样本场景下,表现出优于其他方法的性能。更重要的是,SRR-FSD受隐式样本丢失的影响较小。

6)为了验证SRR-FSD各部分的有效性进行消融实验。将语义空间投影、关系推理和解耦微调应用于Baseline,比较mAP。语义空间投影指导样本稳定学习,语义空间投影使学习对样本数量的变化更加稳定。在较少样本时,没有太多的视觉信息可依赖,因此语言信息可以引导探测器找到合适的解决方案。但是当更多的图像可用时,视觉信息变得更精确,然后语言信息开始产生误导。因此提出了改进单词嵌入以减少域间距。

增加原始单词嵌入的三种不同方法,包括ASD的可训练转换、启发式知识图和本文提出的关系推理模块的动态图。结果表明在不同的样本数条件下,应用关系推理可以提高新目标的检测精度。动态关系图更好,因为它不仅可以执行显式关系推理,还可以增加原始嵌入,以减少视觉和语言之间的领域差距。

解耦微调减少了误报。使用检测器诊断工具分析SRR-FSD产生的误报,包括和不包括解耦微调。图6显示了解耦微调在减少新类中的误报方面的作用。表明大多数误报是由于误判为类似的类别。使用DF,分类子网可以独立于定位子网进行训练,以学习更好的分类特征。

 

 

结论:本文提出了用于小样本目标检测的语义关系推理。关键是将基类和新类之间的语义关系与可用的视觉信息显式集成,这有助于更好地学习新概念,尤其是在新类数据非常有限的情况下。将语义关系推理应用于标准的两阶段Faster R-CNN,并证明了针对样本数目变化的鲁棒小样本性能。与以前的方法相比,本文的方法在小样本检测设置上实现了SOTA,并且在一个更现实的设置中消除了在预训练主干模型中编码的新概念。方法的关键部分,即语义空间投影和关系推理,可以直接应用于其他小样本检测器的分类子网。

 

标签:样本,Shot,新类,Object,语义,Detection,嵌入,FSD,推理
From: https://www.cnblogs.com/xxynl/p/16906797.html

相关文章