公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2201.02052.pdf
计算机视觉研究院专栏
作者:Edison_G
Few-Shot目标检测 (FSOD) 是计算机视觉中一个快速发展的领域。
一、前言
Few-Shot目标检测 (FSOD) 是计算机视觉中一个快速发展的领域。它包括查找给定类集的所有出现,每个类只有几个带注释的示例。已经提出了许多方法来应对这一挑战,其中大多数是基于注意力机制的。然而,种类繁多的经典目标检测框架和训练策略使得方法之间的性能比较变得困难。
特别是,对于基于注意力的FSOD方法,比较不同注意力机制对性能的影响是很费力的。
今天分享的研究旨在弥补这一不足。为此,提出了一个灵活的框架,以允许实施文献中可用的大多数注意力技术。为了正确引入这样的框架,首先提供了对现有FSOD方法的详细回顾。然后在框架内重新实现一些不同的注意力机制,并与所有其他固定参数进行比较。
二、背景
FSOD领域正在迅速发展,大多数新论文都提出了一种新的注意力技术。但是,有很多设计选择可以考虑解决FSOD问题。
首先是检测框架(例如Faster R-CNN或YOLO)及其主干(例如ResNet-50或101),然后是不同的损失函数(例如L1、IoU、Focal Loss)来训练每个部分网络,最后是与这些方法相关的所有超参数(即从学习率到用于评估的类)。所有这些都使得FSOD方法之间的比较变得困难。
在今天分享中,注意力机制被认为是FSOD的核心,因为它结合了从输入图像中提取的一般特征和从支持示例中提取的条件特征。当然,需要注意的是,并不是所有关于FSOD的作品都是基于注意力的。实际上,存在一些使用度量学习来解决FSOD的论文。不是结合查询和支持特征,而是学习通用嵌入函数。然后从查询和支持嵌入的比较中获得检测。还有一些仅基于微调的方法。尽管这些方法非常简单,但通常表现不如基于注意力的方法。
三、Framework
Few-shot学习方法可以分为4大类:微调、元学习、基于注意力的学习和度量学习。这些并不是完全分开的,特别是微调是许多FSL方法的训练策略的一部分。情景任务训练也是FSL的一种普遍策略。Few-Shot Learning已经根据分类任务进行了广泛的研究。 然而,对于目标检测,科学文献较少。
今天旨在介绍为FSOD提出的一些工作并进行比较。它们分为三个不同的组:迁移学习、度量学习和基于注意力的学习。据我们所知,没有任何工作完全基于元学习来解决FSOD。
Fine-tuning
Low Shot Transfer Detector(LSTD)是FSOD的先驱工作。它建议首先在基础数据集上训练一个检测器(Faster R-CNN),然后在一个只包含一些新类示例的新集上对其进行微调。为了防止灾难性遗忘,作者引入了两个正则化损失,以便网络在微调期间为基类产生相似的输出。密切相关的参考文献[Frustratingly simple few-shot object detection]利用了相同的想法,没有任何额外的损失。相反,他们选择在基础训练后冻结所有网络权重,除了最后的分类和回归层......
Metric Learning
对于少样本分类,基于度量学习的方法可能是最普遍的。然而,对于检测,只有少数作品基于这种技术。RepMet是第一个,它包括在训练改进的Faster R-CNN检测器的同时学习类代表向量。密切相关的是,[Pnpdet: Efficient few-shot detection without forgetting via plug-and-play sub-networks]在CenterNet框架内学习原型向量和比例因子。这些向量在检测器的分类头中用作类原型......
Attention-based
为了解决基于度量学习的方法的缺点,一些工作提出了基于注意力的技术。这个想法是基于特征本身(自我关注)或其他实例的特征(外部关注)突出相关特征以进行检测。该领域的一项开创性工作是[Few-shot object detection via feature reweighting],它训练了一个重加权模块和一个YOLO检测器。重新加权模块通过支持集中的全局池化(GP)输出特定于类的特征向量。然后将它们与主干提取的查询特征进行通道相乘......
上表总结了这篇文献分析。该表旨在比较注意力机制,因为这是本文的重点。因此,注意力机制分为三个部分,这源于之前的评论:空间对齐、全局注意力和融合层。表中还包含了没有注意机制的方法,以概述可用于FSOD的方法。
四、AAF Framework for Attention in FSOD
基于注意力的FSOD方法的主要原理是从查询和支持图像中提取特征,并结合查询和支持特征创建多个查询特征图,每个查询特征图专门用于检测一个类别。然后这些地图由同一个检测头处理以进行实际预测。
Global Attention
全局注意模块,表示为Γ,结合了支持和查询的全局信息。它突出了特定于类的特征并软化了与任务无关的信息。该运算符定义如下:
Alignment Attention Fusion(AAF)模块由三个组件组成:空间对齐Λ、全局注意力Γ和融合层Ω。描述了每个模块的示例,这些示例来自文献中的FSOD方法。示例A在Meta faster rcnn: Towards accurate few-shot object detection with attentive feature alignment]中提供,示例B在[Few-shot object detection via feature reweighting]中提供,示例C在[Dynamic relevance learning for few-shot object detection]中提供。
这是针对1、5、10和30次shots完成的。这些结果安慰了在Pascal VOC上获得的结论:该框架足够灵活,可以实施各种FSOD技术,以最先进的技术实现具有竞争力的结果。与Pascal VOC一样,网络可以通过更多shots实现更好的检测。虽然对新类更有利,但与Pascal VOC不同,基类也从更多示例中受益匪浅。WSAAN在 Pascal VOC上的表现优于DANA,但在COCO上的表现略差。
© The Ending
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式