论文阅读4——RegionCLIP:基于区域的语言图像预训练

论文原文地址：CVPR 2022 Open Access Repository

开源代码：https://github.com/microsoft/RegionCLIP

论文翻译

摘要：

使用图像-文本对的对比语言-图像预训练(CLIP)在zero-shot和迁移学习设置下的图像分类上都取得了令人印象深刻的结果。然而，我们表明，由于主要的领域转移，直接应用这些模型来识别图像区域进行对象检测会导致不满意的性能:CLIP被训练为将图像作为一个整体与文本描述相匹配，而没有捕获图像区域和文本范围之间的细粒度对齐。为了缓解这一问题，我们提出了一种名为RegionCLIP的新方法，该方法大大扩展了CLIP来学习区域级视觉表示，从而实现图像区域和文本概念之间的细粒度对齐。我们的方法利用CLIP模型将图像区域与模板标题匹配，然后预训练我们的模型以在特征空间中对齐这些区域-文本对。当将我们的预训练模型转移到开放词汇表对象检测任务时，我们的方法在COCO和LVIS数据集上对新类别的性能分别优于现有的3.8 AP50和2.2 AP。此外，学习到的区域表示支持目标检测的零射击推理，在COCO和LVIS数据集上都显示出有希望的结果。我们的代码可在https://github.com/microsoft/RegionCLIP上获得。

1 介绍

最近在视觉语言表征学习方面的进展已经创造了一些出色的模型，如CLIP[37]、ALIGN[26]和Florence[59]。这样的模型通过将图像与其标题匹配，使用数亿对图像-文本对进行训练，在没有手动标签的情况下实现了识别大量概念的令人印象深刻的结果，并且能够转移到许多视觉识别任务中。随着他们在图像分类上的成功，一个自然的问题是这些模型是否可以用于图像区域的推理，例如，用于目标检测任务。

为了回答这个问题，我们使用预训练的CLIP模型构建了一个简单的R-CNN风格[16]的目标检测器，类似于在ImageNet上使用预训练的卷积网络。该检测器从输入图像中裁剪候选对象区域，并通过将裁剪区域的视觉特征与对象类别的文本嵌入相匹配，应用CLIP模型进行检测。图1(a-b)为LVIS数据集上的结果[19]。当使用目标提案[42]作为输入区域时，来自CLIP的分数通常无法捕获定位质量(图1a)。即使使用groundtruth对象盒，使用CLIP的分类准确率也从ImageNet上的60%显著下降到LVIS上的19%，类别数量相似(图1b)。因此，当应用预训练的CLIP模型进行对象检测时，存在主要的性能下降。我们如何使视觉语言预训练模型能够对图像区域进行推理?

图1：（a）预训练的CLIP模型[37]未能捕捉到定位质量。（b）使用相同的预训练CLIP对图像区域进行分类时，准确性会大幅下降。（c）我们的主要想法是学习匹配图像区域及其文本描述。

我们认为主要的差距在于这些视觉语言模型的训练。许多现有的视觉模型，包括CLIP，训练它们将图像与其图像级文本描述相匹配。该训练无法意识到局部图像区域和文本标记之间的对齐。因此，模型无法精确地将文本概念与图像区域联系起来。此外，裁剪局部图像区域并将其与文本标记进行匹配在很大程度上忽略了周围的视觉环境，这对对象识别至关重要，更不用说高计算成本了，例如，在现代GPU上每张图像需要几秒钟。

本文探讨了通过视觉语言预训练进行目标检测的学习区域表示。我们的核心思想是在预训练过程中明确地对齐图像区域和文本标记。然而，出现了两个关键挑战。首先，图像区域和文本标记之间的细粒度对齐在图像-文本对中不可用，注释成本很高。其次，图像的文本描述通常是不完整的，即许多图像区域不是由文本描述的。为了应对这些挑战，我们建议从预训练的视觉语言模型中引导，以对齐图像区域和文本标记，并填充缺失的区域描述，如图1c所示。

具体来说，我们的方法从从文本语料库中解析出的对象概念池开始，并通过将这些概念填充到预定义的模板中来合成区域描述。给定输入图像及其来自对象建议或密集滑动窗口的候选区域，使用预训练的CLIP模型来对齐区域描述和图像区域，为区域文本对齐创建“伪”标签。此外，我们将“伪”区域文本对和真实图像文本对结合起来，通过对比学习和知识提炼来预训练我们的视觉语言模型。尽管“伪”区域文本对是有噪声的，但它们仍然为学习区域表示提供了有用的信息，从而有助于弥合目标检测中的差距，正如我们的实验所验证的那样。

我们在图像字幕数据集（如概念字幕[45]）上预训练我们的RegionCLIP模型，并主要在开放词汇对象检测的基准（COCO[32]和LVIS[19]数据集）上评估我们的方法。当转移到开放词汇对象检测时，我们的预训练模型在COCO和LVIS上建立了新的技术水平（SoTA）。例如，对于COCO和LVIS上的新类别，我们的方法比之前的方法[18,60]至少高出3.8 AP50和2.2 AP。此外，我们的模型支持零样本推理，并以明显的优势优于一组强基线。

我们的贡献总结如下：（1）我们提出了一种新方法，无需手动注释即可对齐图像区域及其文本描述，从而实现了学习视觉区域表示的视觉语言预训练。（2）促进我们预训练的一项关键技术创新是一种可扩展的方法，该方法使用文本提示将对象描述与图像区域对齐而不依赖于人类注释，也不限于与图像配对的文本。（3）我们的预训练模型在转换为开放词汇表对象检测时表现出了很强的效果，并在对象检测的零镜头推理方面表现出了有前景的能力。

2 相关工作

图像的表征学习。早期关于视觉表示学习的研究主要集中在使用劳动密集型的人类注释来训练图像分类模型[13,22,30,46,50]。学习到的特征可以转移到识别任务中[16]，分类器可用于标记图像以进行半监督学习[36,55,57]。为了减轻注释负担，自监督学习[5,6,17,20]最近受到了相当大的关注。

最相关的工作是从自然语言中学习视觉表示，如图像标签[3,8,12,25,28]和文本描述[11,23,43,53,62]。利用从互联网收集的数百万对图像-文本，视觉语言预训练[26，37]中的最新方法学会了将图像与文本描述相匹配，并在图像分类的零样本推理和迁移学习方面表现出了令人印象深刻的性能。然而，这些工作侧重于为图像分类量身定制的全局表示。在本文中，我们建议学习局部图像区域的视觉表示，以实现基于区域的推理（例如，对象检测）的零样本推理和转移学习。

图像区域的表示学习。许多基于区域的推理任务，如对象检测[4,41,42,52]，都依赖于密集的人类注释[14,19,29,32]。最近，半监督学习得到了探索[48,56,66]，其中预训练检测器用于创建图像区域的伪标签。除了对象标签，区域表示学习还受益于对象属性的额外标签[1,29,61]，这表明视觉语言任务[9,31,33,51,58,63]有了显著改善。然而，这些工作严重依赖于手动注释，并且仅限于预定义的类别。作为部分补救措施，自监督学习被扩展到区域表示[24,40]。受CLIP[37]的启发，但与先前的工作不同，我们建议通过视觉语言预训练来学习区域表示。我们学习到的表示能够识别图像区域内的许多视觉概念。

Zero-shot和开放词汇对象检测。零目标检测旨在检测在检测器训练过程中看不到的新对象类别[2,18,38,39,60,65]。Bansal等人[2]学会了使用最大边距损失将裁剪图像区域的视觉特征与单词嵌入匹配[35]。Rahman等人[38]提出了模型背景类别和具有相似语义的聚类类别的极性损失。Zhu等人[65]探索了通过综合模型生成的合成视觉特征以提高新类别的本地化性能。

最近，Zareian等人[60]提出了用于开放词汇表对象检测的OVR，其中首先在图像-文本对上预训练视觉编码器以学习对象概念，然后将其转移到零样本对象检测设置。另一项密切的工作是ViLD[18]，它侧重于通过从预训练的CLIP模型中提取视觉特征来学习对象检测器[37]，但仍然需要对象标签和框进行训练。与OVR和ViLD类似，我们的检测器也利用了从视觉语言预训练中学习到的视觉语义空间。与OVR不同，我们建议从预训练的CLIP模型给出的“伪”区域文本对中学习区域-区域表示。因此，我们的方法不限于图像的现有文本描述。与ViLD不同，我们的工作解决了区域表示学习的问题，并侧重于从区域文本对进行预训练。因此，我们学习的表示支持零样本推理，而ViLD则不能。

3 基于区域的语言图像预训练

我们的目标是学习一个覆盖丰富对象概念的区域视觉语义空间，以便用于openvocabulary对象检测。考虑描述图像I中区域r内容的文本描述t。在视觉语义空间中，从r中提取的视觉区域表示V（I，r）应与文本表示L（t）匹配。V是一个视觉编码器，它获取图像I和区域位置r，并输出该区域的视觉表示。L是一个语言编码器，它将自然语言中的文本描述转换为语义表示。

识别与定位的分离。基于区域的推理有两个关键组成部分：定位和识别。受[47]的启发，我们将这两个组件分开，使用现有的区域定位器，并考虑一个识别问题。因此，我们的重点是学习视觉语义空间来识别没有人类注释的图像区域。

方法概述。如图2所示，我们将Vt和L表示为经过预训练的视觉和语言编码器，以将图像与其描述相匹配，如CLIP。我们的目标是训练一个视觉编码器V，使其能够对图像区域进行编码，并将其与语言编码器L编码的区域描述相匹配。为了应对缺失区域描述的挑战，如图2底部所示，我们构建了一个对象概念池，通过将概念填充到提示中来创建区域描述，并利用教师编码器Vt将这些文本描述与图像区域定位器提出的图像区域对齐。给定创建的区域文本对，我们的视觉编码器V通过对比学习和概念提炼来学习匹配这些对。一旦进行了预训练，我们的模型就支持用于区域识别的零样本推理，并且当人类注释可用时，可以将其转移到训练对象检测器。我们现在描述区域级视觉和语义表示，以及图像区域与文本描述之间的对齐。

图2：方法概述。我们建议通过视觉语言预训练学习图像区域的视觉表征。面板1：通过对比学习，CLIP能够匹配图像和它们的文字描述。面板2：通过预训练CLIP初始化，我们的视觉编码器从创建的区域文本对中学习视觉区域表示。具体来说，如下面一行所示，我们首先通过用从图像描述解析出来的对象概念填充提示这些创建文本，然后使用预训练的CLIP来对其这些文本和RPN提出的图像区域。面板3：当图像区域的人工注释可用的时候，我们转移视觉编码器进行对象检测。

3.1 视觉和语义区域表示

视觉区域表示。图像区域可以通过现成的对象定位器（例如RPN[42]）或密集的滑动窗口来提出。默认情况下，我们在没有对象标签的人类注释对象边界框上使用RPN预训练。我们使用RPN来提出图像区域并获得N个图像区域，表示为。

给定所提出的区域，使用特征池方法（如RoIAlign[21]）从我们的视觉编码器V中提取区域ri的视觉表示vi。RoIAlign通过使用插值从完整图像的特征图中汇集区域视觉特征。我们注意到，我们的视觉编码器V由教师Vt初始化，以便它在视觉语义空间中有一个良好的起点。

语义区域表示。单个图像通常包含丰富的语义，涵盖数千个类别中的一个或多个对象。在大规模图像文本数据集中注释所有这些类别的成本很高。为此，我们首先建立一个庞大的概念库，以详尽地涵盖区域概念。如图2底部所示，我们使用现成的语言解析器创建了一个对象概念池[27,44]，这些概念是从文本语料库（例如从互联网收集的图像描述）中解析出来的。

给定概念池，通过两个步骤创建区域的语义表示：（1）通过将每个概念填充到提示模板（例如CLIP的提示[37]）中，为每个概念创建一个短句，例如，将“风筝”概念转换为“风筝的照片”；（2）通过使用预训练的语言编码器L，将得到的文本描述进一步编码为语义表示。最后，所有区域概念都由其语义嵌入表示和C表示概念池的大小。

虽然我们的区域描述是建立在现有的图像描述之上的，但我们的方法不受与图像配对的特定文本描述的约束。重要的是，使用经过数亿个文本描述（包含数万个单词）训练的强大语言编码器L，我们可以轻松定制和扩展我们的概念库。这种能力被认为很难使用人类注释来实现。此外，视觉识别和定位的分离使我们的方法能够灵活地采用不同的方法提取候选区域。

3.2 区域的视觉语义对齐

区域文本对的对齐。我们利用教师视觉编码器Vt来连接图像区域和我们创建的文本（表示为语义嵌入）。同样，通过将局部图像区域的特征与RoIAlign合并，从教师编码器Vt中提取区域ri的视觉表示vti。然后通过以下公式计算和每个概念嵌入之间的匹配分数：

选择匹配得分最高的对象概念，表示为lm，并将其链接到区域ri。最后，我们为每个区域获得一个伪标签，形成对。

我们的预训练计划。我们的预训练利用了创建的区域文本对和现有的图像文本对。给定对齐的区域文本对，我们根据不同图像中的区域设计对比和蒸馏损失，以预训练我们的视觉编码器。受[34]的启发，对比损失计算如下

这里τ是预定义的温度，Nri表示区域ri的一组负文本样本，即与区域ri不匹配但与批次中的其他区域匹配的对象概念。

由于对比损失中的正对不可避免地是“噪声”的，我们还考虑了图像区域的知识蒸馏。知识提取从软目标中学习，并有助于处理这些伪区域文本对中的噪声。该蒸馏损失定义为

其中是KL发散损失；和都是所有对象概念上的概率。是教师模型中的软目标，计算公式为。同样是根据我们的学生模型计算的。

给定从互联网上收集的图像-文本对，我们的区域级对比损失Lcntrst自然可以扩展到图像级对比损失Lcntrst−img。它可以被视为一种特殊情况，其中（1）为覆盖整个图像的单个全局框提取视觉表示，（2）来自互联网的相应文本描述了整个图像，（3）负样本是与其他图像相关的文本描述。最后，我们的总体损失函数由下式给出

零样本推论。经过预训练后，我们的视觉编码器可以直接应用于区域推理任务。例如，给定来自RPN的区域建议，从我们的视觉编码器提取的区域表示可以用于匹配目标对象概念的嵌入，从而识别局部图像区域内的概念，从而实现用于对象检测的零样本推断。

3.3 目标检测迁移学习

我们的预训练利用了教师模型创建的区域文本对齐。这种对齐不需要人为的努力，但也不是很准确。当对图像区域进行强有力的监控时（例如，人类注释的检测标签），我们的视觉编码器可以通过用人类注释替换区域描述来进一步微调，如图2的面板3所示。

具体来说，我们通过初始化对象检测器的视觉骨干，将预训练的视觉编码器传输到对象检测器。为了检测图像对象，与我们的预训练一样，我们使用现成的RPN来定位对象区域，并通过将其视觉区域表示与目标对象类（例如检测数据集中的对象类）的语义嵌入进行匹配来识别这些区域。

4 实验

我们的主要结果报告了我们的开放词汇对象检测模型的迁移学习。此外，我们评估了我们的完全监督对象检测模型，以及用于对象检测的零样本推理。最后，我们进行消融以研究我们的模型组件。

数据集。对于预训练，我们考虑概念描述数据集（CC3M）[45]，其中包含来自网络的300万对图像文本。在进行消融研究时，我们还使用了较小的数据集COCO Caption（COCO Cap）[7]。COCO Cap包含118k张图像，每张图像都与5个带注释的字幕相关联。采用[27]中的解析器从COCO Cap/CC3M数据集中的字幕中提取三元组（例如，男子打球）。频率低于100的对象概念被丢弃，导致COCO Cap/CC3M上出现4764/6790个概念。

对于开放词汇对象检测的迁移学习，我们分别使用COCO检测数据集[32]和LVIS数据集（v1）[19]的基本类别训练检测器。在COCO上，我们遵循[2]的数据分割，有48个基本类别和17个新类别，它们是COCO对象类的子集。我们使用[60]中的处理数据，其中包括107761张训练图像和4836张测试图像。在LVIS上，根据[18]，我们使用训练/验证图像进行训练/评估，并采用866个基本类别（常见和频繁对象）和337个新类别（稀有对象）的类别划分。

评估协议和指标。我们评估了转移学习和零样本推理在COCO和LVIS上的对象检测性能。使用标准对象检测度量，包括平均精度（AP）和AP50（AP在0.5的交点处）。

实施细节。在预训练期间，默认的学生模型和教师模型是预训练CLIP中的ResNet50[22]。预训练中使用的RPN是用LVIS数据集的基本类别训练的。我们默认的模型是使用COCO Cap解析的概念对CC3M数据集进行预训练。SGD的批量大小为96，初始学习率为0.002，最大迭代次数为600k，每张图像有100个区域。温度τ为0.01。

为了进行物体检测的迁移学习，我们的检测器是在Detectron2[54]上使用Faster RCNN[42]（ResNet50-C4）开发的。迁移学习中使用的RPN是由目标数据集的基本类别训练的（例如，COCO上的迁移学习使用了COCO上训练的RPN）。SGD采用批量16、初始学习率0.002和1x计划。此外，我们应用了类加权交叉熵损失。（1）对于基本类别，我们使用焦点缩放，基本类别的权重为（1−p b）γ，其中p b是该基本类别softmax后的概率，γ=0.5/0.0（COCO/LVIS）。根据经验，焦点缩放有助于减轻预训练中对先前学习的对象概念的遗忘，从而有利于新类别。（2）对于背景类别，我们在[60]之后对背景区域使用了固定的全零嵌入和预定义的权重（COCO/LVIS为0.2/0.8）。

对于目标检测的零样本推理，RPN与预训练阶段相同，NMS阈值设置为0.9。受[47,64]的启发，我们通过几何平均值融合了RPN客观性得分和类别置信度得分。根据经验，融合RPN分数显著改善了零样本结果。

4.1 转换到开放词汇对象检测

设置。我们在两个开放词汇对象检测基准上评估了我们的模型，包括COCO和LVIS。关于COCO，我们报告了AP50并遵循[60]中的评估设置：（1）仅预测和评估新类别（novel），（2）仅预测并评估基本类别（base），（3）预测并评估所有类别的广义设置（generalized）。在LVIS上，我们遵循[18]的基准，将稀有物品定义为新类别。我们分别报告了新类别（APr）、基本类别（APc、APf）和所有类别（mAP）的AP。探测器按基本类别进行训练，并根据基本类别和新类别进行评估（例如，COCO/LVIS上的48/866个基本类别和17/337个新类别）。与ViLD[18]相比，LVIS上的所有实验都额外考虑了掩码注释。

基线。我们考虑了几个强有力的基线：

零样本对象检测器（SB[2]，DELO[65]，PL[38]）。零样本对象检测是最接近开放词汇对象检测的领域。这些检测器通常依赖于对象类的预训练词嵌入来泛化到新的类别。
开放词汇对象检测器（OVR[60]，ViLD[18]）：这些检测器利用预训练的视觉语言模型，这些模型从图像-文本对中学习了大量词汇。OVR是我们的紧密竞争对手，因为我们都对视觉编码器以及使用它们作为检测器初始化。ViLD是最近的一项工作，重点是通过从CLIP中提取预训练模型的视觉特征来训练检测器。ViLD专门使用大规模抖动（LSJ）的数据增强，训练时间为16倍[15]。
全监督检测器：在COCO上，我们包括来自OVR的监督基线，这是一个由基础类别以1x时间表训练的更快的RCNN[42]。在LVIS中，我们包括来自ViLD的监督基线，这是一个由基础和新类别训练的Mask RCNN[21]，具有特殊的数据增强作为ViLD。我们还报告了一个按照Detectron2的标准1x时间表训练的Mask RCNN[54]。
我们的探测器变体：我们考虑用不同的预训练视觉编码器初始化我们的探测器，包括CLIP和我们在COCO Cap上预训练的模型。

结果。表1和表2分别显示了COCO和LVIS数据集的结果。

表1：COCO数据集上的开放词汇对象检测结果。通过我们的预训练视觉编码器初始化，我们的检测器在所有指标上都比以前的工作有了显著的优势，在新类别上也比最近的工作ViLD*好。ViLD*通过大规模抖动（LSJ）的数据增强[15]和更长的训练计划（16x）来训练探测器。符号：Cls表示ImageNet[10]上的图像分类预训练，RN50表示ResNet50，IncRNv2表示Inception-ResNet-V2。

表2：在LVIS数据集上打开词汇对象检测结果。如果没有复杂的训练策略，我们的检测器在大多数指标上仍然优于ViLD*。使用相同的训练策略，我们的开放词汇检测器在所有指标上都优于完全监督的Mask RCNN。

在由我们的预训练骨干初始化的COCO数据集上，我们的检测器在所有指标上都明显优于之前的方法OVR[60]（例如，在新类别上为31.4比22.8）。与我们开始基于区域的预训练的CLIP主干相比，我们的模型在所有指标上都取得了显著的进步，特别是新类别的AP50提高了17.2。与ViLD（一种具有复杂训练策略的最新SoTA方法）相比，我们的模型在Base和All上仍然具有可比性，而在Novel上则要好得多（例如，31.4比27.6），Novel是开放词汇检测的主要焦点。在LVIS数据集上，具有可比骨干尺寸（我们的RN50x4-C4：83.4M，ViLD的RN152-FPN：84.1M），我们的检测器在很大程度上优于ViLD（例如，+2.2 APr和+3.6 mAP）。请注意，COCO和LVIS的这些优越检测结果是通过使用单个预训练骨干网、标准数据增强和1x训练计划实现的。这些结果表明，我们的基于区域的视觉语言预训练已经学会了图像区域和对象概念之间更好的对齐，从而促进了开放词汇对象检测。

4.2 转移到全监督目标检测

我们进一步报告了在全面监督下，按照标准检测基准对模型进行微调的结果。

设置。在训练和评估过程中使用所有对象类别的检测注释。同样，LVIS上的所有实验都额外使用掩码注释来训练检测器。

基线。我们考虑以下基线：（1）由ImageNet预训练骨干初始化的更快的RCNN[42]：这是社区中常见的对象检测器[54]。（2）我们的探测器由预训练的CLIP初始化。本文基线是为了验证我们提出的预训练方法。

结果。在表3中，由我们预训练的视觉骨干初始化的检测器在很大程度上优于由ImageNet和CLIP骨干初始化的基线（例如，COCO上为+2.4 mAP，LVIS上为+2.8 mAP）。在这种完全监督的环境中，我们的预训练在1x调度下实现了更快的收敛和更好的准确性。同样，当使用RN50x4作为教师模型和学生模型的骨干时，性能得到了显著提高（例如，COCO为+3.9 mAP，LVIS为+3.5 mAP）。

表3：COCO和LVIS数据集上的完全监督对象检测结果。我们的检测器由我们的预训练视觉编码器初始化，收敛速度更快，在1x调度的所有指标上都明显优于ImageNet和CLIP的backones。

4.3. 用于目标检测的零样本推理

接下来，我们探索直接使用RegionCLIP进行零样本检测，而不需要任何对象注释。

设置。预训练的视觉语言模型直接用于识别图像区域。我们使用与迁移学习实验相同的评估数据集和指标（COCO的所有AP50，LVIS的mAP）1。我们考虑两种设置：（1）将地面实况（GT）边界框用作区域建议。这种oracle设置旨在通过消除定位误差来评估识别性能；（2）该地区的建议来自预训练中使用的RPN。因此，性能受到定位质量和识别准确性的影响。

基线。我们考虑两条基线：（1）OVR[60]在COCO Cap的图像文本对上预构建视觉骨干其具有与COCO检测数据集相似的对象概念。我们评估了他们代码库中提供的预训练模型。（2） CLIP[37]在400M图像文本对上进行了预训练。OVR和CLIP都考虑图像-文本对进行预训练，就像我们的RegionCLIP一样。

结果。表4总结了结果。使用GT箱，我们的预训练模型在数据集上明显优于CLIP基线（例如，COCO上的所有AP50为61.4对58.3，LVIS上的所有AP10为44.4对42.2 mAP）。与OVR相比，我们的模型显示了更大的余量（例如，COCO上的所有AP50为61.4比44.5），更不用说OVR是在与评估相同的数据集上预训练的。当使用RPN提案时，我们的模型仍然明显优于CLIP和OVR（例如，COCO的26.8对19.6和25.5，9.6对LVIS上的9.2）。请注意，使用GT框比使用RPN更能表征预训练模型的识别性能，因为RPN会注入额外的定位误差。这些结果表明，我们的区域文本对齐预训练提高了图像区域的识别率。有了RN50x4架构作为教师和学生模型的骨干，零样本推理性能在数据集和设置上得到了进一步提高（例如，带有GT的LVIS上+6.3 mAP，带有RPN的COCO上+2.8 All AP50）。

表4：利用COCO和LVIS数据集上的地面轨迹（GT）盒或RPN盒的零样本推断。所有模型都使用RoIAlign来提取拟议图像区域的视觉表示。我们的预训练模型在数据集上明显优于基线。

4.4 消融研究

最后，我们使用COCOCap对零样本推理和迁移学习进行消融研究。

预训练策略。表5研究了不同预训练策略的效果。虽然使用区域-文本对已经获得了合理的性能，但添加图像-文本对进一步改进了结果（例如，零样本推理上的带有GT框的+2.4 AP50，迁移学习上的+5.4新AP50）。我们推测，图像-文本对提供了来自全局图像描述的上下文信息，从而补偿了我们的伪区域描述。

表5。训练前策略的消融研究。所有模型均采用COCO Cap进行预训练。

图像区域的类型。表6研究了预训练期间区域我们提出模型质量的影响。我们通过随机采样相同数量的图像区域来替换RPN提案。使用随机盒损害了零样本推理（GT盒为-2.0 AP50），但在迁移学习中实现了可比的性能（46.9对47.5 All AP50）。这些结果表明，我们的预训练对区域提案的质量具有鲁棒性。零样本推论得益于更高质量的提议，但当有人监督来微调模型时，差距就会缩小。

表6：预训练期间，使用的区域类型的消融研究。所有类型都在COCO Cap上进行了预训练。

预训练损失。表7研究了不同损失的影响。当根据零样本推断进行评估时，将对比损失和蒸馏损失相结合具有与仅使用蒸馏损失类似的结果（62.8对63.1 AP50，带有GT盒），但在迁移学习方面获得了更好的结果（26.8对。24.1新型AP50）。我们假设这两种损失是互补的。蒸馏损失有助于从教师模型中继承知识，而对比损失则加强了迁移学习的判别表征。

表7：预训练期间在损失上的消融研究。所有模型在COCO Cap上的预训练都使用了图像级别的对比损失。

可视化。图3显示了COCO数据集上带有GT框的零样本推理结果。我们的模型预测的对象类别比CLIP更合理（例如，我们的模型将第一列和第二列中的蓝色区域正确地预测为“伞”和“人”）。更多可视化可以在我们的补充中找到。

图3：图3。基于地面轨迹盒的COCO数据集零样本推理可视化。在没有微调的情况下，预训练模型（顶部：CLIP，底部：Ours）直接用于将图像区域识别为COCO中的类别。（图像ID:9448、9483、7386、4795）

5 结论

本文提出了一种新的基于区域的视觉语言预训练方法RegionCLIP，该方法学习匹配图像区域及其描述。我们的主要创新是一种可扩展的方法，可以在不使用人工注释的情况下关联区域文本对。通过从这种区域级对齐中学习，我们的预训练模型在COCO和LVIS数据集上转移到开放词汇对象检测时建立了新的技术水平。此外，我们的预训练模型在用于对象检测的完全监督和零样本推理上显示了有希望的结果。我们相信，我们的工作为区域表征学习迈出了坚实的一步，我们希望我们的工作能够为视觉语言预训练提供启示。

限制和社会影响。我们的工作有几个局限性，可以进一步研究。（1）我们的模型不考虑对象属性和关系，这对许多视觉任务（例如视觉基础）都是有益的，因此可能是一个有趣的未来方向。（2）我们的方法依赖于CLIP的视觉语义空间，不更新语言编码器。解冻语言编码器可能会在预训练中带来额外的收益。此外，我们的模型使用CLIP提示在图像字幕数据集（如CC3M）上进行了预训练，因此可能会从数据集和提示中继承不希望的偏差。

学习笔记

RegionCLIP的具体流程：

预训练的全局视觉-语言对齐（CLIP）：
- 使用 CLIP 模型对整张图像和相应的文本描述进行全局对齐，帮助模型初步学习图像-文本之间的全局语义关系。
区域级特征提取：
- 将图像输入一个预训练的目标检测器（如 Faster R-CNN），将图像分割成若干区域，通常这些区域是图像中的特定物体或部分场景。
- 对这些区域分别提取视觉特征，这些特征是区域级别的。
区域语言对齐学习（RegionCLIP）：
- 通过语言编码器对与图像相关的文本进行处理，提取出相应的语言特征。
- 通过对比学习（Contrastive Learning）的方式，区域视觉特征与对应的语言描述进行匹配（即将相关的区域-语言对组合拉近，而不相关的组合推远）。这一步的目标是让模型在局部层次上理解区域内的物体与语言描述之间的关系。
自监督与弱监督学习：
- RegionCLIP 不仅依赖标注数据，还使用大量未标注的数据进行自监督学习，即通过图像-语言对齐机制让模型在没有明确标签的情况下也能学习区域与语言的对应关系。
- 通过少量标注数据进行弱监督学习，使得模型在区域级别的语义理解上更加精确。

标签：训练,论文,区域,图像,COCO,文本,RegionCLIP,我们
From： https://blog.csdn.net/2403_87584552/article/details/142750978