Grounded Language-Image Pre-training

标签：Pre 定位 training 训练检测 Image GLIP 数据模型

论文《GLIP: Grounded Language-Image Pre-Training》提出了一种新的基于语言和图像的预训练模型，旨在学习语义丰富、语言感知的视觉表示。其核心思想是统一对象检测和短语定位两种任务，从而提升模型在视觉和语言理解任务上的表现。以下是这篇论文的主要内容总结：

任务介绍
传统的视觉识别模型通常被限制在固定的预定义类别上，无法很好地处理新的视觉概念。为了应对这一问题，GLIP 模型将对象检测和短语定位任务进行统一，通过训练模型同时处理图像和语言输入，提升模型对图像中物体的细粒度理解。
方法概述
GLIP 通过将对象检测任务视为短语定位任务，模型的输入不仅包括图像，还包括描述所有候选类别的文本提示。模型通过深度融合图像和语言特征，形成一个语言感知的视觉表示。该模型在预训练过程中使用了大量的图像-文本对数据集，包括人工标注数据和从网页抓取的图像-文本对，模型通过自监督生成的框来扩展训练数据，使得所学表示更加语义丰富。
实验结果
GLIP 在多个基准测试（如 COCO 和 LVIS）上展示了出色的性能，特别是在零样本和少样本的对象检测任务中表现优异。实验表明，GLIP 能够通过极少量的监督数据实现与传统完全监督模型相媲美的效果。同时，GLIP 在转移学习方面也表现出很强的迁移能力，能够适应不同的对象检测任务。
主要贡献
任务统一：将对象检测转化为短语定位任务，统一了两个任务的框架。
深度融合：引入图像和语言特征的深度融合，显著提高了语言感知的视觉表示能力。
扩展数据规模：通过自监督生成定位框，显著增加了用于预训练的数据规模，尤其在长尾类别检测中表现出色。
未来工作
未来的研究将进一步探索 GLIP 的可扩展性，尤其是在更大规模的图像-文本数据上进行预训练，以期提升其在更多下游任务中的应用性能。

这篇论文展示了通过融合语言和视觉信息来提升对象检测和图像理解任务的潜力，提出了一种高效的预训练模型，可以广泛应用于各种计算机视觉任务中。

摘要

本文提出了一种名为GLIP（Grounded Language-Image Pre-Training）的模型，用于学习物体级别、语言感知和语义丰富的视觉表示。GLIP在预训练中统一了对象检测和短语定位任务。该统一带来了两个好处：1）它允许GLIP同时从检测数据和定位数据中学习，从而提升两个任务的性能，并构建出优秀的定位模型；2）GLIP通过生成定位框的自我训练方式，利用大量图像-文本对，使所学习的表示更加语义丰富。在实验中，我们在2700万条定位数据上预训练GLIP，其中包括300万条人工标注的图像-文本对和2400万条从网络抓取的图像-文本对。实验结果表明，所学表示在各种物体级别识别任务中展示了强大的零样本和少样本迁移能力。1）当直接在COCO和LVIS数据集上评估时（在预训练过程中未使用任何COCO图像），GLIP分别达到了49.8 AP和26.9 AP，超过了许多有监督的基线模型；2）在COCO上微调后，GLIP在验证集上达到60.8 AP，在测试集上达到61.5 AP，超过了之前的最先进模型；3）在转移到13个下游对象检测任务时，GLIP在1-shot设置下表现与完全监督的Dynamic Head相当。代码将在此处发布。

Grounded Language-Image Pre-Training - 基于语言和图像的预训练
Object-level - 物体级别
Language-aware - 语言感知
Semantic-rich - 语义丰富
Phrase grounding - 短语定位
Object detection - 对象检测
Self-training - 自我训练
Image-text pairs - 图像-文本对
Zero-shot transferability - 零样本迁移能力
Few-shot transferability - 少样本迁移能力
AP (Average Precision) - 平均精度
Fine-tuned - 微调
COCO (Common Objects in Context) - COCO 数据集
LVIS (Large Vocabulary Instance Segmentation) - LVIS 数据集
Downstream object detection tasks - 下游对象检测任务
Supervised baselines - 有监督的基线模型
State-of-the-art (SoTA) - 最先进的模型

在这里插入图片描述

引言

视觉识别模型通常被训练来预测一组预先定义的对象类别，这限制了它们在实际应用中的可用性，因为需要额外的标注数据才能泛化到新的视觉概念和领域。CLIP 模型展示了图像级别的视觉表示可以通过大量的原始图像-文本对有效学习。由于这些配对文本包含比任何预定义概念池更广泛的视觉概念，预训练的 CLIP 模型语义上非常丰富，能够在零样本设置下轻松转移到下游的图像分类和文本-图像检索任务中。然而，为了获得图像的细粒度理解，如对象检测、分割、人体姿态估计、场景理解、动作识别和视觉语言理解等任务，物体级别的视觉表示是高度需要的。

在本文中，我们展示了短语定位这一任务，即在句子中的短语与图像中的对象（或区域）之间识别细粒度的对应关系，是学习物体级别、语言感知和语义丰富的视觉表示的一种有效且可扩展的预训练任务。我们提出了基于语言和图像的预训练（GLIP）方法。我们的方法统一了短语定位和对象检测任务，因为对象检测可以被视为无上下文的短语定位，而短语定位可以被看作是带有上下文的对象检测任务。我们强调了以下关键贡献：通过将对象检测重新表述为短语定位来统一检测和定位。这种重新表述改变了检测模型的输入：它不仅接受图像作为输入，还接受描述检测任务中所有候选类别的文本提示。例如，COCO 对象检测的文本提示是由 80 个短语组成的文本字符串，即 80 个 COCO 对象类别名称，通过“.”连接。任何对象检测模型都可以通过用词-区域对齐分数替换其分类器中的对象分类 logits，转换为定位模型。语言特征是通过语言模型计算的，这赋予了新的检测（或定位）模型双编码器结构。不同于 CLIP 模型只在最后的点积层融合视觉和语言信息，GLIP 引入的深度跨模态融合对于学习高质量的语言感知视觉表示和实现出色的迁移学习性能至关重要。检测和定位的统一还使我们可以同时利用两种类型的数据进行预训练，从而对两个任务都有好处。在检测方面，视觉概念的池由于定位数据而显著丰富。在定位方面，检测数据引入了更多的边界框标注，有助于训练一个新的最先进的短语定位模型。
通过一个优秀的定位模型（教师模型），我们可以通过自动生成定位框来增强GLIP的预训练数据，这些定位框基于大量的图像-文本对数据，名词短语由自然语言处理解析器检测。因此，我们可以在2700万条定位数据上预训练我们的GLIP-Large模型（GLIP-L），其中包括300万条人工标注的细粒度数据和2400万条从网络抓取的图像-文本对。对于这2400万条图像-文本对，生成了7810万个高置信度（>0.5）的短语-框伪标注，其中包含5840万个独特的名词短语。我们在图2中展示了两个生成的定位框的真实示例。教师模型能够准确地定位一些具有争议的难以识别的概念，如注射器、疫苗、美丽的加勒比海碧绿的海水，甚至是一些抽象词汇（如视野）。在这种语义丰富的数据上进行训练，生成了一个语义丰富的学生模型。相比之下，以往扩大检测数据规模的工作无法预测教师模型预定义词汇表之外的概念。在本研究中，我们展示了这种简单的扩大定位数据规模的策略在经验上是有效的，给LVIS和13个下游检测任务带来了巨大的提升，尤其是在稀有类别上（详见第4.2和第5节）。当预训练的GLIP-L模型在COCO上进行微调时，在COCO 2017验证集上达到了60.8 AP，在测试集上达到了61.5 AP，超过了当前通过各种方法扩展对象检测数据的公开最先进模型。

GLIP的迁移学习：一个模型适用于所有任务。定位重新表述和语义丰富的预训练促进了领域迁移。GLIP可以在很少甚至没有额外人工标注的情况下转移到各种任务。当GLIP-L模型直接在COCO和LVIS数据集上进行评估时（预训练过程中未使用COCO图像），分别在COCO val2017和LVIS val上达到了49.8和26.9 AP，超过了许多有监督的基线模型。在评估13个现有的对象检测数据集时，涵盖了包括细粒度物种检测、无人机视角检测和以自我为中心的检测等场景（我们称之为“野外对象检测” (ODinW)），GLIP展示了出色的数据效率。例如，零样本的GLIP-L超越了在Objects365上预训练的10-shot有监督基线模型（Dynamic Head），而1-shot的GLIP-L则与完全有监督的Dynamic Head表现相当。此外，当有任务特定的标注可用时，用户可以仅微调任务特定的提示嵌入，而无需更改模型参数。在这种提示微调设置下（详见第5.2节），一个GLIP模型可以同时在所有下游任务上表现良好，从而减少了微调和部署成本。

Visual recognition models - 视觉识别模型
Pre-determined object categories - 预先定义的对象类别
Image-text pairs - 图像-文本对
Semantic-rich - 语义丰富
Zero-shot settings - 零样本设置
Fine-grained understanding - 细粒度理解
Object detection - 对象检测
Segmentation - 分割
Human pose estimation - 人体姿态估计
Scene understanding - 场景理解
Action recognition - 动作识别
Vision-language understanding - 视觉语言理解
Object-level visual representations - 物体级别的视觉表示
Phrase grounding - 短语定位
Contextualized object detection - 带有上下文的对象检测
Text prompt - 文本提示
Word-region alignment scores - 词-区域对齐分数
Dual-encoder structure - 双编码器结构
Cross-modality fusion - 跨模态融合
Bounding box annotations - 边界框标注

Grounding model - 定位模型
Grounding boxes - 定位框
Noun phrases - 名词短语
NLP parser - 自然语言处理解析器
Human-annotated - 人工标注
Pseudo annotations - 伪标注
Semantic-rich - 语义丰富
Scaling detection data - 扩大检测数据
Rare categories - 稀有类别
Transfer learning - 迁移学习
Few-shot learning - 少样本学习
Domain transfer - 领域迁移
Zero-shot learning - 零样本学习
Data efficiency - 数据效率
Prompt embedding - 提示嵌入
Task-specific annotations - 任务特定的标注
Fine-tuning - 微调
Deployment cost - 部署成本
Object Detection in the Wild (ODinW) - 野外对象检测
High-confidence (> 0.5) phrase-box pseudo annotations - 高置信度（>0.5）短语-框伪标注

Related Work

标准的对象检测系统通常被训练来定位在人群标注的数据集中预定义的一组固定的对象类别，如COCO、OpenImages (OI)、Objects365和Visual Genome (VG)，这些数据集的对象类别不超过2000种。这样的人工标注数据扩展起来成本很高。GLIP 通过将对象检测重新表述为短语定位（词到区域匹配）问题，提供了一种经济实惠的解决方案，从而能够使用定位数据和大量的图像-文本对数据。虽然我们当前的实现是基于Dynamic Head (DyHead)，但我们统一的公式化方法可以推广到任何对象检测系统。

最近，开发视觉与语言相结合的方法来解决视觉识别问题成为一种趋势，这些方法中的视觉模型通过自由形式的语言监督进行训练。例如，CLIP和ALIGN通过对数百万乃至上亿的图像-文本对进行跨模态对比学习，并且可以直接执行开放词汇图像分类。通过将CLIP/ALIGN模型中的知识提炼到两阶段检测器中，ViLD 推动了零样本对象检测的发展。另一种方法，MDETR，基于现有的多模态数据集进行训练，这些数据集中文本中的短语与图像中的对象存在明确的对齐关系。我们的GLIP 继承了这一研究方向的语义丰富性和语言感知特性，达到了最先进的对象检测性能，并显著提升了其在下游检测任务中的可迁移性。

本文的重点是对象检测的领域迁移。目标是构建一个可以无缝迁移到各种任务和领域的预训练模型，且能够在零样本或少样本的情况下工作。我们的设置与零样本检测不同，在零样本检测中，一些类别被定义为未见过或稀有，并且不出现在训练集中。我们期望GLIP在稀有类别上有良好的表现，但我们并不明确将任何类别排除在我们的训练集之外，因为定位数据非常语义丰富，我们期望它们涵盖许多稀有类别。这类似于开放词汇对象检测的设置，期望原始的图像-文本数据能够涵盖许多稀有类别。除了在稀有类别上的表现之外，我们还考虑了现实世界场景中的迁移成本，即如何以最少的数据量、训练预算和部署成本实现最佳性能。

Object detection systems - 对象检测系统
Fixed set of object classes - 固定的对象类别
Human-annotated data - 人工标注数据
Phrase grounding - 短语定位
Word-to-region matching - 词到区域匹配
Vision-and-language approaches - 视觉与语言相结合的方法
Free-form language supervision - 自由形式的语言监督
Cross-modal contrastive learning - 跨模态对比学习
Open-vocabulary image classification - 开放词汇图像分类
Zero-shot object detection - 零样本对象检测
Multi-modal datasets - 多模态数据集
End-to-end model - 端到端模型
Semantic-rich - 语义丰富
Language-aware - 语言感知
Transferability - 可迁移性
Domain transfer - 领域迁移
Few-shot learning - 少样本学习
Rare categories - 稀有类别
Open-vocabulary object detection - 开放词汇对象检测
Transfer cost - 迁移成本
Training budget - 训练预算
Deployment cost - 部署成本

Method

3.1基于语言的图像预训练

从概念上讲，对象检测和短语定位有很大的相似性。它们都旨在定位对象并将它们与语义概念对齐。这种协同作用激励我们将传统的对象检测任务转化为定位问题，并提出一个统一的公式化（见3.1节）。我们进一步提出在图像和文本之间加入深度融合，使检测模型具备语言感知能力，从而成为一个强大的定位模型（见3.2节）。通过重新表述和深度融合，我们可以在可扩展且语义丰富的定位数据上预训练GLIP（见3.3节）。
3.1 统一公式化
背景：对象检测。一个典型的检测模型将输入图像输入到一个视觉编码器中，使用CNN或Transformer作为主干网络，并提取区域/框特征，如图1（底部）所示。每个区域/框特征被输入到两个预测头中，即框分类器和框回归器，分别通过分类损失和定位损失进行训练：
在这里插入图片描述

.
在两阶段检测器中，使用一个单独的区域建议网络（RPN）来区分前景和背景，并优化锚点。由于RPN不使用对象类别的语义信息，我们将其合并到定位损失中。在一阶段检测器中，定位损失还可能包含中心度损失。框分类器通常是一个简单的线性层，分类损失可以写作：
在这里插入图片描述

是基于经典的多对一匹配或双向匈牙利匹配计算的目标匹配。损失函数通常是对于两阶段检测器的交叉熵损失或一阶段检测器的Focal Loss。

对象检测作为短语定位。我们不再将每个区域/框分类为c个类别，而是将检测重新表述为一个定位任务，通过将每个区域对齐到文本提示中的c个短语。如何为检测任务设计文本提示？例如，给定对象类别“[人，自行车，汽车，…，牙刷]”，一种简单的方法是使用提示：“检测：人，自行车，汽车，…，牙刷”。在该提示中，每个类别名称都是待定位的候选短语。我们还可以通过提供更具表现力的类别描述或利用预训练语言模型的偏好来设计更好的提示。例如，当我们使用预训练的BERT模型来初始化语言编码器时，提示“人。自行车。汽车。…。牙刷。”效果优于上述更人性化的提示设计。我们将在5.2节中讨论提示设计。

在定位模型中，我们计算图像区域和提示中单词之间的对齐分数：
在这里插入图片描述

是来自语言编码器的上下文单词/词元特征，其作用与分类中的权重矩阵类似，如图1（右）所示。定位模型由图像编码器和语言编码器组成，通过最小化定义在（1）和（2）中的损失进行端到端训练，只需将（2）中的分类logits替换为区域-词对齐分数。

检测与定位的等价性。通过上述重新表述，我们可以将任何检测模型转换为定位模型，检测和定位在理论上对于训练和推理都是等价的。我们也通过实验证明了这一点：基于Swin-Tiny主干网络的最先进的DyHead检测器在重新表述前后在COCO val2017上的性能相同。通过这种重新表述，预训练的短语定位模型可以直接应用于任何对象检测任务，这使得我们可以以零样本的方式将GLIP模型迁移到任意检测任务中。
我们的定位公式化受MDETR启发，并且我们的定位损失与MDETR的细粒度对比损失有着相同的精神。我们进一步推进，提出了一种有效的方法，将检测重新表述为定位，并为检测和定位任务设计了一个简单的统一损失。我们的定位模型也类似于零样本检测模型。Bansal等人的开创性工作通过使用预训练的Glove词嵌入作为短语特征，使检测模型能够进行零样本检测。最近，从预训练深度语言模型中提取的短语特征被引入开放词汇检测中。GLIP与零样本检测的不同之处在于，GLIP为检测和定位提供了一个统一视角，并引入了两个关键因素，即语言感知的深度融合和通过图像-文本数据进行扩展。

3.2 语言感知的深度融合

在公式（3）中，图像和文本由各自的编码器独立编码，并仅在最后融合以计算对齐分数。我们称这些模型为“后融合模型”。在视觉语言文献中，深度融合视觉和语言特征是学习高性能短语定位模型的必要条件。我们在图像和语言编码器之间引入了深度融合，将图像和文本信息融合到最后几个编码层中。当我们使用DyHead作为图像编码器，BERT作为文本编码器时，深度融合的编码器为：

O i t 2 i , P i i 2 t = X − M H A ( O i , P i ) , i ∈ { 0 , 1 , . . , L − 1 } O_i^{t2i}, P_i^{i2t} = X-MHA(O_i, P_i), i \in \{0, 1, .., L-1\} Oit2i,Pii2t=X−MHA(Oi,Pi),i∈{0,1,..,L−1}

O i + 1 = D y H e a d M o d u l e ( O i + O i t 2 i ) , O = O L O_{i+1} = DyHeadModule(O_i + O_i^{t2i}), O = O_L Oi+1=DyHeadModule(Oi+Oit2i),O=OL

P i + 1 = B E R T L a y e r ( P i + P i i 2 t ) , P = P L P_{i+1} = BERTLayer(P_i + P_i^{i2t}), P = P_L Pi+1=BERTLayer(Pi+Pii2t),P=PL

其中，(L) 是DyHead中的模块数量，BERTLayer 是添加在预训练BERT之上的BERT层，(O_0) 表示视觉主干网络的视觉特征，(P_0) 表示来自语言主干网络的词元特征。跨模态多头注意力模块实现了跨模态通信，随后是单模态融合和更新。

在跨模态多头注意力模块中，每个头通过关注另一模态来计算该模态的上下文向量。深度融合编码器带来了两个好处：1）提高了短语定位的性能；2）使学习到的视觉特征具备语言感知能力，因此模型的预测以文本提示为条件。这对于实现一个模型同时处理所有下游检测任务的目标至关重要。

3.3 使用可扩展的语义丰富数据进行预训练

大量努力已投入到收集具有语义丰富性和大规模的检测数据中。然而，人工标注被证明成本高昂且有限。以往的工作通过自我训练的方式扩展数据规模，但生成的数据在概念池的规模上仍然有限，因为教师模型只能预测概念池中定义的标签。相比之下，我们的模型可以同时使用检测数据和定位数据进行训练。我们展示了定位数据可以提供丰富的语义来促进定位，并且可以通过自我训练的方式扩展。

首先，黄金定位数据覆盖的视觉概念词汇远大于现有的检测数据。通过定位数据，我们扩展了词汇表，几乎涵盖了出现在定位字幕中的所有概念。例如，Flickr30K包含44,518个独特短语，而VG Caption包含110,689个独特短语，远远超过检测数据的词汇表。我们在第4.4节中的实证研究表明，80万条黄金定位数据带来的改进比增加200万条检测数据更大。

我们采用一种简单的自我训练方法。首先，我们使用黄金（人工标注）的检测和定位数据预训练教师GLIP模型。然后，我们使用教师模型为网络收集的图像-文本数据预测框，名词短语由NLP解析器检测。最后，学生模型使用黄金数据和生成的伪定位数据进行训练。教师能够为语义丰富的实体生成准确的定位框。

为什么学生模型可能会超越教师模型？虽然关于自我训练的讨论仍然活跃，但在视觉定位的背景下，我们认为教师模型利用语言上下文和语言的泛化能力准确定位了它可能不了解的概念。例如，教师可能不会直接识别某些概念如“疫苗”和“碧绿色”，如果它们没有出现在黄金数据中。然而，丰富的语言上下文（如句法结构）可以为教师模型提供强有力的指导，帮助它做出“有根据的猜测”。当我们训练学生模型时，教师模型的“有根据的猜测”变成了监督信号，使学生模型学会这些概念。

Object detection - 对象检测
Phrase grounding - 短语定位
Visual encoder - 视觉编码器
Region/box features - 区域/框特征
Prediction heads - 预测头
Box classifier - 框分类器
Box regressor - 框回归器
Classification loss - 分类损失
Localization loss - 定位损失
Region Proposal Network (RPN) - 区域建议网络
Centerness loss - 中心度损失
Cross-entropy loss - 交叉熵损失
Focal Loss - Focal Loss
Text prompt - 文本提示
Contextual word/token features - 上下文单词/词元特征
Language encoder - 语言编码器
Alignment scores - 对齐分数
Binary sigmoid loss - 二元Sigmoid损失
Token probabilities - 词元概率
Zero-shot - 零样本
**Grounding formulation** - 定位公式化
2. **Fine-grained contrastive loss** - 细粒度对比损失
3. **Unified loss** - 统一损失
4. **Zero-shot detection** - 零样本检测
5. **Phrase features** - 短语特征
6. **Open-vocabulary detection** - 开放词汇检测
7. **Deep fusion** - 深度融合
8. **Late-fusion models** - 后融合模型
9. **Cross-modality multi-head attention** - 跨模态多头注意力
10. **Token features** - 词元特征
11. **Visual backbone** - 视觉主干网络
12. **Semantic-rich entities** - 语义丰富的实体
13. **Self-training** - 自我训练
14. **Gold grounding data** - 黄金定位数据
15. **Pseudo detection labels** - 伪检测标签
16. **Language context** - 语言上下文
17. **Educated guess** - 有根据的猜测
18. **Supervised signal** - 监督信号

在这里插入图片描述

转移至已建立的基准
经过预训练后，GLIP 可以轻松应用于定位和检测任务。我们在三个已建立的基准上展示了强大的直接领域迁移性能：1）MS-COCO 对象检测 (COCO) [32]，包含80个常见对象类别；2）LVIS [13]，涵盖超过1000个对象类别；3）Flickr30K [39]，用于短语定位。我们训练了GLIP的5个变种（表1），以对其三个核心技术进行消融实验：1）统一的定位损失；2）语言感知的深度融合；3）使用两种类型数据进行预训练。实现细节在附录中。

GLIP-T (A) 基于最先进的检测模型 Dynamic Head [9]，我们用词-区域对齐损失替换了分类损失。它基于Swin-Tiny主干网络，并在Objects365 (O365) [45] 上进行预训练，包含66万张图像和365个类别。正如第3.1节中讨论的，该模型可以被视为一个强大的传统零样本检测模型，仅依赖语言编码器泛化到新概念。

GLIP-T (B) 增强了语言感知的深度融合，但只在O365上进行了预训练。

GLIP-T © 在1）O365 和 2）GoldG 上进行预训练，GoldG 是由MDETR [19] 收集的80万条人工标注的黄金定位数据，包含Flickr30K、VG Caption [23] 和 GQA [16]。我们从数据集中移除了COCO图像。它的设计旨在验证黄金定位数据的有效性。

GLIP-T 基于Swin-Tiny主干网络，并在以下数据上进行预训练：1）O365，2）与GLIP-T ©相同的GoldG，3）Cap4M，从网络收集的400万条图像-文本对，GLIP-T © 生成的框。我们还实验了现有的图像字幕数据集：CC (Conceptual Captions，包含300万数据) [46] 和 SBU (包含100万数据) [37]。我们发现，CC+SBU的GLIP-T 在COCO上略好于Cap4M GLIP-T，但在其他数据集上表现稍差。为了简化，我们在COCO上报告两种版本，但在其他任务中只报告Cap4M模型。完整结果见附录。

GLIP-L 基于Swin-Large，并在以下数据上进行训练：1）FourODs (266万条数据)，包含Objects365、OpenImages [22]、Visual Genome (不包括COCO图像) [23] 和 ImageNetBoxes [24]；2）与GLIP-T © 相同的GoldG；3）CC12M+SBU，从网络收集的2400万条图像-文本数据，使用生成的框。

4.1. 在COCO上的零样本和有监督迁移
我们在MS-COCO上进行了实验，以评估模型对常见类别的迁移能力。我们在两种设置下进行评估：1）零样本领域迁移，2）有监督迁移，我们使用标准设置微调预训练模型。在微调设置下，我们还测试了GLIP-L模型的性能（最后一行）。具体来说，我们将完整的GoldG+ 定位数据和COCO train2017添加到预训练数据中。请注意，COCO 2017val 的一部分图像出现在GoldG+ [19] 中。因此，我们只报告该模型的test-dev性能。更多详情见附录。

我们引入了一个额外的基线：在Objects365上预训练的DyHead。我们发现COCO的80个类别在Objects365中完全覆盖。因此，我们可以以“零样本”的方式评估在Objects365上训练的DyHead：在推理期间，我们将模型限制为只预测COCO的80个类别。我们列出了标准COCO检测模型以供参考。我们还列出了两个使用额外数据进行预训练的最先进模型。结果见表2。总体而言，GLIP 模型在零样本和有监督设置下都表现出色。零样本的GLIP模型与或超过了许多已有的有监督模型。最好的GLIP-T 达到了46.7 AP，超过了Faster RCNN；GLIP-L 达到了49.8 AP，超过了DyHead-T。在有监督设置下，最好的GLIP-T 相比标准的DyHead 提高了5.5 AP（55.2 对比 49.7）。在Swin-Large主干网络的支持下，GLIP-L 超越了当前的COCO最先进模型，达到了60.8 (2017val) 和 61.5 (test-dev)，未使用以往最先进方法中的模型 EMA、mixup、标签平滑或软NMS。

4.2. 在LVIS上的零样本迁移
我们在LVIS的零样本设置下评估了模型识别多样化和稀有对象的能力。结果见表3。我们列出了三个在LVIS标注数据上训练的有监督模型。GLIP 在所有类别上都表现出色的零样本性能。GLIP-T 与有监督的MDETR相当，而GLIP-L 大幅超过了Supervised-RFS。

使用定位数据的好处显而易见。黄金定位数据在MiniVal APr 上带来了4.2点的提升（模型C对比模型B）。添加图像-文本数据进一步提高了3.1点。我们得出结论，语义丰富的定位数据显著帮助模型识别稀有对象。

4.3. 在Flickr30K实体上的短语定位
我们在Flickr30K实体数据集上评估了模型在自然语言中定位实体的能力。Flickr30K包含在黄金定位数据中，因此我们像MDETR一样直接评估预训练后的模型。结果见表4。我们评估了使用不同预训练数据的三种GLIP版本，并列出了MDETR的性能，MDETR 是最先进的定位模型。MDETR 在GoldG+ 上训练，包含130万条数据（GoldG 是不包含COCO图像的GoldG+子集）。GLIP-T 在使用GoldG 时达到了与MDETR相似的表现。

4.4. 分析
在本节中，我们通过在不同数据源上预训练GLIP-T 进行了消融研究。我们回答了两个研究问题。首先，我们的方法假设使用检测数据来初始化模型。一个自然的问题是，当配对不同的检测数据时，定位数据是否能带来改进。我们发现，添加定位数据在不同检测数据的组合下带来了持续的改进。

其次，我们展示了定位数据在常见和稀有类别上的有效性。一个正交的方向是通过包含更多图像和类别来扩展检测数据。我们试图提供一个关于扩展检测数据与定位数据的经验比较。我们展示了在4个公开检测数据集上训练的GLIP（第8行），这是一个极限尝试，使用人类标注的检测数据扩展规模，总共266万条检测数据，词汇表涵盖1500多个类别。然而，它仍然落后于在第6行中仅使用66万条检测数据和80万条黄金定位数据训练的模型。在LVIS的APr上，添加图像-文本数据进一步扩大了差距（20.8 对比 15.0）。我们得出结论，定位数据确实更加语义丰富，是扩展检测数据的一个有前景的替代方案。

Transfer - 迁移
Benchmark - 基准
Pre-training - 预训练
Zero-shot detection - 零样本检测
Supervised transfer - 有监督迁移
Detection data - 检测数据
Grounding data - 定位数据
Ablation study - 消融研究
Objects365 - Objects365 数据集
GoldG - 黄金定位数据
Image-text pairs - 图像-文本对
Phrase grounding - 短语定位
Flickr30K - Flickr30K 数据集
LVIS - LVIS 数据集
COCO - COCO 数据集
Fine-tuning - 微调
Test-dev - 测试集

在这里插入图片描述

结论与贡献：

统一检测和定位：GLIP通过将对象检测和短语定位任务统一起来，解决了传统检测模型在处理新概念和少样本任务中的局限性。
语言感知深度融合：通过引入跨模态的深度融合，GLIP能够捕获更细粒度的语义信息，增强了视觉表示的语言感知能力。
语义丰富的数据扩展：GLIP通过自监督生成的伪标注数据有效扩展了数据规模，尤其在稀有对象的识别上显著提升性能。

标签：Pre,定位,training,训练,检测,Image,GLIP,数据,模型
From： https://blog.csdn.net/hjzhang75/article/details/143200023

Grounded Language-Image Pre-training

摘要

引言

Related Work

Method

3.1基于语言的图像预训练

3.2 语言感知的深度融合

3.3 使用可扩展的语义丰富数据进行预训练

结论与贡献：

相关文章

赞助商

阅读排行