Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?

标签：Prompt Tuning CLIP 提示标签噪声调优 Language 鲁棒性

文章汇总

本文的作者针对了提示学习的结构设计进行了分析，发现了一些规律：

1)固定的类名令牌为模型的优化提供了强正则化，减少了由噪声样本引起的梯度。

2)从多样化和通用的web数据中学习到的强大的预训练图像文本嵌入为图像分类提供了强大的先验知识。

3)CLIP的噪声零样本预测可以用来调整它自己的提示，显著提高了无监督设置下的预测精度。

广义交叉熵(GCE)损失的定义

****在这项工作中，我们证明了上述提示调谐框架[51]对噪声标签表现出惊人的鲁棒性。然而，这种鲁棒性可以通过使用广义交叉熵(GCE)损失[47]来优化可学习提示来进一步增强，这是交叉熵损失的一种鲁棒推广。正式地，GCE损失定义为

如[47]所示，当 x → 0 x\rightarrow 0 x→0 时，GCE相当于Eq. 2的标准交叉熵损失，当 q = 1 q=1 q=1 时，GCE相当于(鲁棒)平均绝对误差(MAE)损失 ∣ ∣ 1 − P r ( y = c ∣ x ) ∣ ∣ 1 {||1-Pr(y=c|x)||}_1 ∣∣1−Pr(y=c∣x)∣∣1。因此，超参数 q q q可以控制高鲁棒但性能较差的MAE损失与低鲁棒但性能较高的CE损失之间的权衡。

提示调优对噪声标签具有鲁棒性

这个结果表明，与其他选择相比，提示调优自然更能抵抗噪声标签。然而，我们表明，通过使用鲁棒广义交叉熵损失来训练提示，可以进一步增强其鲁棒性。

鲁棒性归因

图3:研究图像和文本编码器对提示调优和提示设计的影响的不同结构示意图。红色突出显示的块将被训练，而灰色突出显示的块将被冻结。

(a)文本编码器对于提供文本嵌入的强大但信息丰富的正则化以对抗噪声输入(Prompt Tuning vs .s.classifiers)至关重要。分类器);(b)文本编码器应该固定以防止过拟合(提示调谐vs . TEnc-FT)。

此分析验证了我们的假设，即固定的classname令牌确实是提示调优的关键正则化。

提示调谐抑制噪声梯度

图4显示了在四个数据集上训练模型时的噪声-清洁梯度范数比。可以看到，提示调优显示的比率明显低于线性探测。这表明，与线性探针相比，噪声样本在提示调谐中起相对较小的作用。这种特性可能是由于高度约束的提示调优，这限制了模型拟合噪声标签。

无监督的提示调谐

Robust UPL。在第4节中，我们展示了提示调优对有噪声的标签具有鲁棒性。此外，我们还证明了使用广义交叉熵损失(GCE)可以进一步增强提示调谐的鲁棒性。鉴于这些观察结果，我们建议通过1)随机样本训练样本和2)使用鲁棒GCE损失优化提示来执行无监督提示调谐。随机抽样有两种效果。一方面，它增加了训练样本的多样性，有利于学习。另一方面，它增加了标签噪声的数量。然而，我们期望我们健壮的提示调优框架能够容忍标签噪声。

在三种方法中，在GCE损失下训练的鲁棒UPL平均性能最好。我们再次强调，鲁棒UPL随机采样伪标记图像进行训练，而不是像UPL那样使用高置信度样本。因此，UPL训练伪标签的多样性较小，但噪声较小。例如，用于在Caltech上训练UPL的伪标签的正确率为93%，而用于训练Robust UPL的伪标签的正确率仅为83%。然而，这些错误并没有损害鲁棒UPL的最终性能;相反，从更多样化的集合中学习，同时对噪声具有鲁棒性，可以增强提示调谐。

摘要

CLIP[28]等视觉语言模型从大规模训练数据中学习通用的文本-图像嵌入。通过小样本的提示调优，可以使视觉语言模型适应新的分类任务。我们发现这种提示调优过程对标记噪声具有很高的鲁棒性。这促使我们去研究促成提示调优范式的鲁棒性的关键原因。我们进行了大量的实验来探索这一特性，发现关键因素是:1)固定的类名令牌为模型的优化提供了强正则化，减少了由噪声样本引起的梯度;2)从多样化和通用的web数据中学习到的强大的预训练图像文本嵌入为图像分类提供了强大的先验知识。此外，我们证明了CLIP的噪声零样本预测可以用来调整它自己的提示，显著提高了无监督设置下的预测精度。代码可在https://github.com/CEWu/PTNL上获得。

1. 介绍

大规模的视觉语言模型，如CLIP[28]、ALIGN[13]和CoCa[44]正在改变我们学习和与视觉表征交互的方式。由于这些模型学习将一组广泛的自然图像的表示与其文本描述对齐，因此它们显示出以数据高效的方式解决各种任务的卓越能力。例如，使用预训练的文本编码器，可以通过编码规范句子(如“A photo of a ”)获得一组类嵌入，并使用它们来识别没有标记数据集的对象。虽然Zhou等人[51]很有希望，但他们表明，这些人为定义的句子(也称为类提示)可能是不稳定的，看似等同的描述会导致不同的预测。为了解决这个问题，研究人员专注于提示调优[51]，其中通过反向传播从小目标数据集中学习可学习的提示。因为只需要训练提示符，所以这个框架的数据效率很高。因此，即时调优在使视觉语言模型适应下游任务(如少样本学习[51,50]、持续学习[39]和目标分割[29])方面越来越受欢迎。

虽然在使用精确注释的数据集训练下游任务时，提示调优已被证明是有效的，但它们对噪声标签的鲁棒性被忽视了。由于许多应用程序的注释质量可能很低，因此使用噪声标签进行学习对于解决实际问题至关重要。在这项工作中，我们证明了提示调谐对噪声标签具有鲁棒性，并研究了实现这种鲁棒性的机制。我们假设视觉语言模型的联合文本和图像嵌入可以为分类空间提供一个良好定义的结构(例如，哪些类别彼此最相似，哪些类别彼此最不同)。这种模型信息结构补偿了由于标签噪声而导致的数据中结构的退化。为了验证这一假设，我们进行了大量的实验来研究带有噪声标记数据的提示调优任务的每个组成部分的影响。除了结构化标签空间所赋予的鲁棒性之外，我们还表明，当使用鲁棒损失函数来训练可学习提示时，这种鲁棒性可以进一步增强，从而减轻离群值的影响。我们的研究揭示了几个有趣的发现。

图1:在两个具有增量噪声率的训练标签的数据集上与迁移学习方法的比较。ImageNet微调是在ImageNet上微调预训练模型。对于CLIP预训练模型，提示调谐对线性探测方式的鲁棒性要强得多。通过结合广义交叉熵(GCE)[47]，我们进一步提高了提示调谐对噪声标签的鲁棒性。ResNet-50被用作所有方法的图像编码器。

首先，通过预先训练的CLIP模型调整提示获得的分类性能对噪声标签的鲁棒性明显高于传统的微调或线性探测范式(见图1)。提示调整的鲁棒性不仅是因为它们在更高噪声率下的性能下降较小，而且还因为它能够减少由噪声样本引起的梯度。其次，虽然用共享的可学习提示来启动每个类对于自适应是必要的，但确保类名称保留在提示中可以强烈地正则化类嵌入，并防止过度拟合到有噪声的标签。最后，我们展示了这种鲁棒性的好处，CLIP零样本(噪声)预测可以用来调整自己的提示，并显着提高CLIP预测的准确性。事实上，我们表明，与其关注具有自信预测的样本(如先前无监督提示调谐方法[12]中提出的那样)，提示调谐从训练样本的多样性增加中获益更多，因为它可以容忍与之相关的更嘈杂的预测。

我们的工作主要贡献如下:

•我们证明了预训练的视觉语言模型(如CLIP)的提示调优比传统的迁移学习方法(如模型微调和线性探针)对噪声标签的鲁棒性更强。

•我们进一步证明，通过使用鲁棒训练目标，可以进一步增强提示调优鲁棒性。

•我们对为什么提示调优对噪声标签具有鲁棒性进行了广泛的分析，以发现哪些组件对其鲁棒性贡献最大。

•基于这一特性，我们提出了一种简单而有效的无监督提示调优方法，表明随机选择的噪声伪标签可以有效地用于增强CLIP零样本性能。提出的鲁棒提示调优在各种数据集上优于先前的工作[12]，即使使用更嘈杂的伪标签进行自我训练。

2. 相关工作

提示调优视觉语言模型

在过去的几年中，视觉语言预训练模型(visual language Pre-Trained Models, VL-PTMs)取得了巨大的进步[28,13,41,44]。CLIP[28]被认为是VL-PTMs的代表性模型。与传统的微调范例不同，CLIP应用提示工程将类别信息合并到文本输入中，使其预训练模型无需进一步训练即可适应各种图像分类任务。然而，设计一个合适的提示是具有挑战性的，需要启发式的方法。CoOp[51]引入了针对目标数据集优化的可学习提示来解决这个问题。为了进一步扩展CoOp的泛化，CoOp[50]引入了一个轻量级网络，将来自图像输入的额外信息添加到可学习的提示符中。CoOp还因忽视视觉表现的多样性而受到批评。相比之下，ProDA[18]通过利用不同的提示来捕获不同视觉表示的分布来解决这个问题。与上述监督调优方法相反，UPL[12]提出了一个框架，可以在没有标记数据的情况下执行提示调优。TPT[23]通过仅使用单个测试样本动态调整提示来实现零样本迁移。除了图像分类的下游任务外，最近的工作还将CLIP的提示调谐应用于各种计算机视觉任务，如物体检测[29,6]、视频理解[16,14]和多标签识别[36]。这些作品揭示了提示调优的进一步潜力。

标签噪声鲁棒学习

深度神经网络(DNNs)在无标签噪声的分类任务中得到了很好的研究。然而，如果训练数据中包含标签噪声，DNNs 很容易对有噪声的标签过拟合[45]。为了克服这个问题，一些研究试图通过一些方法来提高DNNs的噪声鲁棒性，包括容忍噪声标签的鲁棒损失[8,47,38,19]，估计转移矩阵以纠正预测的损失校正方法[26,11,3,31,21,34,43,42]，元学习框架学习纠正训练样本中的标签噪声[17,32,15,33,48,49]和定制的正则化技术，以降低噪声的负面影响[46,27,10,40]。在这项工作中，我们证明了CLIP的提示调谐自然具有强大的噪声鲁棒性。我们探讨了这种鲁棒性背后的关键因素，并展示了它在无监督提示调谐中的应用。

3. 提示优化

CLIP[28]可以通过提示工程——为下游任务设计文本输入的实践——来执行零射击转移。具体来说，在图像分类的情况下，通过将图像 x x x 传递给CLIP的视觉编码器，得到一个归一化图像嵌入 f v f^v fv，通过将“A photo of a ”的模板提示输入CLIP的文本编码器，得到一组归一化的类嵌入 { f i t } i = 1 K \{f^t_i\}^K_{i=1} {fit}i=1K 。类后验估计为

其中 τ \tau τ 是由CLIP学习的温度因子，sim表示余弦相似度

提示调优虽然CLIP能够零样本迁移，但其性能对设计的文本提示很敏感。为了避免手工提示并提高传输性能，CoOp[51]表明，可以用连续的软提示代替文本提示，并在目标数据集上进行优化。具体来说，首先将类 c c c 的名称转换为嵌入 w c ∈ R d w_c \in R^d wc∈Rd 的类名，并在其前面加上所有类共享的 M M M 个可学习令牌 p m ∈ R d p_m \in R^d pm∈Rd 的序列。完整提示符 P c = [ p 1 , p 2 , … , p M , w c ] P_c=[p_1,p_2,\ldots,p_M,w_c] Pc=[p1,p2,…,pM,wc] 然后CLIP的文本编码器对每个类 c c c 进行处理，计算相应的文本嵌入 f c t f^t_c fct，通过式1再次得到类后验 P r ( y = i ∣ x ) Pr(y=i|x) Pr(y=i∣x)。为了使提示符适应目标数据集，CoOp[51]优化了共享可学习令牌 p 1 , p 2 , … , p M p_1,p_2,\ldots,p_M p1,p2,…,pM 在一个小的标记数据集 D = { ( x i , c i ) i = 1 N } D=\{{(x_i,c_i)}^N_{i=1}\} D={(xi,ci)i=1N}上，以最小化交叉熵损失

稳健的提示调优在这项工作中，我们证明了上述提示调谐框架[51]对噪声标签表现出惊人的鲁棒性。然而，这种鲁棒性可以通过使用广义交叉熵(GCE)损失[47]来优化可学习提示来进一步增强，这是交叉熵损失的一种鲁棒推广。正式地，GCE损失定义为

如[47]所示，当 x → 0 x\rightarrow 0 x→0时，GCE相当于Eq. 2的标准交叉熵损失，当 q = 1 q=1 q=1 时，GCE相当于(鲁棒)平均绝对误差(MAE)损失 ∣ ∣ 1 − P r ( y = c ∣ x ) ∣ ∣ 1 {||1-Pr(y=c|x)||}_1 ∣∣1−Pr(y=c∣x)∣∣1 。因此，超参数 q q q可以控制高鲁棒但性能较差的MAE损失与低鲁棒但性能较高的CE损失之间的权衡。虽然 q q q 的最佳值可以通过交叉验证调整到噪声的数量，但我们发现 q = 0.7 q=0.7 q=0.7 在几个实验设置中导致总体良好的性能。

4. 带标签噪声的提示微调分析

基于提示调优的CLIP方法[28]已被证明在小样本学习中是有效的[51,50]。然而，这些方法已经在具有完美标签的数据集上进行了研究。目前尚不清楚在标签噪声下如何进行提示调谐。我们探索了这个实际的训练环境，并提出了我们的主要发现。

4.1. 实验设置

数据集。我们对多种视觉任务进行了深入的研究，包括通用对象分类、细粒度识别、动作识别和纹理识别。我们对八个数据集OxfordPets[25]、Food101[2]、DTD[4]、UCF101[35]、Flowers102[24]、fgvcaircraft[22]、Caltech101[7]和ImageNet[30]进行了实验分析。由于提示调优的主要好处之一是它的数据效率[12]，我们将研究重点放在一个16张照片的图像分类问题上，即对于每个数据集，我们为每个类选择16张图像作为我们的训练集。为了检验噪声对提示调优的影响，我们用不同水平的噪声率(12.5%，25%和50%)随机扰动训练标签。除非另有说明，否则从数据集的其他类别中均匀随机抽取噪声标签。我们报告了在所有实验中使用不同训练集的四次运行的平均结果。

Backbone。我们采用预训练的CLIP模型，即使用63M参数文本转换器[37]作为文本编码器，使用ResNet-50[9]或ViT-b /32[5]作为视觉编码器。根据CoOp[50]，我们在所有类别共享的每个提示中使用16个可学习令牌.

优化。使用随机梯度下降(SGD)，动量为0.9，初始学习率为0.002，使用余弦衰减计划退火为零，批量大小为32，训练50个epoch.

4.2. 提示调优对噪声标签具有鲁棒性

图2:将广义交叉熵(GCE)[47]损失与最初使用交叉熵训练的Prompt Tuning和Linear Probe方法相结合，可以增强其噪声鲁棒性。在高噪声率下，GCE的提示调谐在四个数据集上的表现明显优于其他方法。

本文的核心观察是，提示调谐视觉语言模型，如CLIP，对噪声标签具有惊人的鲁棒性。这可以通过比较CLIP与两种传统迁移学习方法的提示调谐来观察:1)在CLIP的视觉表示(表示CLIP linear Probe)上训练线性分类器;和2)微调在ImageNet上预训练的相同视觉主干。在DTD和UCF101两个数据集上的结果分别如图1 (a)和(b)所示。可以看出，尽管线性探针和微调在完全标记数据(0%噪声率)下实现了具有竞争力的性能，但在25%和50%的高噪声率下，这两种方法的准确性都会显著下降。这个结果表明，与其他选择相比，提示调谐自然更能抵抗噪声标签。然而，我们表明，通过使用鲁棒广义交叉熵损失(图1中称为CLIP提示调谐(GCE))来训练提示，可以进一步增强其鲁棒性。可以看到，当将提示调谐和GCE结合起来时，模型的性能仍然具有很强的竞争力，即使噪声率高达50%。此外，我们观察到这种鲁棒性源于提示调谐和GCE的结合，而不是单独来自GCE。这可以从图2中看到，它描述了在四个数据集上的交叉熵和GCE损失下训练的提示调谐和线性探针的噪声鲁棒性。虽然线性探针的鲁棒性也随着GCE损失而提高，但通过提示调谐学习时，在高噪声率下的性能下降明显更小。

既然我们已经建立了提示调谐的噪声鲁棒性，本节的其余部分将致力于提供直觉和实验分析来回答为什么这个问题。

问题:为什么像clip这样的视觉语言模型的提示调谐比传统的针对噪声标签的迁移学习更健壮?

4.3. 鲁棒性归因

图3:研究图像和文本编码器对提示调优和提示设计的影响的不同结构示意图。红色突出显示的块将被训练，而灰色突出显示的块将被冻结。

为了回答这个问题，我们首先单独分析CLIP的两个关键组件，即生成的类嵌入和可学习提示

预训练的CLIP生成有效的类嵌入。我们首先分析由CLIP文本编码器生成的类嵌入的影响。为此，除了通过提示调谐生成的类嵌入外，我们还评估了三种不同模型的噪声鲁棒性:

Classifier-R在CLIP预训练的视觉编码器的输出上训练一个线性探针。类嵌入(即分类器权重)是随机初始化的，并且在没有约束的情况下学习。参见图3 (a)。

Classifier-C与Classifier-R相似，但是分类器权重是使用从CLIP的预训练文本编码器获得的文本嵌入来初始化的，用于手工制作提示符。注意，Classifier-C仅使用CLIP文本编码器初始化其权重。参见图3 (b)。

TEnc-FT通过eq.(1)的后验将正确类的图像嵌入 f v f^v fv 与CLIP文本嵌入 f t f^t ft 相关联，从而训练CLIP分类器。

在本例中，整个CLIP文本编码器在““A photo of a ”形式的手工提示符上进行微调。参见图3 ©。

表1:不同变量在增量噪声率下的传输性能比较。

表1比较了不同标签噪声水平下四个数据集上的各种模型。具有CLIP初始化的线性分类器(Classifier-C)在所有噪声级别上都优于随机初始化。这表明CLIP类嵌入为小样本学习提供了强大的初始化。此外，尽管两种分类器在高噪声比下都会严重退化，但CLIP初始化对噪声的鲁棒性也更强。对于TEnc-FT，它在零噪声率下取得了具有竞争力的性能，但随着噪声率的增加，其准确率也显著下降。这突出了(毫不奇怪)，高表现力的CLIP文本编码器可以很容易地过拟合噪声标签。最后，在所有噪声率下，提示调谐优于所有替代策略。对于高噪音水平，提示调谐的优势尤其大。这些观察结果证实:(a)文本编码器对于提供文本嵌入的强大但信息丰富的正则化以对抗噪声输入(Prompt Tuning vs .s.classifiers)至关重要。分类器);(b)文本编码器应该固定以防止过拟合(提示调谐vs . TEnc-FT)。

提示的有效性。先前的实验表明，CLIP预训练文本编码器生成的类嵌入对噪声鲁棒性起着至关重要的作用。接下来，我们保持文本编码器固定不变，并尝试回答另一个问题:提示符的哪些组件为提示调优提供噪声鲁棒性?

我们假设classname令牌 w c w_c wc 为模型提供了强大的正则化，因为文本编码器利用它来编码不同视觉概念之间的关系(例如，类彼此之间的相似或不同程度)。尊重这一结构有助于模型在训练过程中避免拟合有噪声的数据。为了验证我们的假设，我们评估了另外两个模型的噪声鲁棒性:

Full Prompt Tuning与原始可学习令牌一起学习classname令牌(参见图3 (e))。

CLS Tuning 采用固定的模板提示符“a photo of a ”，只优化classname令牌(见图3(f))。

表2:不同提示设计在增加噪音率下的传递性能比较。

表2显示了对不同噪声水平的四个数据集的分析。与仅优化所有类共享的可学习令牌的prompt-tuning模型相比，CLSTuning和Full-Prompt-Tuning模型都在高噪声率下挣扎。即使训练数据是干净的，学习类名令牌在四个数据集中的两个(OxfordPets和Food101)上也会产生更差的性能。此分析验证了我们的假设，即固定的classname令牌确实是提示调优的关键正则化。可学习的类名标记可以安装到训练数据，干扰类嵌入并导致更差的性能。

4.4. 提示调谐抑制噪声梯度

前一节提供了与其他替代方案相比，提示调优框架的健壮性的明确证据。这些发现表明，通过只学习共享的提示令牌，提示调优可以更好地关注干净的样本而不是有噪声的样本。换句话说，提示调优可以抑制来自噪声样本的梯度更新，同时聚合来自干净样本的梯度。为了验证这一假设，我们使用50%的噪声率测量CLIP提示调谐和线性探测的可学习参数的梯度。具体来说，我们测量了由噪声样本和干净样本引起的梯度范数之比。比值大于1表明有噪声样本比干净样本在优化中的作用更大。

图4:我们通过评估两种方法的噪声-清洁梯度范数比(噪声梯度率)来评估两种方法抑制噪声梯度的能力。这个比率是通过对可学习参数取梯度的L2范数来确定的，我们通过在每个训练时期向模型提供64个干净样本和64个有噪声样本来计算。

具体来说，我们在噪声率为50%的数据上训练模型。在4个数据集上的实验结果表明，与Linear Probe相比，Prompt Tuning实现了更低的噪声梯度率，表明其具有更好的抑制噪声梯度的能力。

4.5. 跨模型体系结构的泛化

前几节主要介绍了四个数据集(OxfordPets、Food101、DTD和UCF101)和一个ResNet-50图像编码器。我们现在展示了这些发现在模型架构和数据集之间的推广。

图5:不同上下文长度的提示调谐噪声鲁棒性研究。Ctx- x x x表示具有 x x x 个可学习标记的模型。

上下文的长度。我们首先评估随着可学习标记数量的增加，提示调谐的噪声鲁棒性。我们还通过直接将类名输入模型(表示为Ctx-0)来评估没有任何可学习标记的基线。图5显示了最佳上下文长度依赖于数据集，但与传统的线性探测相比，所有上下文长度都具有更好的性能。Ctx-0在50%的大噪声率下优于一些提示调优变体，这表明当下游任务上的标签噪声太强时，固定提示可能是一个不错的选择。

表3:使用ResNet50或ViTB /32作为图像编码器在8个数据集上的提示调谐(PT)的噪声鲁棒性。

图像编码器。为了验证提示调谐的噪声鲁棒性是否与主干无关，我们还评估了CLIP用vitb /32进行提示调谐(记ViT-B /32- pt)。表3显示了与RN50-PT的比较。ViT-B/32-PT在大多数设置下优于RN50-PT。此外，这两种方法都不会遭受大的性能下降，并在高噪声率下保持具有竞争力的准确性。

4.6. 对相关标签噪声的鲁棒性

到目前为止，我们假设有白色标签噪声(即从标签空间中均匀抽取有噪声的标签)。然而，由人类注释者或机器生成的伪标签产生的标签噪声通常显示相似视觉概念之间的相关性。例如，UPL[12]观察到，在零样本转移过程中，预训练的CLIP更喜欢某些类别。受这一观察结果的启发，我们研究了CLIP固有偏好在面对CLIP生成的标签噪声时是否会影响提示调优的性能。

图6:使用随机提示令牌对100次运行中的零样本性能进行平均生成的混淆矩阵

表4:50%噪声率下随机和混淆标签噪声对线性探测和提示调谐策略的影响。

我们首先在OxfordPets和UCF101数据集上使用随机初始化的可学习标记来测量CLIP零样本预测的混淆矩阵(见图6)。接下来，我们引入一种具有挑战性的标签噪声类型，称为混淆噪声，其中每个错误标记的样本都被标记为最受零样本CLIP青睐的错误类别。最后，我们研究了在50%噪声率下随机噪声和混淆噪声下的提示调谐的传输性能。表4给出了四个数据集的结果。可以看出，与随机噪声相比，混淆噪声对迁移学习提出了更大的挑战，导致高噪声比下的分类精度下降更大。这种退化对于提示调优和线性探头都是可见的。然而，在这两种方法中，提示调谐仍然可以获得最佳的整体性能，这进一步证明了它的鲁棒性，即使是对更具挑战性的噪声类型。

5. 应用于无监督的提示调谐

先前的工作UPL[12]表明，无监督的提示调谐可以优于基于CLIP的零样本迁移的传输性能。然而，UPL并没有充分利用提示调谐的噪声鲁棒性。

图7:无监督提示调优的管道。它包括两个主要阶段:伪标记和提示调优。首先，我们通过使用带有模板提示的CLIP为目标数据集生成伪标签。接下来，我们从伪标签中随机选择每个类的样本进行后续训练。最后，我们使用选择的伪标记样本来优化可学习的提示表示。

Baseline UPL。UPL[12]提出了一个框架，使CLIP适应下游没有任何标记图像的任务。该框架的概述如图7所示。该框架分为两个阶段。在阶段1中，UPL利用预训练的CLIP为未标记的图像生成伪标签。然后，在阶段2中，选择一组K个伪标签，通过典型的提示调优优化过程(CoOp[51]中描述)来优化可学习令牌。为了提高训练样例的质量，UPL根据它们的置信度得分(Eq. 1)对所有伪标记图像进行排序，并在每个类中选择K个最具置信度的样本。此外，受CLIP中的提示集成的启发[28]，UPL通过集成由具有不同可学习提示的模型生成的多个预测来提高迁移性能。

实验设置。我们使用与第4节相同的训练设置进行无监督提示调优实验。伪标签由CLIP零样本迁移与ResNet50图像编码器生成。我们遵循CLIP使用的提示工程。有三种类型的手工制作提示，在补充材料中列出了更多详细信息。K在所有实验中都被设置为16。在推理阶段，我们采用UPL[47]的集成平均方法，结合四个不同模型的输出来生成预测。每个模型都有一个独特的可学习提示，用一个唯一的随机种子初始化。

表5:CLIP零样本分类与三种无监督提示调优策略的比较:UPL[12]，以及我们使用交叉熵和广义交叉熵损失训练的鲁棒UPL框架。

实验结果。我们比较了UPL[12]和提出的鲁棒UPL在一系列不同的视觉任务上的表现，包括通用对象分类、细粒度识别和纹理识别。我们还使用交叉熵(CE)和广义交叉熵(GCE)损失来评估鲁棒UPL。表5显示了所有三种无监督提示调优方法都可以提高迁移学习，而不需要额外的标记成本。在三种方法中，在GCE损失下训练的鲁棒UPL平均性能最好。我们再次强调，鲁棒UPL随机采样伪标记图像进行训练，而不是像UPL那样使用高置信度样本。因此，UPL训练伪标签的多样性较小，但噪声较小。例如，用于在Caltech上训练UPL的伪标签的正确率为93%，而用于训练Robust UPL的伪标签的正确率仅为83%。然而，这些错误并没有损害鲁棒UPL的最终性能;相反，从更多样化的集合中学习，同时对噪声具有鲁棒性，可以增强提示调谐。

6. 结论

在本文中，我们提供了一个全面的研究鲁棒性标记噪声的提示调谐大型视觉语言模型(即CLIP)。通过一系列实验，我们证明了提示调谐的噪声鲁棒性可以归因于CLIP预训练的文本编码器对类嵌入施加的结构。我们进一步证明，通过减少标签噪声引起的梯度，提示调优可以缓解对错误标记样本的过拟合。我们对不同的模型配置(如主干和上下文长度)进行了广泛的实验，获得了一致的结果和结论。最后，受我们研究结果的启发，我们提出了一种新的鲁棒的无监督提示调优方法，该方法支持多样性而不是正确的预测，以提高迁移性能。

参考资料

论文下载(ICCV 2023)

https://arxiv.org/abs/2307.11978

代码地址

https://github.com/CEWu/PTNL

标签：Prompt,Tuning,CLIP,提示,标签,噪声,调优,Language,鲁棒性
From： https://blog.csdn.net/weixin_50917576/article/details/142339652