首页 > 其他分享 >《FashionViL: Fashion-Focused Vision-and-Language Representation Learning》中文校对版

《FashionViL: Fashion-Focused Vision-and-Language Representation Learning》中文校对版

时间:2024-10-29 21:18:49浏览次数:3  
标签:模态 编码器 Fashion mathbf Language FashionViL 图像 时尚 文本

文章汉化系列目录


文章目录


摘要

 大规模视觉-语言(V+L)表示学习的预训练已被证明在提升各种下游V+L任务上非常有效。然而,在时尚领域,现有的V+L方法存在不足,因为它们忽略了时尚V+L数据和下游任务的独特特性。在本研究中,我们提出了一个专注于时尚的V+L表示学习框架,称为FashionViL。该框架包含两个专为时尚V+L数据设计的新颖预训练任务,以充分利用时尚数据的两个内在属性。首先,与其他领域的V+L数据点仅包含单一图文对相比,时尚领域可能包含多张图片。因此,我们提出了一项多视图对比学习任务,将一张图片的视觉表示与另一图文组合的多模态表示拉近。其次,时尚文本(如产品描述)通常包含丰富的细粒度概念(属性/名词短语)。为了利用这一点,引入了伪属性分类任务,以鼓励学习到的同一概念的单模态(视觉/文本)表示更接近。此外,时尚V+L任务独特地包括一些不符合常见单流或双流架构的任务(如文本引导的图像检索)。因此,我们提出了一个灵活多样的V+L模型架构,包含一个模态无关的Transformer,以便它可以灵活适应任何下游任务。大量实验表明,我们的FashionViL在五项下游任务中达到了最新的性能水平。代码可在https://github.com/BrandonHanx/mmf获取。

1 引言

 近年来,视觉-语言(V+L)预训练受到越来越多的关注【34,57,43,55,8,37,50,31,33,66】。其目标是通过大规模图文对来学习多模态表示,以改进各种下游的单模态或多模态任务。这些模型被证明非常有效,主要得益于两个因素:(i)网络上有大量的图文对,提供了丰富的免费训练数据(无需额外标注),(ii)基于Transformer的模型架构被广泛用于学习多模态输入的上下文表示。
 在本研究中,我们聚焦于时尚领域,对于该领域,V+L预训练似乎特别适用。首先,时尚V+L数据不仅数量丰富,而且质量很高。在线时尚购物日益普及;在电子商务网站上,每个产品详情页(PDP)都包含高质量的产品图片和文本(通常由领域专家生成)。其次,时尚领域的下游任务比其他领域更多样化,在实际应用中涵盖了从多模态产品理解【38,44】、跨模态检索【18】到文本引导的图像检索【67】的各类任务。然而,当这些方法应用于时尚领域时,我们发现现有的最先进V+L预训练方法【18,79】的效果不如其他领域(参见第4节)。我们认为,这可能是因为它们并未设计用于充分利用时尚V+L数据和下游任务的一些独特特性。
 具体而言,在大多数现有的通用领域V+L数据集(例如,COCO【39】和Flickr30k【48】)中,每个数据点通常是单一的图文对,且文本通常较简短(例如图1中的图像标题)。相比之下,时尚数据集主要收集自电子商务网站的产品详情页(PDP),因此具有两个特殊性:(i)通常一个文本关联不止一张图片。图1中的示例展示了‘maxi连衣裙’的三个不同视角,使在线购物者能够从不同角度查看该连衣裙。(ii)文本描述中包含了更多细粒度的概念,因为文本本身就是产品描述。如图1所示,时尚文本更专注于服装本身,使用非常详细的形容词和名词,描述其标题、风格和外观。为验证这一点的统计真实性,我们计算了四个合并的时尚数据集【52,23,70,60】和两个合并的通用数据集【48,39】中的词汇比例。我们发现,时尚描述中的单词有82%为形容词或名词,而在通用描述中这一比例仅为59%。现有的V+L模型均无法利用时尚数据的这些特性。
在这里插入图片描述

图1. 左侧和右侧分别是来自时尚数据集FACAD【70】和Flickr30k【48】的示例。可以看出,时尚数据通常包含来自不同角度的多张图片,并附有结构化的标题和包含多个细粒度属性的描述(用颜色突出显示)。

 时尚领域的下游任务比通用领域更加多样化,这对V+L预训练模型架构设计提出了挑战。具体来说,在通用V+L领域,现有模型通常分为单流或双流架构,取决于预期的下游任务。例如,单流模型【34,55,8,31,28】在图像和文本标记的连接上操作,适合多模态融合任务,如VQA【2】、VCR【73】和RefCOCO【72】。相反,双流模型【43,57,29,50,56】通常专为高效的跨模态检索任务设计(单流模型也可以应用,但它需要遍历每对查询和图库项,导致在大规模应用中检索速度不可接受。)。然而,在时尚领域,除了图文融合和跨模态检索下游任务外,还存在一些任务,单流或双流架构均不适用。例如,文本引导的图像检索任务【62,67,21】不仅需要高质量的参考图像和修改文本的融合,还需要在融合的多模态表示和候选图像之间实现高效匹配。由于时尚下游任务的多样性,现有的单流或双流模型都缺乏所需的灵活性和多功能性。
 为了克服现有模型在时尚领域的局限性,我们引入了一个新颖的时尚专用V+L表示学习框架,称为FashionViL。提出了两个专为时尚数据设计的预训练任务,以充分利用时尚数据的特性。第一个任务是多视图对比学习(Multi-View Contrastive Learning,MVC)。给定一个具有多张图像/视角和一个文本描述的时尚数据项,我们假设每种模态(无论是单模态还是多模态)在语义上应该彼此相似,因为它们都指向同一个产品。因此,除了常见的图文匹配外,我们还建议最小化以下两者之间的距离:(a)其视角之一和文本的多模态表示,和(b)其他视角。第二个任务是伪属性分类(Pseudo-Attributes Classification,PAC),旨在利用描述中的丰富细粒度时尚概念。具体而言,我们从时尚数据集中提取常见属性/名词短语,并构建一个伪属性集。模型在预训练期间学习明确预测这些属性。PAC鼓励具有相同属性的时尚项聚集在一起,从而使学习到的表示更加具备区分性。我们表明(见第4.3节),这些新的预训练任务对图文对比学习(ITC)和掩码语言建模(MLM)等常规预训练任务是有效且互补的。
 此外,我们设计了一个灵活且多功能的模型架构,使预训练模型能够轻松适应多种下游任务。该新设计保持了单流模型的优越融合能力和双流模型的可扩展性。尤其是,它还适应了时尚领域的特定任务,如文本引导的图像检索和服装搭配推荐。具体而言,我们的模型由一个图像编码器和一个模态无关的Transformer模块组成,该模块既可以用作文本编码器,也可以用作多模态融合编码器。因此,它可以轻松地微调以适应三种不同的下游应用场景:(i)早期融合的单流模式,用于联合表示学习,例如多模态分类;(ii)晚期融合的双流模式,用于单模态表示学习,例如跨模态检索;(iii)早期融合的双流架构,用于组合表示学习,例如文本引导的图像检索。
 总之,我们的贡献如下:(1)提出了一个专为时尚领域设计的新颖V+L预训练框架,可通过两个新的V+L预训练任务利用时尚数据的特性。(2)引入了灵活的架构设计,具有共享的文本编码器和融合编码器,可轻松适应多种时尚下游任务。(3)为了展示FashionViL的泛化能力,我们在五项时尚V+L任务上评估了我们的模型:图像到文本的检索、文本到图像的检索【52】、文本引导的图像检索【67】、(子)类别识别【52】和服装搭配推荐【60】。实验结果表明,FashionViL在所有下游任务中均达到了新的最先进水平(SOTA),并在性能上实现了稳定且显著的提升。据我们所知,这是首个能够同时解决五种不同时尚任务的工作。

2 相关工作

随着Transformer的出现【61】及其在自然语言处理(NLP)【10】和计算机视觉(CV)【13】领域的成功,大规模的V+L预训练在通用领域取得了巨大的成功【34,8,33,50】。最近一些研究开始聚焦于包括时尚在内的电子商务领域【18,79,78,11,76】。现有研究主要在两个方面有所不同:架构设计和预训练任务。
模型架构。所有V+L预训练方法都使用图像和文本的嵌入序列作为输入,通过CNN或Transformer架构建模跨模态(以及可选的模态内)交互,并输出上下文化的特征序列【6】。在架构设计上有许多选择,包括单流早期融合【34,55,8,37】与双流晚期融合【57,43,29,50,17】,或不同的视觉特征(例如,基于检测的区域【75】、ConvNet补丁【28】、线性投影【31,69】)。在许多情况下,设计由预期的下游任务驱动(例如,VQA需要早期融合以增强联合表示,而跨模态检索则需要晚期融合以加快推理速度)。也有一些研究致力于通过检索和重排序策略【56,19】或知识蒸馏【65,41】来缩小不同架构之间的差距。与此不同的是,受最新模态无关模型进展的启发【1,71,64,63,35】,我们引入了一个可以轻松在单流和双流模式之间切换的统一架构,因此无需为不同的下游任务修改架构。
预训练任务。已有多种任务被提出用于V+L预训练。掩码语言模型(MLM)和图文匹配(ITM)是BERT目标的直接对应【10,34】。掩码图像建模(MIM)是MLM在视觉模态上的扩展,包括掩码区域分类【43,55】和掩码区域特征回归【8】等多种变体。其他一些任务也被证明有效,如预测对象标签【37,27】、顺序标题生成【77,66】以及图文对比学习【33,50,36】。然而,这些任务均无法利用时尚数据的两个特殊性。为此,我们在本研究中提出了两个专为时尚领域设计的预训练任务。

3 方法论

3.1 模型概述

 FashionViL的模型架构如图2(a)所示,由图像编码器(IE)和一个可用作文本编码器(TE)和融合编码器(FE)的Transformer模块组成。具体来说,我们的图像编码器使用ConvNet作为骨干网络,将原始像素通过网格化处理最终特征图的网格特征,转换为一系列视觉嵌入。对于文本编码器,我们遵循BERT【10】的做法,将输入句子分词为WordPieces【68】。每个子词标记的嵌入通过其词嵌入和可学习的位置嵌入相加得到,并进行层归一化(LN)【3】。
在这里插入图片描述

图2. 所提出的FashionViL模型架构概述,包括图像编码器、文本编码器和融合编码器。文本编码器和融合编码器共享相同的参数。我们采用六个预训练任务来学习不同的表示。

 模型设计的一大创新在于TE(文本编码器)和FE(融合编码器)共享同一个Transformer模块,这使我们能够灵活地构建多种多模态模型架构,适用于不同类型的下游任务。例如,图2(b)展示了一种早期融合模型架构,其中原始句子和计算得到的图像嵌入共同输入到多模态融合编码器中。需要注意的是,当我们将Transformer用作融合编码器时,还会将模态嵌入添加到视觉嵌入和词嵌入中,以帮助模型区分模态类型。该架构与许多先前预训练工作中的单流模型完全相同【34,8,18】。接着在图2©中,我们展示了一种晚期融合的双流模型架构,其中共享的Transformer用作文本编码器。图像编码器和文本编码器的输出通过简单的点积进行交互,以计算两个模态之间的相似性。该架构已被广泛用于高效的大规模跨模态检索【56,19】。此外,我们还可以将共享的Transformer微调为更复杂的双流架构变体,如图2(d)所示。在这里,一条流采用早期融合方式,另一条流作为图像编码器。这一架构适用于一些以多模态查询为主的时尚领域检索任务,例如文本引导的图像检索【62,67】。需要注意的是,在上述三种架构中,FE和TE实际上都是相同的Transformer,唯一的区别在于其输入内容。
 给定一个图文对,我们将其原始视觉输入表示为 v i = { v 1 i , … , v K i } v_i = \{v_1^i, \dots, v_K^i\} vi​={v1i​,…,vKi​},将其输入的单词表示为 w i = { w cls i , w 1 i , … , w T i } w_i = \{w_{\text{cls}}^i, w_1^i, \dots, w_T^i\} wi​={wclsi​,w1i​,…,wTi​},其中下标 i i i 表示数据集中的第 i i i 个对。在文本序列的开头插入一个特殊的 [ CLS ] [\text{CLS}] [CLS] 标记,当模态连接时也会在多模态序列中插入该标记。在将模型应用于下游任务时,我们遵循常见的预训练 + 微调流程。

3.2 预训练任务

我们首先介绍两个新的预训练任务,随后是我们框架中采用的其他常规预训练任务。

多视图对比学习(MVC)。如图1所示,每个时尚项目通常关联多个视角,以提供对产品的全面概述。为了利用不同视角之间的相互信息,我们建议建立以下关联:(a)原始视角 v v v 的视觉表示,和(b)另一个视角 d d d 与文本 w w w 的组合表示。在产品只有一个视角的情况下,我们通过随机裁剪或水平翻转该视角来增强另一个视角。如图2(d)所示,原始视角的视觉表示由图像编码器提取,而组合表示则通过早期融合方式计算。因此,多模态输入 [ w ; d ] [w; d] [w;d] 与 v v v 之间的相似性可以计算为:
s ( [ w i ; d i ] , v j ) = g θ ( d i a v g ∣ w i ) T g θ ( v j a v g ) (1) s\left ([\mathbf {w}_{i};\mathbf {d}_{i}], \mathbf {v}_{j}\right )=g_{\theta }\left (\mathbf {d}_{i}^{\mathrm {avg}}|\mathbf {w}_{i}\right )^{T} g_{\theta }\left (\mathbf {v}_{j}^{\mathrm {avg}}\right )\tag{1} s([wi​;di​],vj​)=gθ​(diavg​∣wi​)Tgθ​(vjavg​)(1)

其中, g g g 表示一个线性变换,将平均池化的特征投影到归一化的低维潜在空间。接下来,我们应用两个对称的 InfoNCE 损失【46】来在共享的潜在空间中拉近匹配的组合表示和视觉表示:

L I n f o N C E ( x , y ) = − E ( x , y ) ∼ B log ⁡ exp ⁡ ( s ( x , y ) / τ ) ∑ y ^ ∈ B ^ exp ⁡ ( s ( x , y ^ ) / τ ) , (2) \mathcal {L}_{\mathrm {InfoNCE}}(x, y)=-\mathbb {E}_{(x, y) \sim B} \log \frac {\exp (s(x, y) / \tau )}{\sum _{\hat {y} \in \hat {B}} \exp (s(x, \hat {y}) / \tau )}, \tag{2} LInfoNCE​(x,y)=−E(x,y)∼B​log∑y^​∈B^​exp(s(x,y^​)/τ)exp(s(x,y)/τ)​,(2)

L M V C = 1 2 [ L I n f o N C E ( [ w ; d ] , v ) + L I n f o N C E ( v , [ w ; d ] ) ] , (3) \mathcal {L}_{\mathrm {MVC}} = \frac {1}{2} \left [\mathcal {L}_{\mathrm {InfoNCE}}([\mathbf {w};\mathbf {d}], \mathbf {v}) + \mathcal {L}_{\mathrm {InfoNCE}}(\mathbf {v}, [\mathbf {w};\mathbf {d}])\right ], \tag{3} LMVC​=21​[LInfoNCE​([w;d],v)+LInfoNCE​(v,[w;d])],(3)

其中, τ \tau τ 是一个可学习的温度参数, B ^ \hat{B} B^ 包含正样本 y y y 和从小批量 B B B 中抽取的 ∣ B ^ ∣ − 1 |\hat{B}| - 1 ∣B^∣−1 个负样本。

伪属性分类(PAC)。如第1节所述,我们发现时尚描述中包含大量细粒度的属性。我们建议从所有可用的文本信息(包括标题、描述和元信息)中挖掘伪属性概念。具体来说,我们通过NLTK标注器【5】提取所有名词和形容词,仅保留出现次数超过100次的词汇,从而得到2,232个属性。图3显示了排名前50的伪属性的直方图。可以看到,这些属性都高度相关于时尚领域。
在这里插入图片描述

前50个伪属性的直方图

 接下来,我们探讨如何利用这些挖掘出的概念。我们的目标是让模型在预训练阶段能够显式地识别这些伪属性。我们将此任务建模为一个多标签分类问题,称为伪属性分类(PseudoAttribute Classification,PAC)。如图2©所示,我们将PAC应用于视觉和文本模态,以便两个编码器都能学习捕捉这些细粒度概念。由于这是一个弱监督学习设置,我们利用标签平滑技术【25】来生成标签,因为挖掘出的标签可能存在噪声。我们用 A A A 表示整个2,232个伪属性集合,用 a a a 表示每个类别的平滑软目标。例如,如果某个样本在位置0和1有两个真实标签,则 a 0 = a 1 = 0.5 a_0 = a_1 = 0.5 a0​=a1​=0.5,而 a i = 0 a_i = 0 ai​=0( i ≠ 0 , 1 i \neq 0, 1 i=0,1)。我们的目标函数如下:

L P A C = − E ( w , v ) ∼ D E a ∼ A [ a log ⁡ P θ ( a ∣ w ) + a log ⁡ P θ ( a ∣ v ) ] , (4) \mathcal {L}_{\mathrm {PAC}}=-\mathbb {E}_{(\mathbf {w}, \mathbf {v}) \sim D} \mathbb {E}_{a \sim A} \left [a \log P_{\theta }\left (a|\mathbf {w}\right ) + a \log P_{\theta }\left (a|\mathbf {v}\right )\right ], \tag{4} LPAC​=−E(w,v)∼D​Ea∼A​[alogPθ​(a∣w)+alogPθ​(a∣v)],(4)

其中, θ \theta θ 为可学习参数, ( w , v ) (\mathbf {w}, \mathbf {v}) (w,v) 为从整个训练集 D D D 中采样的每一对数据。
掩码补丁特征分类(MPFC)。尽管简单的掩码特征回归在V+L预训练中被证明无效【31,14】,我们通过实验发现我们版本的掩码补丁建模在时尚领域有效。具体来说,我们忽略了每个掩码补丁的特征重建,而是通过离线图像标记器预测补丁标签。为此,我们首先在收集的时尚图像上使用离散变分自编码器(VAE)【59,51,15】作为图像标记器,并采用感知损失【12】。我们还使用指数移动平均(EMA)来更新码本,这被证明有助于提高代码字的利用率【59,12】。我们通过块级掩码策略随机将25%的补丁特征替换为零【4】。现在每个补丁都有离散标签,模型可以通过优化以下公式来预测剩余补丁 v \ m \mathbf{v}_{\backslash \mathbf{m}} v\m​ 给定的每个掩码补丁 v m t \mathbf{v}^t_m vmt​ 的标签:

L M P F C = − E ( w , v ) ∼ D log ⁡ P θ ( v m t ∣ v \ m , w ) , (5) \mathcal {L}_{\mathrm {MPFC}}=-\mathbb {E}_{(\mathbf {w}, \mathbf {v}) \sim D} \log P_{\theta }\left (\mathbf {v^t_m}|\mathbf {v}_{\backslash \mathbf {m}}, \mathbf {w}\right ), \tag{5} LMPFC​=−E(w,v)∼D​logPθ​(vmt​∣v\m​,w),(5)

其中, v m t \mathbf {v^t_m} vmt​ 是被掩码补丁的目标标签估计值。
图文对比学习(ITC)。我们还使用ITC来使两个单模态表示在潜在空间中更加接近。如图2©所示, w w w 和 v v v 的相似性通过它们的平均池化特征在投影到潜在空间后的点积来衡量,其中包含两个线性变换 f f f 和 g g g:

s ( w i , v j ) = f θ ( w avg i ) T g θ ( v avg j ) . s (w_i, v_j) = f_{\theta} \left (w_{\text{avg}}^i \right )^T g_{\theta} \left (v_{\text{avg}}^j \right ). s(wi​,vj​)=fθ​(wavgi​)Tgθ​(vavgj​).

ITC 损失为:

L I T C = 1 2 [ L I n f o N C E ( w , v ) + L I n f o N C E ( v , w ) ] . (6) \mathcal {L}_{\mathrm {ITC}} = \frac {1}{2} \left [\mathcal {L}_{\mathrm {InfoNCE}}(\mathbf {w}, \mathbf {v}) + \mathcal {L}_{\mathrm {InfoNCE}}(\mathbf {v}, \mathbf {w})\right ]. \tag{6} LITC​=21​[LInfoNCE​(w,v)+LInfoNCE​(v,w)].(6)

掩码语言模型(MLM)。在MLM中,我们以15%的概率随机掩码输入单词,并将属于掩码单词 w m w_m wm​ 的所有子词替换为特殊标记 [ MASK ] [\text{MASK}] [MASK]。MLM的目标是在观察到其周围单词 w \ m w_{\backslash m} w\m​ 和所有图像补丁 v v v 的情况下,预测这些掩码子词,方法是最小化负对数似然:

L M L M = − E ( w , v ) ∼ D log ⁡ P θ ( w m ∣ w \ m , v ) . (7) \mathcal {L}_{\mathrm {MLM}}=-\mathbb {E}_{(\mathbf {w}, \mathbf {v}) \sim D} \log P_{\theta }\left (\mathbf {w}_{\mathbf {m}}|\mathbf {w}_{\backslash \mathbf {m}}, \mathbf {v}\right ). \tag{7} LMLM​=−E(w,v)∼D​logPθ​(wm​∣w\m​,v).(7)

图文匹配(ITM)。在ITM中,输入是图文对,目标是一个二元标签 z ∈ { 0 , 1 } z \in \{0, 1\} z∈{0,1},指示每个输入对是否匹配。参考【33】,我们从通过ITC计算的相似性矩阵 s ( w i , v j ) s (w_i, v_j) s(wi​,vj​) 中采样难负对,并构建一个包含50%负对的小批量 H H H。我们提取最后一层中 [ CLS ] [\text{CLS}] [CLS] 的隐藏输出,表示两个模态的联合表示,然后将其输入到全连接层进行二分类。我们对ITM应用交叉熵损失:

L I T M = − E ( w , v ) ∼ H log ⁡ P θ ( z ∣ w , v ) . (8) \mathcal {L}_{\mathrm {ITM}}=-\mathbb {E}_{(\mathbf {w}, \mathbf {v}) \sim H} \log P_{\theta }\left (z|\mathbf {w}, \mathbf {v}\right ). \tag{8} LITM​=−E(w,v)∼H​logPθ​(z∣w,v).(8)

4 实验*

在本节中,我们介绍我们的预训练数据集和五个实际的下游任务。我们使用MMF【54】和PyTorch【47】进行实现。对于图像编码器,我们使用了现成的ResNet50【24】以便与大多数同样采用ResNet50的先前方法进行公平比较。对于文本编码器和多模态融合编码器(使用共享的Transformer),我们使用BERT-base-uncased【55】作为初始化。预训练使用了4块RTX 3090 GPU。超参数的详细信息列在补充文件中。

4.1 预训练数据集和下游任务

预训练数据集。我们的预训练数据集由四个公开的时尚相关数据集组成,即FashionGen【52】、FACAD【70】、Fashion200K【23】和PolyvoreOutfits【60】。这些数据集共提供了373.5K个时尚产品用于预训练。因为每个产品可能包含从不同角度拍摄的多张图片,我们总共拥有约135万个图文对。详细统计见表1。
在这里插入图片描述

跨模态检索
图像到文本检索(ITR) 是一种跨模态检索任务。给定一个图像查询,我们的模型从一个大型候选池中找到最匹配的文本。先前的时尚领域预训练工作【18,79】使用 [ CLS ] [\text{CLS}] [CLS] 标记的联合表示来预测匹配分数,这在单流早期融合模型中导致每个查询项与所有图库项之间的穷尽匹配,时间复杂度非常高【56,65,41,74,19】。虽然我们的一些模型架构(如图2(b))也能实现此操作,但我们选择使用图2©中的双流晚期融合模型,通过计算余弦相似性实现更高效的检索【29,50】。

文本到图像检索(TIR) 是ITR的逆问题,其中查询模态和图库模态互换。TIR的架构与ITR相同。

文本引导的图像检索(TGIR)。TGIR是一种特殊的图像检索问题,其查询是一个多模态组合【20,62,67,21】。具体而言,给定一个查询图像和一个修改后的句子,模型需要检索出另一个图像,其外观与查询图像相似,但根据查询文本在某些方面有所变化。这项任务在时尚领域有很多实际应用,例如根据用户的参考服装和反馈检索其他服装。为了处理多模态查询的独特性,过去提出了一些有趣的融合方法,例如门控机制【62,53】、分层注意力【7】和样式-内容修改【32】。在本研究中,我们遵循【42】的方法,简单地应用早期融合模型来编码查询图像和修改文本的组合表示,如图2(d)所示。

类别/子类别识别(CR/SCR)。类别或子类别是描述产品的重要属性。(S)CR要求模型生成可靠的联合表示。我们遵循先前的工作【18,79】,在 [ CLS ] [\text{CLS}] [CLS] 标记之上直接附加一个线性层,以预测这些任务的标签。
搭配补充项检索(OCIR)。OCIR旨在为给定的几件物品找到视觉上兼容的单品,以完成一套服装。这是一个非常实用的任务,因为人们通常会选择与之前选定或购买的服装相搭配的物品。OCIR可以为在线零售商提供有用的推荐功能【40,26】。为解决此任务,我们将CSA Net【40】的骨干替换为FashionViL的预训练图像编码器。需要注意的是,与上述所有多模态/跨模态任务不同,此下游任务仅使用预训练的图像编码器。我们利用该任务来评估图像编码器在所提出的多模态预训练下的表现。

4.2 比较结果

跨模态检索。我们在FashionGen【52】测试集(不包含在预训练中)上评估跨模态检索任务,包括ITR和TIR。表2比较了之前的V+L预训练方法与我们的FashionViL的性能。由于先前的工作【18,79】采用单流架构,只能在较小的检索集上进行评估。例如,对于TIR,模型在给定文本查询的情况下需要从仅101张图像中选出最佳匹配【10】。检索的召回率(超过1K的检索)作为评估指标。ITR使用相同的设置。为了公平比较,我们严格遵循相同的评估协议,报告1K检索的召回率【11】。在表2中,我们将FashionViL及其两个变体与现有方法进行了比较,特别地,“-e2e"和”-pt"分别表示不使用端到端训练(图像编码器固定)和不使用多模态预训练的模型。我们得出以下观察结果:

  1. 即使固定图像编码器且未进行预训练,FashionViL已达到与现有方法相当的结果。这表明,对于这种细粒度的跨模态检索,晚期融合的性能可以与早期融合一样有效。

  2. 当我们解冻图像编码器进行端到端训练时,R@1从21.13跃升至58.84,表明端到端训练效率极高,多余的预处理可能是多余的。

  3. 当进一步利用我们提出的多模态预训练时,模型在表2最后一列中取得了SOTA性能,R@1是之前SOTA的两倍以上。需要注意的是,我们为该任务设计的模型架构是双流模型,这意味着它可以应用于大规模检索,而不同于比较的基线方法。

在这里插入图片描述

表2. FashionGen【52】上的跨模态检索结果,使用了KaleidoBERT【79】的评估协议
-e2e:没有端到端训练,即图像编码器是固定的。
-pt:直接进行微调,而不进行多模态预训练。

因此,我们额外在完整测试集(32K图文对)上报告了评估结果,即每个查询项与完整测试集中的每个图库项进行比较。结果见表3。我们鼓励未来的研究也遵循这种完整的评估协议,以便更全面地衡量性能。
在这里插入图片描述
文本引导的图像检索。在TGIR任务中,我们将FashionViL与之前的V+L预训练方法和任务特定方法在FashionIQ【67】上进行了比较【12】。结果如表4所示。为了更全面的比较,我们采用了先前方法使用的两种不同实现,即使用固定图像编码器进行训练【42】或进行端到端训练【62,7,32】。
在这里插入图片描述
 我们首先报告固定ResNet 152下的结果,从第1列到第4列(C1-C4)。CIRR采用OSCAR【37】作为融合模块,并使用全局图像特征作为输入。我们发现,无论是否使用多模态预训练,FashionViL的表现都比CIRR高出10%到20%(C1对比C3,C2对比C4)。这一改进表明,补丁级特征在组合多模态融合中优于全局特征。在我们的预训练下,性能从31.78提升到34.19(C3对比C4),表明我们的预训练在现成的固定图像编码器上也能取得良好效果。
 接着,我们报告端到端训练模式下的结果(C5-C10)。我们发现,仅将GRU替换为BERT(C5对比C8)就带来了4%的相对增益(从23.65提升到27.17),表明使用更高质量的文本编码器的重要性。此外,所有先前的工作都通过精心设计的融合模块(如TIRG【62】)在图像嵌入和修改后的文本嵌入之间应用晚期交互。我们认为更早的模态融合会为查询目的提供更好的组合嵌入。比较C9和C8可以发现,我们的FashionViL在没有预训练的情况下已优于TIRG+BERT,这表明我们的模型学到的查询多模态嵌入更佳。值得注意的是,我们的文本编码器和融合编码器是共享的,因此FashionViL相比TIRG+BERT节省了更多的训练参数。在预训练的帮助下,FashionViL实现了新的SOTA结果,相对增益进一步提高了11.2%(C9对比C10)。
类别/子类别识别。按照KaleidoBERT【79】的设置,我们在FashionGen数据集【52】上评估了CR和SCR。使用图2(b)中的模型架构的联合表示来预测分类分数。结果如表5所示。再次验证了端到端学习和专为时尚设计的预训练任务帮助FashionViL在性能上显著超越了两个先前的工作,分别提升了10.4%和3.2%。此外,我们还模拟了一个新任务——多图像子类别识别(M-SCR),用于评估FashionViL在多个输入图像下的表现。更多结果请参见补充文件。
在这里插入图片描述

搭配补充项检索(OCIR)。除了上述的多模态和实例级下游任务外,我们还在单模态的搭配级任务OCIR上测试了FashionViL。我们在Polyvore Outfits【60】的Disjoint分集上将我们的模型与之前的任务特定方法【40,26】进行了比较【13】。如表6所示,即使仅微调图像编码器,我们的多模态预训练也使性能提升了21.0%。
在这里插入图片描述

4.3 消融研究

 我们通过对上述五个下游任务的消融研究,分析了不同预训练任务和共享TE/FE策略的有效性。完整结果列于表7中。除了每个基准的标准指标外,我们还使用Meta-sum(所有基准的分数总和)作为全局指标。
在这里插入图片描述

表7. 使用ITR、TIR、TGIR、SCR和OCIR作为下游任务对预训练任务的评估。每个数字代表某一特定下游任务所有指标的平均值。Meta-sum表示每行中所有数字的总和。表中三种灰色阴影分别表示在共享TE和FE时的前三个结果。

 首先,我们在第0行(L0)建立了一个没有任何多模态预训练的基线,即图像/文本编码器初始化为现成的ResNet50或BERT,这些模型分别在仅视觉或仅语言的领域中进行了预训练。

 其次,我们验证了每个预训练任务的单独有效性,即每次仅选择一个任务进行预训练。MPFC、MLM、PAC、MVC和ITC的结果分别显示在L2、L4、L5、L6和L7。由表7可见,所有这些预训练任务都能提高下游任务的性能。然而,我们发现,某些预训练任务对类似类型的下游任务更为有益。例如,MPFC(L2)和MLM(L4)主要集中在建模跨模态交互,因此对SCR的提升更大,而对ITR和TIR的贡献相对较小。相比之下,ITC(L7)与ITR和TIR的目标一致,显著提升了跨模态的性能。对于TGIR,它不仅需要高质量的组合表示,还需要高质量的单模态表示,因此五个预训练任务对其均有正向影响。

 接着,我们验证了PAC(L5)和MVC(L6)的有效性。对于PAC,我们进行了对比实验:仅对预定义的伪属性词进行MLM(L3)。L3和L5的主要区别在于多标签监督是否作用于每个被掩码的文本标记或全局表示。L3的性能远低于L5,表明伪属性的全局表示监督是更优的选择。有趣的是,L3的结果与L4相当,其中所有单词(包括非伪属性词)也可以被掩码。这意味着仅掩码细粒度单词与均匀掩码所有单词效果相当,暗示最重要的文本线索在于这些细粒度概念词。我们随后验证了MVC的优越性。为此,我们添加了不利用多角度图像的消融实验(L1),即用原始图像的增强版本替代采样的不同角度图像。比较L1和L6,我们确认MVC的改进主要来自不同角度图像的对比学习。

 接下来,我们研究了不同任务组合的影响。当我们将MLM和MPFC加入ITC(L8)时,Meta-sum得到提升,但ITR和TIR的性能略有下降。这符合预期,因为不同任务可能为相同参数提供不同的更新方向,导致某些任务影响其他任务的效果。然而,通过引入更多任务可以在很大程度上缓解任务间的微小冲突。正如L9所示,通过加入ITM,整体性能进一步提升。当我们将MVC也加入其中(L10)时,效果进一步改善。当所有六个任务联合训练(L11)时,我们在所有基准上观察到显著的性能提升。值得注意的是,MVC和PAC这两个专为时尚设计的新任务在实现SOTA性能中发挥了最重要的作用。

 最后,我们展示了共享TE和FE的优越性。我们实现了一个与L11相同预训练任务的对比模型(L12),但使用了独立的TE和FE。打破参数共享后,性能明显下降。这表明我们的模态无关共享策略不仅减少了参数数量,而且性能显著更佳。

4.4 可视化

我们在图4中通过t-SNE【45】可视化了图像编码器、文本编码器和融合编码器的表示。具体而言,我们将FashionGen测试集中的所有图文对输入到模型中。使用不同颜色可视化了最受欢迎的10个类别。我们比较了没有多模态预训练(使用ResNet+BERT初始化)的模型和完整6个预训练任务的模型的t-SNE图。我们发现,当增加更多预训练任务时,聚类变得更加区分明显,这表明FashionViL能够学习到更细粒度的概念。更多内容请见补充文件。
在这里插入图片描述

5 结论

我们介绍了FashionViL,这是一个新颖的端到端大规模预训练框架,专用于时尚领域的V+L表示学习。我们提出了两种有效的时尚专用预训练任务,并引入了一种新颖的模态无关文本/融合编码器,以实现灵活多样的多模态架构。我们的FashionViL在五个热门时尚相关任务中实现了新的SOTA性能,并具有卓越的效率。

标签:模态,编码器,Fashion,mathbf,Language,FashionViL,图像,时尚,文本
From: https://blog.csdn.net/buyaotutou/article/details/143267312

相关文章

  • 【论文笔记】C$^2$RL: Content and Context Representation Learning for Gloss-free
    ......
  • RBE104TC C/C++ Programming Language
    RBE104TCC/C++ProgrammingLanguageAssignment2ContributiontotheOverallMarks70%IssueDateSubmissionDeadline3rdNovember2024AssignmentOverview:ThisassignmentisgearedtowardsassessingfundamentalcodingconceptsinC/C++andinitiatingthe......
  • A Survey of Multimodal Large Language Model from A Data-centric Perspective
    本文是LLM系列文章,针对《ASurveyofMultimodalLargeLanguageModelfromAData-centricPerspective》的翻译。以数据为中心的多模态大型语言模型综述摘要1引言2背景和分类3数据收集和处理4以数据为中心的预训练5以数据为中心的自适应6评估7未来方......
  • A Survey of Generative Search and Recommendation in the Era of Large Language Mo
    本文是LLM系列文章,针对《ASurveyofGenerativeSearchandRecommendationintheEraofLargeLanguageModels》的翻译。大型语言模型时代的生成式搜索与推荐综述摘要1引言2传统范式3用于搜索和推荐的生成式范式4生成式搜索5生成式推荐6讨论7结论......
  • SubPT+NFL:Understanding and Mitigating Overfitting in Prompt Tuning for Vision-La
    当前提示学习的问题(a)Top:在CoOp和CoCoOp的训练过程中,基类的测试准确率先提高后下降。(b)底部:新类别的测试精度不断下降,远低于零样本CLIP。为什么CoOp会过度拟合根据第4-A节给出的观察结果,我们从早期和后期训练阶段({......
  • 论文翻译 | Bounding the Capabilities of Large Language Models in Open Text Gener
    摘要        开放式生成模型的局限性尚不清楚,但却越来越重要。是什么让他们成功,又是什么让他们失败?在本文中,我们采用了一种以提示为中心的方法来分析和限定开放式生成模型的能力。我们提出了两种具有挑战性的提示约束类型的通用分析方法:结构和风格。这些约束类型被归......
  • Grounded Language-Image Pre-training
    论文《GLIP:GroundedLanguage-ImagePre-Training》提出了一种新的基于语言和图像的预训练模型,旨在学习语义丰富、语言感知的视觉表示。其核心思想是统一对象检测和短语定位两种任务,从而提升模型在视觉和语言理解任务上的表现。以下是这篇论文的主要内容总结:任务介绍传......
  • 论文翻译 | Scalable Prompt Generation for Semi-supervised Learning with Language
    摘要         基于提示的学习方法在半监督学习(SSL)设置中已被文献证明在多个自然语言理解(NLU)数据集和任务上有效。然而,手动设计多个提示和表述词需要领域知识和人力投入,这使得在不同数据集上扩展变得困难且昂贵。在本文中,我们提出了两种方法来自动设计多个提示,并在......
  • MYSQL-SQL-01-DDL(Data Definition Language,数据定义语言)
    DDL(数据定义语言)DDL(DataDefinitionLanguage),数据定义语言,用来定义数据库对象(数据库,表,字段)。一、数据库操作1、查询mysql数据库管理系统的所有数据库语法:showdatabases;示例:2、查询当前所在的数据库语法:selectdatabase();示例:3、创建数据库语法:([]括号......
  • STAR: A Simple Training-free Approach for Recommendations using Large Language M
    目录概符号说明STARRetrievalRanking最后的结果LeeD.,KraftA.,JinL.,MehtaN.,XuT.,HongL.,ChiE.H.andYiX.STAR:Asimpletraining-freeapproachforrecommendationsusinglargelanguagemodels.2024.概本文提出了一种融合语义/协同/时序信息的方法,......