相关工作
单模态预训练。最近,无监督预训练语言模型,如GPT [30]、BERT [7]、XLNet [47]、MASS [37]、UniLM [8]和BART [19]在自然语言处理任务上取得了巨大成功。GPT [30]是早期的成功之一,它利用单向词语上下文来学习通用语言表示。BERT [7]通过掩码语言建模(MLM)和下一句预测(NSP)作为代理任务,实现了双向表示的学习。XLNet [47]通过引入广义自回归预训练机制改进了BERT。这些BERT类型的预训练模型仅支持通过一个编码器进行语言理解。最近的几项研究工作超越了传统的语言预训练,提出了编码器-解码器网络用于通过生成性代理任务进行语言生成(例如,MASS [37]中的掩码序列到序列学习,UniLM [8]中的序列到序列建模,以及BART [19]中的去噪序列到序列建模)。它们取得成功的关键在于使用Transformer [41]架构学习上下文表示和在大规模语料库上进行有效的预训练任务。在计算机视觉领域,自监督的视觉表示预训练取得了巨大进展,为图像分类、目标检测和语义分割等许多下游任务提供了便利。以往的方法主要集中在设计不同的预训练任务。其中最有前景的方向之一是对比学习 [27],它将一幅图像转换为多个视图,并最小化来自同一图像的视图之间的距离,同时最大化来自不同图像的视图之间的距离。代表性的方法包括SimCLR [4]、MoCo [12]、BYOL [11]。在音频和语音处理领域,预训练主要集中在情感识别 [24]、说话人识别 [32]、音素区分 [39, 27]、从一种语言转移到另一种语言的自动语音识别(ASR)表示转移 [17]、无监督表示学习和音频表示学习 [43]。
屏蔽音频建模(MAM)。对于屏蔽音频建模,我们以15%的概率屏蔽音频特征。然后,模型通过给定剩余的音频标记 A\m 和来自其他模态(即文本和图像)的所有信息,训练以重构被屏蔽的音频 Am。在这里,我们提出了两个 MAM 的目标,它们共享相同的目标基础。类似于 MVFR,第一个目标是屏蔽音频特征回归(MAFR),它最小化输入特征和屏蔽音频标记的输出之间的 L2 回归损失。我们采用对比学习方法来最大化屏蔽输出特征和原始特征之间的互信息(MI),而不是直接回归屏蔽音频特征的实际值。对于每个屏蔽音频标记的输出特征,我们选择其原始特征来构建正对,而将其他标记作为负样本。第二个目标定义如下,其中 sim(·, ·) 是余弦相似度,hθ(·) 包括跨模态编码器和与上述其他预训练任务相同的全连接(FC)层。
4.2. 模态级建模
为了赋予预训练模型生成能力,并进一步提升表示学习效果,论文提出了模态级建模任务,结合模态级屏蔽机制以重构整个模态。模态级建模任务包括文本重构和图像重构,具体描述如下。
模态级屏蔽。论文提出了模态级屏蔽机制,以学习三种模态之间的对齐,即文本、视觉和音频。模态级屏蔽与标记级屏蔽机制并行进行。它屏蔽掉输入中的一个或两个模态。具体而言,每个模态独立以0.3的概率被屏蔽,跳过同时屏蔽所有模态的情况。这带来了显著的好处,使得 OPT 能够处理单模态、双模态或三模态输入的不同下游任务。
去噪文本重构(DTR)。论文在跨模态编码器的顶部附加了一个基于 Transformer 的解码器 [41],学习重构输入文本。损失函数为 XX。
去噪图像重构(DIR)。论文还使用一个视觉解码器,赋予论文的 OPT 模型生成图像的能力。该解码器被训练用于学习重构输入图像。如图2所示,视觉解码器由 Transformer 解码器和 dVAE 解码器组成。Transformer 解码器生成一系列图像代码。论文通过自回归语言建模损失(与公式9中的方法相同)来学习良好的图像代码。第一阶段(参见第3.3节)的预训练 dVAE 解码器在 OPT 预训练期间保持冻结状态。损失函数如下:X。
4.3. 样本级建模
论文为三模态预训练设计了样本级建模任务。具体而言,对于每个样本(即文本-图像-音频三元组),论文随机替换一个或两个输入,用其他样本中的输入进行替换。模型需要预测哪些输入是匹配的。因此,论文有五种情况:(1)所有三个输入都匹配;(2)只有图像和音频匹配;(3)只有文本和图像匹配;(4)只有文本和音频匹配;(5)没有任何匹配,如图1所示(样本级建模任务)。论文提取 [CLS] 标记的输出表示作为文本-图像-音频三元组的联合表示,然后将其输入到一个全连接(FC)层和一个sigmoid函数中以预测得分。论文将输出得分表示为 sθ(T, I, A) ∈ R^5。损失函数为二元交叉熵(BCE)损失,其中 gt(T, V, A) 是真实标签的独热向量。