首页 > 其他分享 >OPT论文

OPT论文

时间:2023-05-10 10:56:31浏览次数:31  
标签:OPT 模态 音频 论文 建模 屏蔽 解码器 图像

 

相关工作

单模态预训练。最近,无监督预训练语言模型,如GPT [30]、BERT [7]、XLNet [47]、MASS [37]、UniLM [8]和BART [19]在自然语言处理任务上取得了巨大成功。GPT [30]是早期的成功之一,它利用单向词语上下文来学习通用语言表示。BERT [7]通过掩码语言建模(MLM)和下一句预测(NSP)作为代理任务,实现了双向表示的学习。XLNet [47]通过引入广义自回归预训练机制改进了BERT。这些BERT类型的预训练模型仅支持通过一个编码器进行语言理解。最近的几项研究工作超越了传统的语言预训练,提出了编码器-解码器网络用于通过生成性代理任务进行语言生成(例如,MASS [37]中的掩码序列到序列学习,UniLM [8]中的序列到序列建模,以及BART [19]中的去噪序列到序列建模)。它们取得成功的关键在于使用Transformer [41]架构学习上下文表示和在大规模语料库上进行有效的预训练任务。在计算机视觉领域,自监督的视觉表示预训练取得了巨大进展,为图像分类、目标检测和语义分割等许多下游任务提供了便利。以往的方法主要集中在设计不同的预训练任务。其中最有前景的方向之一是对比学习 [27],它将一幅图像转换为多个视图,并最小化来自同一图像的视图之间的距离,同时最大化来自不同图像的视图之间的距离。代表性的方法包括SimCLR [4]、MoCo [12]、BYOL [11]。在音频和语音处理领域,预训练主要集中在情感识别 [24]、说话人识别 [32]、音素区分 [39, 27]、从一种语言转移到另一种语言的自动语音识别(ASR)表示转移 [17]、无监督表示学习和音频表示学习 [43]。

屏蔽音频建模(MAM)。对于屏蔽音频建模,我们以15%的概率屏蔽音频特征。然后,模型通过给定剩余的音频标记 A\m 和来自其他模态(即文本和图像)的所有信息,训练以重构被屏蔽的音频 Am。在这里,我们提出了两个 MAM 的目标,它们共享相同的目标基础。类似于 MVFR,第一个目标是屏蔽音频特征回归(MAFR),它最小化输入特征和屏蔽音频标记的输出之间的 L2 回归损失。我们采用对比学习方法来最大化屏蔽输出特征和原始特征之间的互信息(MI),而不是直接回归屏蔽音频特征的实际值。对于每个屏蔽音频标记的输出特征,我们选择其原始特征来构建正对,而将其他标记作为负样本。第二个目标定义如下,其中 sim(·, ·) 是余弦相似度,hθ(·) 包括跨模态编码器和与上述其他预训练任务相同的全连接(FC)层。

4.2. 模态级建模
为了赋予预训练模型生成能力,并进一步提升表示学习效果,论文提出了模态级建模任务,结合模态级屏蔽机制以重构整个模态。模态级建模任务包括文本重构和图像重构,具体描述如下。

模态级屏蔽。论文提出了模态级屏蔽机制,以学习三种模态之间的对齐,即文本、视觉和音频。模态级屏蔽与标记级屏蔽机制并行进行。它屏蔽掉输入中的一个或两个模态。具体而言,每个模态独立以0.3的概率被屏蔽,跳过同时屏蔽所有模态的情况。这带来了显著的好处,使得 OPT 能够处理单模态、双模态或三模态输入的不同下游任务。

去噪文本重构(DTR)。论文在跨模态编码器的顶部附加了一个基于 Transformer 的解码器 [41],学习重构输入文本。损失函数为 XX。

去噪图像重构(DIR)。论文还使用一个视觉解码器,赋予论文的 OPT 模型生成图像的能力。该解码器被训练用于学习重构输入图像。如图2所示,视觉解码器由 Transformer 解码器和 dVAE 解码器组成。Transformer 解码器生成一系列图像代码。论文通过自回归语言建模损失(与公式9中的方法相同)来学习良好的图像代码。第一阶段(参见第3.3节)的预训练 dVAE 解码器在 OPT 预训练期间保持冻结状态。损失函数如下:X。

4.3. 样本级建模
论文为三模态预训练设计了样本级建模任务。具体而言,对于每个样本(即文本-图像-音频三元组),论文随机替换一个或两个输入,用其他样本中的输入进行替换。模型需要预测哪些输入是匹配的。因此,论文有五种情况:(1)所有三个输入都匹配;(2)只有图像和音频匹配;(3)只有文本和图像匹配;(4)只有文本和音频匹配;(5)没有任何匹配,如图1所示(样本级建模任务)。论文提取 [CLS] 标记的输出表示作为文本-图像-音频三元组的联合表示,然后将其输入到一个全连接(FC)层和一个sigmoid函数中以预测得分。论文将输出得分表示为 sθ(T, I, A) ∈ R^5。损失函数为二元交叉熵(BCE)损失,其中 gt(T, V, A) 是真实标签的独热向量。

标签:OPT,模态,音频,论文,建模,屏蔽,解码器,图像
From: https://www.cnblogs.com/3511rjzn/p/17387293.html

相关文章

  • TPM option
    TPM(TrustedPlatformModule)是一种硬件安全模块,用于提供安全密钥、数字证书和加密功能等安全服务,以保护计算机系统和数据的安全性。在BIOS中,TPM选项可以用来控制和配置TPM硬件模块的相关设置。具体来说,TPM选项可以用于以下方面:启用或禁用TPM:可以通过TPM选项来启用或禁用TPM硬......
  • 论文阅读笔记《Training Socially Engaging Robots Modeling Backchannel Behaviors w
    TrainingSociallyEngagingRobotsModelingBackchannelBehaviorswithBatchReinforcementLearning训练社交机器人:使用批量强化学习对反馈信号行为进行建模发表于TAC2022。HussainN,ErzinE,SezginTM,etal.TrainingSociallyEngagingRobots:ModelingBackc......
  • [重读经典论文]YOLOX
    参考博客:YOLOX网络结构详解参考视频:YOLOX网络结构详解亮点:网络检测头部分,改成解耦的结构,将类别分数、边界框回归参数和objectness分别预测,提高网络收敛速度。使用Anchorfree对目标进行预测。正负样本匹配策略SimOTA。(完)......
  • 【论文解读】(拼音+字形+字三种信息的中文BERT)ChineseBERT: Chinese Pretraining Enhan
    文章目录1.相关信息2.论文内容3.论文模型3.1GlyphEmbedding3.2PinyinEmbedding4.实验与结论5.模型使用方式1.相关信息论文年份:2021论文地址:https://aclanthology.org/2021.acl-long.161.pdf论文代码(官方):https://github.com/ShannonAI/ChineseBertHuggingFace:Shan......
  • 【论文笔记】MacBert:Revisiting Pre-trained Models for Chinese Natural Language Pr
    文章目录相关信息摘要(Abstract)1.介绍(Introduction)2.相关工作(RelatedWork)3.中文预训练模型(ChinesePre-trainedLanguageModels)3.1BERT-wwm&RoBERTa-wwm3.2MacBERT4.实验设置(ExperimentSetups)4.1SetupsforPre-TrainedLanguageModels4.2SetupsforFine-tuningTask......
  • 论文解读《Mixup for Node and Graph Classification》
    论文信息论文标题:MixupforNodeandGraphClassification论文作者:YiweiWang、WeiWang论文来源:WWW2021论文地址:download 论文代码:download视屏讲解:click1介绍 ......
  • 数学建模论文排版(公式自动排序)
    本文为学习清风数学建模排版的公式编号部分的笔记配套资料可以在微信公众号《数学建模学习交流》后台发送“论文排版”免费获取。步骤先插入一个“无边框“,“格式居中”表格如图(表格工具——布局——查看网格线),并随便在第一列输入公式,第二列输入(),并将光标放到括号里然后插入—......
  • 论文解读(ID-MixGCL)《ID-MixGCL: Identity Mixup for Graph Contrastive Learning》
    论文信息论文标题:ID-MixGCL:IdentityMixupforGraphContrastiveLearning论文作者:GehangZhang.....论文来源:2023aRxiv论文地址:download 论文代码:download视屏讲解:click介绍    ......
  • SAM:SegMent Anything万物分割论文解读
    SAM:SegMentAnything作者:elfin  资料来源:SAM论文论文:https://ai.facebook.com/research/publications/segment-anything/代码:https://github.com/facebookresearch/segment-anythingDatasets:https://segment-anything.com/dataset/index.htmlSAM目录:目......
  • Module build failed (from ./node_modules/css-loader/dist/cjs.js): TypeError: thi
    Modulebuildfailed(from./node_modules/css-loader/dist/cjs.js):TypeError:this.getOptionsisnotafunctionModulebuildfailed(from./node_modules/css-loader/dist/cjs.js):TypeError:this.getOptionsisnotafunction 用了各种办法,没有解决问题,直接把node_m......