FILIP: FINE-GRAINED INTERACTIVE LANGUAGEIMAGE PRE-TRAINING论文阅读笔记

时间：2023-01-10 22:14:29浏览次数：45

标签：PRE GRAINED TRAINING 模态 token 作者相似图像文本

摘要

目前的图像文本预训练模型通常通过每个模态全局特征的相似性来建模跨模态的交互，然而这会导致缺乏足够的信息；或者通过在视觉/文本token上使用跨模态注意力/自注意力来建模细粒度的交互，但这会降低训练/推理效率。因此作者提出了一种大规模细粒度的交互模型FILIP，通过跨模态交互实现更精细的对齐。同时作者还构建了一个大规模的图像-文本对数据集FILIP300M用于预训练。

方法

FINE-GRAINED CONTRASTIVE LEARNING

跨模态的对比学习想要的是同一个图像文本对经过image encoder得到的全局特征以及经过text encoder得到的特征在embedding space尽可能接近。

CLIP等方法使用编码后的视觉全局特征与文本特征计算相似度，忽略了细粒度的交互（例如word与patch的对齐）。为此作者提出了CROSS-MODAL LATE INTERACTION，设n1是第i张图像的token数，n2是第j个文本的token数，对于第k个视觉token，作者将其与全部n2个文本token计算相似度，并取值最大的一个作为token级别的相似度：

截屏2023-01-10 19.47.00

之后取这些相似度的均值作为当前图像与文本的相似度。文章公式比较繁琐，可以直接看图：

截屏2023-01-10 19.55.24

截屏2023-01-10 19.55.57

截屏2023-01-10 19.56.11

截屏2023-01-10 19.56.28

文本到图像的相似度也是通过类似方法进行计算。

为了提高训练效率，作者将embedding size减少到256，同时在最后两层使用半精度计算乘法，最后选择25%最相似的token进行计算。

PROMPT ENSEMBLE AND TEMPLATES

作者通过将token级别的相似度做平均从而集成不同的提示模版：

截屏2023-01-10 21.26.11

对于提示模版，由如下几部分组成：

截屏2023-01-10 21.26.44

IMAGE AND TEXT AUGMENTATION

为了得到更多的图像文本对，作者对数据进行了增广。方式是将文本翻译到新的语言再翻译回来，每个图像文本对的文本从三种语言的结果（源语言英语、俄语以及德语）随机采样。

PRE-TRAINING DATASET

这一节作者主要在讲提出的数据集FILIP300M。因为代码以及数据集没开源，所以实验结果看看就好～～

标签：PRE,GRAINED,TRAINING,模态,token,作者,相似,图像,文本
From： https://www.cnblogs.com/lipoicyclic/p/17041494.html

github vscode-markdown-preview-enhanced 自定义主题
ctrl+shift+p,MarkdownPreviewEnhanced:CustomizeCSS打开之后，把.markdown-preview-enhanced.markdown-preview给删掉https://github.com/shd101wyy/vscode-ma......
react-native启动时报错Could not determine the dependencies of task ':app:preDebu
报错如下：需要修改node_module中的@react-native-community/viewpager文件，如下：再次启动即可。......
vue3项目开源项目运行报错::v-deep usage as a combinator has been deprecated. Use
今天找了一个vue3.0开源项目，在运行的时候npmi报错使用了npmi--legacy-peer-deps根据以上安装依赖成功在运行的时候有报错::v-deepusageasacombinatorhasbeend......
第5章 MapReduce操作
目录5.1案例分析：单词计数1.设计思路2.程序源代码3.程序解读4.程序运行5.2案例分析：数据去重1.设计思路2.编写程序......
MapReduce核心概念及架构
MapReduce简介MapReduce常用于对大规模数据集（大于1TB）的并行运算，或对大数据进行加工、挖掘和优化等处理。MapReduce将并行计算过程高度抽象到了两个函数map和reduce中，程序员......
迁移学习（IIMT）——《Improve Unsupervised Domain Adaptation with Mixup Training》
论文信息论文标题：ImproveUnsupervisedDomainAdaptationwithMixupTraining论文作者：ShenYan,HuanSong,NanxiangLi,LincanZou,LiuRen论文来源：arxiv2020论文......
How to specify level of compression when using tar?
https://superuser.com/questions/305128/how-to-specify-level-of-compression-when-using-tar-zcvf$tarcv/path/to/directory|gzip--best>file.tar.gzWhenc......
mapreduce基础JOB操作
packagecagy.mapreduce.wordcount;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.m......
predixy安装
#predixy安装#下载predixy-1.0.5-bin-amd64-linux.tar.gz，这个是编译好的，下载就可以使用tar-xzvfpredixy-1.0.5-bin-amd64-linux.tar.gz-C/usr/localtar-xzvfpredixy-......
C++编译问题，解决arm下链接静态库，引起的relocation R_AARCH64_ADR_PREL_PG_HI21 agains
显示的完整错误如下：relocationR_AARCH64_ADR_PREL_PG_HI21againstsymbol`ZN2c43yml9free_implEPvmS1'whichmaybindexternallycannotbeusedwhenmakingasha......

FILIP: FINE-GRAINED INTERACTIVE LANGUAGEIMAGE PRE-TRAINING论文阅读笔记

摘要

方法

FINE-GRAINED CONTRASTIVE LEARNING

PROMPT ENSEMBLE AND TEMPLATES

IMAGE AND TEXT AUGMENTATION

PRE-TRAINING DATASET

相关文章

赞助商

阅读排行