首页 > 其他分享 >提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)

时间:2022-12-20 12:03:27浏览次数:47  
标签:何恺明 CLIP 训练 编码器 FLIP 3.7 MAE 图像

原创/文 BFT机器人

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_人工智能

研究论文地址:https://arxiv.org/abs/2212.00794


计算机视觉和深度学习领域大神何恺明携团队再发新作!论文围绕近来火热的CLIP(Contrastive Language-Image Pre-Training)模型展开研究,并提出了一种高效训练CLIP的图像处理新方法——FLIP(Fast Language-Image Pre-training)。

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_编码器_02

该方法在训练中对图像块进行大比例的随机Mask遮蔽,在有限的时间内从更多的image-text数据集中学习,并且在每次迭代对比更多样本的情况下,保持相似的内存占用率。何恺明团队在4亿对image-text的训练实验中,对训练准确度和训练速度进行了利弊权衡,FLIP无论是在准确性还是速度方面的表现均优于CLIP。在加速训练能力的推动下,何恺明团队还探索了扩展模型尺寸、数据集大小、训练周期,最终成果喜人。


方法示意

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_编码器_03

  • 图像遮蔽:论文中采用的是ViT作为图像编码器,图像首先被划分为一个不重叠的网格,参考MAE随机地遮蔽掉大比例的区块(比例为50%、75%),这种方法可以将训练时间复杂度相应降低为原来的一半,甚至四分之一,且减少内存占用。关于MAE的详解可参考何恺明另一篇论文《Masked Autoencoders Are Scalable Vision Learners》。
  • 文本遮蔽:同样的方法,还可以用于文本遮蔽上。当执行Mask时,研究人员仅对可见token进行编码处理,和BERT的处理机制不一样的是:采用Learned Mask Token进行替换。这种稀疏计算也能够在一定程度减少文本编码所需要的时长。但团队认为,因为文本编码器比较小,所带来的加速效果难以导致更好的均衡。
  • 训练目标:Image/Text编码器采用对比损失进行训练优化。但和MAE不同的是,本文中的FLIP重建被遮蔽的图像内容,同时丢弃了解码器,由此取得了进一步的加速。

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_Mask_04

MAE架构

  • 解除遮蔽:虽然编码器是在Masked图像上来实现预训练的,但是它仍然可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步降低因Mask而产生的分布差异,作者将Mask比例设为0并进行少量的连续预训练,这种处理方法可以使得训练时间和准确性达到良好的均衡。


训练过程

在训练的具体过程中,研究人员依据CLIP和OpenCLIP,做出了一些改变:

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_人工智能_05

CLIP架构

  • 图像编码器使用ViT,但在补丁嵌入后并未使用其余的图层规范,并且在图像编码的末端增添了GAP。
  • 论文运用Non-AutoRegressive Transformer编码,并使用WordPiece算法。
  • 将图像编码器与文本编码器的输出分别投射到相同的嵌入空间,再用LTP(Learnable Temperature Parameter)进行缩放,从而得到两者的Cosine相似度。


实验结果

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_基线_06

从最终的实验结果来看,当mask为75%的时候,FLIP同基线模型CLIP的性能达到一致,训练速度却是CLIP的3.7倍!换句话说,假设CLIP完成一个周期的训练需要花费2500TPU-days,而FLIP仅需700TUP-days。

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_编码器_07

消融实验结果对比

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_计算机视觉_08

ImageNet-1K分类数据集结果对比

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_基线_09

实验结果告诉我们,FLIP能够在准确性和训练时间之间实现有利的权衡。在对4亿图像-文本对的实验中,FLIP提高了no-masking基线的准确性和速度。在大量downstream任务上,FLIP的性能明显优于在相同数据上训练的CLIP工作。


结语

提速3.7倍!何恺明团队再发新作,更快更高效的FLIP模型:通过Masking扩展语言-图像预训练(附论文原文下载)_计算机视觉_10

据悉,何恺明已经连续三年CVPR达到最高引用量,论文内容均为研究监督学习领域,且都具备一个共同的特点,都是研究范式转换的一个节点,而不是固有研究范式中的新方法或新解释。既MoCo、SimSiam、MAE之后,这次的FLIP又会带来多大的影响力呢?


文章参考:

https://mp.weixin.qq.com/s/-vZvBDPjyv6CKRlQPSYehg

https://blog.csdn.net/xixiaoyaoww/article/details/128179973

论文原文pdf:请扫本公众号原文下方二维码


更多精彩内容请关注公众号:BFT机器人

(公众号后台回复“优惠活动”查看BFT机器人年终钜惠福利内容)


本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

标签:何恺明,CLIP,训练,编码器,FLIP,3.7,MAE,图像
From: https://blog.51cto.com/bftrobot/5954676

相关文章

  • python3.7登录脚本
    下面是登录脚本,最后获取token值test${headers}   CreateDictionary  Content-Type=application/json    User-Agent=Mozilla/5.0(WindowsNT10.0;......
  • python3.7.3基础语法
     1.注释1#单行注释这是单行注释2'''多行注释'''这是多行注释3"""多行注释"""这是多行注释 2.标识符 我们......
  • 搭建ZooKeeper3.7.0集群(传统方式&Docker方式)
    简介:搭建ZooKeeper3.7.0集群(传统方式&Docker方式)正文一、传统方式安装1、下载安装包https://dlcdn.apache.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bi......
  • lintcode: Flip Bits
    Determinethenumberofbitsrequiredtoflipifyouwanttoconvertintegerntointegerm.ExampleGivenn=31(11111),m=14(01110),return2.NoteBothn......
  • RabbitMQ 3.7.18安装延时插件rabbitmq-delayed-message-exchange后启动报错
    环境:安装请参考:https://blog.csdn.net/qq_37487520/article/details/126079651https://www.cnblogs.com/myifb/articles/16638251.html启用插件时,不用写插件版本号:r......
  • Zookeeper3.7.1安装教程
    首先到官网下载压缩包下载完成后上传到虚拟机然后解压到指定目录,我这里解压到/usr/localtar-zxvfapache-zookeeper-3.7.1-bin.tar.gz-C/usr/local/解压完成后......
  • python3.7安装mysqlclient失败问题
    问题直接使用pipinstall安装mysqlclient最新版本2.1.1失败了,提示“Failedbuildingwheelformysqlclient”解决步骤:换wheel方式安装,去pypi官网准备下载文件,突然发......
  • win7+Python3.7+Cython +pyinstaller 打包方法
    1.Cython安装(将py编译成pyd,避免反编译)、pyinstaller安装pipinstall cythonpipinstallpyinstaller 2.cython使用建立编译脚本#!/usr/bin/python#-*-coding:utf-......
  • linux安装zookeeper3.7.1
    下载zookeeper3.7.1mkdir/home/jeanerk/zookeepercd/home/jeanerk/zookeeperwget--no-check-certificatehttps://mirrors.bfsu.edu.cn/apache/zookeeper/zookeeper......
  • 短说正式版V3.7.4发布【新增悬赏问答、打赏、付费看帖、IP属地】
    Hi大家好,我是给你们带来惊喜的运营小番茄。本期更新为短说通用版的正式版V3.7.4版本,更新功能主要围绕基于V3.7版本的bug修复。V3.7版本的功能更新可查看此文章:功能BUG修复1.......