首页 > 其他分享 >【论文精读】VIT:vision transformer论文

【论文精读】VIT:vision transformer论文

时间:2024-03-23 23:29:51浏览次数:25  
标签:Transformer 精读 论文 transformer patch 768 ViT 图像

相关文章

【论文精读】Transformer:Attention Is All You Need

文章目录


一、文章概览

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
一张图像相当于 16X16 个单词:大规模图像识别的transformer

(一)研究背景

  • Transformer 架构已成为nlp任务事实上的标准(BERT、T5、GPT3),但是用transformer做cv较少
  • 视觉领域的注意力要么与卷积网络结合使用,要么就是替换卷积网络的某些组件,但是整体结构不变

(二)核心思路

  • 将图像分割为patch,将这些patch的线性嵌入序列作为 Transformer 的输入。这个时候图片就变成了图片块,图片块可以类比于nlp任务中的单词。
  • 训练方式:有监督的训练

nlp中transformer采用的无监督方式

(三)相关工作

ViT和其它 self-attention in CV 的工作不同: ViT除了将图片转成 16 * 16 patches + 位置编码 之外,没有额外引入图像特有的归纳偏置,因此不需要对 vision 领域的了解,直接把图片理解成 a sequence of patches。

(三)文章结论

  1. 当在中型大小的数据集上,比如ImageNet进行训练时,如果不加比较强的约束,ViT模型和同等大小的残差网络相比会弱一些。这个结果是可以预计到的:Transformer 与CNN相比,会少一些inductive biases 归纳偏置。

inductive biases 归纳偏置:先验知识 or 提前的假设

  • 卷积神经网络中常说的 inductive biases :
    • locality:假设图片上相邻的区域会有相邻的特征
    • translation equaivariance平移等变性: f ( g ( x ) ) = g ( f ( x ) ) f (g(x)) = g( f(x) ) f(g(x))=g(f(x)),也就是说 f f f 和 g g g 函数的顺序不影响结果。
  • CNN 有 locality 和 translation equivariance 归纳偏置,因此CNN 有 很多先验信息,进而可以利用较少的数据去学好一个模型。
  • Transformer 没有这些先验信息,只能 从图片数据里,自己学习对 视觉世界 的感知。
  1. 当以足够的规模进行预训练并转移到数据点较少的任务时,ViT能够取得优异的结果。当在公共 ImageNet-21k 数据集或内部 JFT-300M 数据集上进行预训练时,ViT 在多个图像识别基准上接近或击败了最先进的技术。特别是,最佳模型在 ImageNet 上达到 88.55% 的准确率,在 ImageNet-ReaL 上达到 90.72%,在 CIFAR-100 上达到 94.55%,在 19 个任务的 VTAB 套件上达到 77.63%。

二、模型细节

(一)组成模块

在模型设计上,ViT 尽可能使用了最原始的Transformer,大体由三个模块组成:

  • Linear Projection of Flattened Patches(Embedding层)
  • Transformer Encoder(图右侧有给出更加详细的结构)
  • MLP Head(最终用于分类的层结构)

在这里插入图片描述

(二)模型的大体流程

  • 给定一张图片输入,先将图片划分成patch,然后将其转换为序列
  • 每个patch会通过一个线性投射层得到一个特征
  • 为了确保图片的位置信息得到保留,因此需要加上一个位置编码
  • 将处理后的token输入transformer的encoder当中,将其中的class token经过一个mlp模块得到最终的分类

(三)具体的模型的前向过程

  1. 输入图像为224×224×3,将其切割成16*16的patches,就会得到196个图像块,每一个图像块的维度是16×16×3=768

此时图片就从原先的224x224x3转变成了196个维度为768的patch

在这里插入图片描述

  1. 将这些patch输入到线性投射层(一个维度为768x768的全连接层,第一个768依据图像的patch得到,是不变的,第二个768可以发生改变,如果transformer变得更大了,它也可以相应的变得更大),因此线性投射的输出为196x768的矩阵

此时有196个token,每个token向量的维度为768

在这里插入图片描述

  1. 此时可以将vision的问题转变成NLP的问题了,输入就是一系列1d的token,而不再是一张2d的图片了。在图片本身的token基础上,回家一个额外的cls token(维度为768),所以整体进入transformer的序列长度为197x768

图像的位置编码信息是直接加到token上去的,不是拼接,因此不会改变序列的维度,序列还是197x768

  1. 输入序列先经过一个layer norm,维度不变,依然是197x768;在多头注意力机制里,总共包括k、q、v三份,每一份都是197×768;再过一层layer norm,还是197×768;然后再过一层MLP,这里会把维度先对应地放大,一般是放大4倍,所以就是197×3072,然后再缩小投射回去,再变成197×768,就输出了。

多头自注意力中的维度其实并不是768,假设现在使用的是VIsion Transformer的base版本,即多头使用了12个头,那么最后的维度就变成了768/12=64,也就是说这里的k、q、v变成了197×64,但是有12个头,有12个对应的k、q、v做自注意力操作,最后再将12个头的输出直接拼接起来,这样64拼接出来之后又变成了768,所以多头自注意力出来的结果经过拼接还是197×768

在这里插入图片描述

综上就是一个Transformer block的前向传播的过程,进去之前是197×768,出来还是197×768,这个序列的长度和每个token对应的维度大小都是一样的,所以就可以在一个Transformer block上不停地往上叠加Transformer block,最后有L层Transformer block的模型就构成了Transformer encoder。

(四)transformer encoder的公式表达

在这里插入图片描述

  • X p X_p Xp​是图像块的patch,共有n个patch,即 X p 1 X_p^1 Xp1​到 X p N X_p^N XpN​
  • E E E是线性投影的全连接层,通过线性投影得到了patch embedding
  • 在patch embedding前边拼接一个class embedding,即 X c l a s s X_{class} Xclass​,然后加上位置编码信息 E p o s E_{pos} Epos​
  • 每个transformer block中包含一个多头自注意力MSA和MLP,做这两个操作前需要经过layer norm,操作完成后进行一次残差连接
  • 第 l l l个transformer block出来的结果即为 Z l Z_l Zl​
  • L L L层循环解释后将最后一层输出的第一个位置也就是class token对应的输出( Z L 0 Z_L^0 ZL0​)作为整体图像的特征去完成分类任务。

(五)消融实验

1、关于图像分类编码方式的消融实验

在做图像分类的任务时,模型可以通过全局平均池化得到一个全局特征然后去做分类,也可以用一个class token去做。文章中所有的实验都是用class token去做的,主要的目的是跟原始的Transformer尽可能地保持一致,作者就是想证明,一个标准的Transformer照样可以做视觉。
在这里插入图片描述

  • 绿线表示全局平均池化
  • 蓝线表示class token
  • 可以发现到最后绿线和蓝线的效果是差不多的,但是作者指出绿线和蓝线所使用的学习率(lr, Learning rate)是不一样的,如果直接将蓝线的学习率拿过来使用得到的效果可能如橙线所示,也就是说需要进行好好调参。

2、关于位置编码的消融实验

  • 1d:NLP中常用的位置编码,也就是本文使用的位置编码(把一个图片打成九宫格,用的是1到9的数来表示图像块)
  • 2d:使用11、12、13、21等来表示图像块,这样就跟视觉问题更加贴近,因为它有了整体的结构信息。具体的做法就是,原有的1d的位置编码的维度是d,现在因为横坐标、纵坐标都需要去表示,横坐标有D/2的维度,纵坐标也有D/2的维度,就是说分别有一个D/2的向量去表述横坐标和纵坐标,最后将这两个D/2的向量拼接到一起就又得到了一个长度为D的向量,把这个向量叫做2d的位置编码
  • relative positional embedding(相对位置编码):在1d的位置编码中,两个patch之间的距离既可以用绝对的距离来表示,又可以用它们之间的相对距离来表示(文中所提到的offset),这样也可以认为是一种表示图像块之间位置信息的方式

在这里插入图片描述最后的结果显示三种表示方法的效果差不多。

三、实验

(一)模型的变体

一共有三种模型,参数如下图所示。由于transformer的序列长度其实是跟patch size成反比的,因为patch size越小,切成的块就越多,patch size越大,切成的块就越少,所以当模型用了更小的patch size的时候计算起来就会更贵,因为序列长度增加了。
在这里插入图片描述

(二)分类精度结果对比

将几个ViT的变体和卷积神经网络(BiT和Noisy Student)进行对比,结果如下表所示。
在这里插入图片描述

(三)数据集的大小对ViT的影响

  • 左侧的图像表示:在小数据集上进行预训练时,大型ViT模型的表现要比BiTResNets 差,但在较大数据集上进行预训练时,ViT更好。随着数据集的增长,较大的ViT变体会取代较小的ViT变体。
  • 右侧的图像表示:ResNets在较小的预训练数据集上表现更好,但ViT在较大的预训练数据集上表现更好。

在这里插入图片描述

(四)BiT、ViT、Hybrids模型集的比较

在相同的计算开销下,ViT的性能一般优于ResNet。对于较小的模型尺寸,混合Transformer比纯Transformer有所改善,而对于较大的模型尺寸,纯Transformer比混合Transformer有所改善。

左图的average-5就是他在五个数据集(ImageNet real、pets、flowers、CIFAR-10、CIFAR-100)上做了evaluation,然后把这个数字平均了

在这里插入图片描述

(五)vit的内部表征

  • vision transformer的第一层(linear projection layer,E)提取出的头28个主成分,其实vision transformer学到了跟卷积神经网络很像,都是这种看起来像gabor filter,有颜色和纹理,所以作者说这些成分是可以当作基函数的,也就是说,它们可以用来描述每一个图像块的底层的结构
  • 学到的位置编码是可以表示一些距离信息的,同时它还学习到了一些行和列的规则,每一个图像块都是同行同列的相似性更高,也就意味着虽然它是一个1d的位置编码,但是它已经学到了2d图像的距离概念,这也可以解释为什么在换成2d的位置编码以后,并没有得到效果上的提升,是因为1d已经够用了
  • 随着网络越来越深,所有注意力头的注意距离增加,网络学到的特征也会变得越来越高级,越来越具有语义信息;大概在网络的后半部分,模型的自注意力的距离已经非常远了,也就是说它已经学到了带有语义性的概念,而不是靠邻近的像素点去进行判断。

在这里插入图片描述

参考:
ViT论文逐段精读【论文精读】
《Vision Transformer (ViT)》论文精度,并解析ViT模型结构以及代码实现
ViT(Vision Transformer)全文精读

标签:Transformer,精读,论文,transformer,patch,768,ViT,图像
From: https://blog.csdn.net/weixin_47748259/article/details/136963041

相关文章

  • # 自动驾驶感知新范式——BEV感知经典论文总结和对比(一)
    自动驾驶感知新范式——BEV感知经典论文总结和对比(一)博主之前的博客大多围绕自动驾驶视觉感知中的视觉深度估计(depthestimation)展开,包括单目针孔、单目鱼眼、环视针孔、环视鱼眼等,目标是只依赖于视觉环视摄像头,在车身周围产生伪激光雷达点云(Pseudolidar),可以模拟激光雷达的测距......
  • 【发疯毕设日志day7】hagrid_dataset_512数据集作者论文原文逐句翻译——大疆tello手
    论文原文::::2206.08219.pdf(arxiv.org)https://arxiv.org/pdf/2206.08219.pdf摘要     本文介绍了一个庞大的手势识别数据集——海格(HAndGestrueRecognitionImagedataset),以简历一个手势识别(HGR)系统,专注于与设备的交互管理。这就是为什么所选的18个手势都呗赋予......
  • 基于springboot+vue的毕业论文管理系统
    博主主页:猫头鹰源码博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万+、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作​主要内容:毕业设计(Javaweb项目|小程序|Python|HTML|数据可视化|SSM|SpringBoot|Vue|Jsp|......
  • Fast-R-CNN论文笔记
    目标检测之FastR-CNN论文精讲,FastRCNN_哔哩哔哩_bilibili一引言1.1R-CNN和SPPNet缺点......
  • Java毕业设计-基于SSM框架的在线课堂系统项目实战(附源码+论文)
    大家好!我是岛上程序猿,感谢您阅读本文,欢迎一键三连哦。......
  • 毕业设计:基于SSM的电影购票系统(源码+论文)
    本项目以SSM框架为开发技术,实现了一个电影购票系统。电影购票系统的主要使用者分为管理员;首页、个人中心、用户管理、电影类型管理、放映厅管理、正在上映管理、即将上映管理、系统管理、订单管理,用户前台;首页、正在上映、即将上映、电影资讯、个人中心、后台管理、客服等功能......
  • AI金融预测领域综述文章筛选,附论文及代码链接,2021年版
    21年的综述最近读了3篇,总结笔记如下:(2021)SystematicLiteratureReview:StockPricePredictionUsingMachineLearningandDeepLearning评价:原文不值得看,精华是下面那4篇论文。但这篇综述的写法比较典型,都是先描述问题,搜解决策略(按关键字搜、按数据源搜比如某个领域的期刊),......
  • 值得精读的2篇综述论文:混合模型——AI金融预测的发展现状及未来趋势
    22年的综述最近读了3篇,总结笔记如下:本期所有论文链接:2022综述https://www.alipan.com/s/Y7YnnXjM3nn点击链接保存,或者复制本段内容,打开「阿里云盘」APP,无需下载极速在线查看,视频原画倍速播放。(2022)DecisionFusionforStockMarketPrediction:ASystematicReview 评价:原......
  • 机器学习金融预测领域2023部分综述论文阅读记录
    23年的综述最近读了3篇,总结笔记如下:本期所有论文链接:2023综述https://www.alipan.com/s/ySur3StxKip点击链接保存,或者复制本段内容,打开「阿里云盘」APP,无需下载极速在线查看,视频原画倍速播放。(2023)A_Systematic_Survey_of_AI_Models_in_Financial_Mark评价:原文写的一般,可以......
  • 【附源码】JAVA计算机毕业设计音乐平台设计与实现(springboot+mysql+开题+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,互联网已经渗透到人们生活的方方面面,音乐作为人们日常生活的重要娱乐方式,其在线化、平台化的发展趋势日益明显。近年来,音乐平......