首页 > 其他分享 >pytorch(10.5) Transformer 用到视觉模块

pytorch(10.5) Transformer 用到视觉模块

时间:2023-10-23 17:56:17浏览次数:43  
标签:Transformer 10.5 14 16 768 token 像素 pytorch 224

ViT| Vision Transformer |理论 + 代码_哔哩哔哩_bilibili

 

 

 

1 不用卷积神经网络那些东西(CNN)了全部用Transforme 。

2 大规模数据训练,小规模数据应用。

3 效果相当 计算训练资源更少。

 

转换思想

224*224像素图像 - 单个像素(视为一个词token) -16*16个像素 图像块patches(作为一个token 减少计算量) - 变为1个token词-- 共14*14=196个词(token)  ---  送入TSFM网络 

 

 

 

1 图中 3*3 是示意图 实际位14*14个块,词

2 分类标签token添加,,可以额外学习的,然后加入位置编码

3 得到10个结果,图像分类任务,只需要取出class token词对应的输出。

4 搞一个全连接层(简单理解),得到分类结果。、

 

代码

 

步骤1 图像预处理 压缩操作

A 参数说明

1 图像尺寸 224*224

2 块大小 16*16

 

3 网格形状  grid_size   224/16=14个  (14,14)

4 网格总数 14*14=196个

B卷积层

只用来数据处理

卷积层  (3 个通道, 输出通道768个特征, 卷积核(16,16),扩展0,步幅(16,16))

(N-卷积核+2*扩展数目+步长)/步长

(16-16++16)/16=1 个

相当于 原来的16*16块变为一个像素,原有像素16*14*16*14=224*224个像素

原图 14*14个块  变为  14*14个像素=196个像素的 特征图

 最后展平

 

 

输入 

8个块 通道3 长宽224 224

结果  x  8个样本块 每个块14*14=196个像素  特征是人为i定义的768

 

 

 

步骤2 分类信息加入+位置编码

 

2-1获取步骤1中的图像编码结果 

原图变为

X[B批次, 14*14个像素, 768个特征(人为定义)]

2 -2 加入分类标签cls_token 

 

 

  cls_token  [1,1,768]  扩展为X尺度  [B, 1,768]

2-3 将X和标签拼接在一起

 

x=[cls_token  ,x] =[B,1,768] --[B,14*14=196,768]

x [B,197,768]

2-4 加上位置编码 可学习的

 

 

2-5 加入 随机丢失层

 

 

最后得到

 

2-7 送入TSFM层

 

 

 

 

标签:Transformer,10.5,14,16,768,token,像素,pytorch,224
From: https://www.cnblogs.com/gooutlook/p/17783010.html

相关文章

  • Transformer王者归来!无需修改任何模块,时序预测全面领先
    前言 最近,来自清华大学和蚂蚁集团的研究人员重新审视Transformer结构在时序分析中的应用,提出一个全新的反转视角——无需修改任何模块,即可实现Transformer在时序预测任务上的全面领先!本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉......
  • 《动手学深度学习 Pytorch版》 10.1 注意力提示
    10.1.1生物学中的注意力提示“美国心理学之父”威廉·詹姆斯提出的双组件(two-component)框架:非自主性提示:基于环境中物体的突出性和易见性自主性提示:受到了认知和意识的控制10.1.2查询、键和值注意力机制与全连接层或汇聚层区别开来的元素:是否包含自主性提示在......
  • ArcGIS 10.5「地图信息编辑和开发软件」中文汉化版下载附教程
    arcgis10.5汉化版是一款功能非常强大的地理信息系统软件,这款软件可以同时支持2D和3D两种不同的方式来浏览整个世界的数据,而且arcgis10.5免费版还能够适用于对地理位置、信息的编辑和管理等众多操作,通过这款软件我们就可以快速处理许多有关于地理信息的内容。软件地址:看置顶贴arcgis......
  • Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩
    前言 最近多模态大模型是真热闹啊。这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B。而且发布即开源,模型权重在HuggingFace上可以看到。本文转载自量子位仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结......
  • Transformer-based Encoder-Decoder Models
    整理原链接内容方便阅读https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Encoder_Decoder_Model.ipynbtitle:"Transformer-basedEncoder-DecoderModels"thumbnail:/blog/assets/05_encoder_decoder/thumbnail.pngauthors:user:p......
  • swin transformer v1.0环境配置训练(mmsegmentation/pascalvoc数据集)
    本文选用mmlab的mmsegmentationv1.1.0的语义分割为例。吨吨吨弟弟123554###1.配置环境要求官网中的最低要求为cuda10.2+以及pytorch1.8+.......
  • windows下的深度学习环境软件版本(cuda/cudnn/pytorch)
    为了方便多个深度学习框架的环境配置,推荐使用anoconda进行搭建。1.anaconda/miniconda下载地址anacoonda官方下载地址:FreeDownload|Anacondaminiconda官方下载地址: LatestMinicondainstallerlinksbyPythonversion—minicondadocumentation清华镜像源的下载地......
  • Pytorch深度学习环境配置 | NVIDIA-driver + Pytorch + miniconda
    本贴为实战,看理论请移步【地表最强】深度学习环境配置攻略|【nvidia-driver】,【cudatoolkit】,【cudnn】,【pytorch】为了验证我的环境配置方法没有问题,我特意租了两小时云服务器来从0配置环境。云服务器厂家:Ucloudubuntu22.043090*21.装NVIDIA-driver参考:http......
  • 《动手学深度学习 Pytorch版》 9.8 束搜索
    本节将介绍几大:贪心搜索(greedysearch)策略穷举搜索(exhaustivesearch)束搜索(beamsearch)9.8.1贪心搜索贪心搜索已用于上一节的序列预测。对于输出序列的每一时间步\(t'\),都从\(\boldsymbol{Y}\)中找到具有最高条件概率的词元,即:\[y_{t'}=\mathop{\arg\max}\limits......
  • 《动手学深度学习 Pytorch版》 9.6 编码器-解码器架构
    为了处理这种长度可变的输入和输出,可以设计一个包含两个主要组件的编码器-解码器(encoder-decoder)架构:编码器(encoder):它接受一个长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。解码器(decoder):它将固定形状的编码状态映射到长度可变的序列。9.6.1编码器编......