pytorch(10.5) Transformer 用到视觉模块

时间：2023-10-23 17:56:17浏览次数：43

标签：Transformer 10.5 14 16 768 token 像素 pytorch 224

ViT｜ Vision Transformer ｜理论 + 代码_哔哩哔哩_bilibili

1 不用卷积神经网络那些东西（CNN）了全部用Transforme 。

2 大规模数据训练，小规模数据应用。

3 效果相当计算训练资源更少。

转换思想

224*224像素图像 - 单个像素（视为一个词token） -16*16个像素图像块patches（作为一个token 减少计算量） - 变为1个token词-- 共14*14=196个词(token) --- 送入TSFM网络

1 图中 3*3 是示意图实际位14*14个块，词

2 分类标签token添加，，可以额外学习的，然后加入位置编码

3 得到10个结果，图像分类任务，只需要取出class token词对应的输出。

4 搞一个全连接层（简单理解），得到分类结果。、

代码

步骤1 图像预处理压缩操作

A 参数说明

1 图像尺寸 224*224

2 块大小 16*16

3 网格形状 grid_size 224/16=14个 (14,14)

4 网格总数 14*14=196个

B卷积层

只用来数据处理

卷积层（3 个通道, 输出通道768个特征, 卷积核(16,16),扩展0,步幅（16，16））

（N-卷积核+2*扩展数目+步长）/步长

(16-16++16）/16=1 个

相当于原来的16*16块变为一个像素，原有像素16*14*16*14=224*224个像素

原图 14*14个块变为 14*14个像素=196个像素的特征图

最后展平

输入

8个块通道3 长宽224 224

结果 x 8个样本块每个块14*14=196个像素特征是人为i定义的768

步骤2 分类信息加入+位置编码

2-1获取步骤1中的图像编码结果

原图变为

X[B批次, 14*14个像素, 768个特征（人为定义）]

2 -2 加入分类标签cls_token

cls_token [1,1,768] 扩展为X尺度 [B, 1,768]

2-3 将X和标签拼接在一起

x=[cls_token ,x] =[B,1,768] --[B,14*14=196,768]

x [B,197,768]

2-4 加上位置编码可学习的

2-5 加入随机丢失层

最后得到

2-7 送入TSFM层

标签：Transformer,10.5,14,16,768,token,像素,pytorch,224
From： https://www.cnblogs.com/gooutlook/p/17783010.html

Transformer王者归来！无需修改任何模块，时序预测全面领先
前言最近，来自清华大学和蚂蚁集团的研究人员重新审视Transformer结构在时序分析中的应用，提出一个全新的反转视角——无需修改任何模块，即可实现Transformer在时序预测任务上的全面领先！本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉......
《动手学深度学习 Pytorch版》 10.1 注意力提示
10.1.1生物学中的注意力提示“美国心理学之父”威廉·詹姆斯提出的双组件（two-component）框架：非自主性提示：基于环境中物体的突出性和易见性自主性提示：受到了认知和意识的控制10.1.2查询、键和值注意力机制与全连接层或汇聚层区别开来的元素：是否包含自主性提示在......
ArcGIS 10.5「地图信息编辑和开发软件」中文汉化版下载附教程
arcgis10.5汉化版是一款功能非常强大的地理信息系统软件，这款软件可以同时支持2D和3D两种不同的方式来浏览整个世界的数据，而且arcgis10.5免费版还能够适用于对地理位置、信息的编辑和管理等众多操作，通过这款软件我们就可以快速处理许多有关于地理信息的内容。软件地址：看置顶贴arcgis......
Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩
前言最近多模态大模型是真热闹啊。这不，Transformer一作携团队也带来了新作，一个规模为80亿参数的多模态大模型Fuyu-8B。而且发布即开源，模型权重在HuggingFace上可以看到。本文转载自量子位仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结......
Transformer-based Encoder-Decoder Models
整理原链接内容方便阅读https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Encoder_Decoder_Model.ipynbtitle:"Transformer-basedEncoder-DecoderModels"thumbnail:/blog/assets/05_encoder_decoder/thumbnail.pngauthors:user:p......
swin transformer v1.0环境配置训练（mmsegmentation/pascalvoc数据集）
本文选用mmlab的mmsegmentationv1.1.0的语义分割为例。吨吨吨弟弟123554###1.配置环境要求官网中的最低要求为cuda10.2+以及pytorch1.8+.......
windows下的深度学习环境软件版本（cuda/cudnn/pytorch）
为了方便多个深度学习框架的环境配置，推荐使用anoconda进行搭建。1.anaconda/miniconda下载地址anacoonda官方下载地址：FreeDownload|Anacondaminiconda官方下载地址： LatestMinicondainstallerlinksbyPythonversion—minicondadocumentation清华镜像源的下载地......
Pytorch深度学习环境配置 | NVIDIA-driver + Pytorch + miniconda
本贴为实战，看理论请移步【地表最强】深度学习环境配置攻略|【nvidia-driver】,【cudatoolkit】,【cudnn】,【pytorch】为了验证我的环境配置方法没有问题，我特意租了两小时云服务器来从0配置环境。云服务器厂家：Ucloudubuntu22.043090*21.装NVIDIA-driver参考：http......
《动手学深度学习 Pytorch版》 9.8 束搜索
本节将介绍几大：贪心搜索（greedysearch）策略穷举搜索（exhaustivesearch）束搜索（beamsearch）9.8.1贪心搜索贪心搜索已用于上一节的序列预测。对于输出序列的每一时间步\(t'\)，都从\(\boldsymbol{Y}\)中找到具有最高条件概率的词元，即：\[y_{t'}=\mathop{\arg\max}\limits......
《动手学深度学习 Pytorch版》 9.6 编码器-解码器架构
为了处理这种长度可变的输入和输出，可以设计一个包含两个主要组件的编码器-解码器（encoder-decoder）架构：编码器（encoder）：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。解码器（decoder）：它将固定形状的编码状态映射到长度可变的序列。9.6.1编码器编......

pytorch(10.5) Transformer 用到视觉模块

转换思想

代码

相关文章

赞助商

阅读排行