Transformer中的Position Embedding和RNN/CNN中的Position Encoding的区别

时间：2022-09-07 17:44:34浏览次数：84

标签：编码 Transformer RNN Encoding Embedding Position

区别：Position Embedding是学习式，Position Encoding是固定式

Transformer的结构是基于Self-Attention的，与RNN/CNN不同，不包含序列信息，但是序列信息又极其重要，为了融合序列信息，就需要位置编码了

Transformer的论文提出了两种编码方式：学习式和固定式

学习式

定义：当做可训练参数随机初始化，比如最长512，编码维度768，则随机初始化一个512x768矩阵，让其随训练进行更新，目前的BERT、GPT等预训练模型都是通过这种方式获得位置编码

缺点：不可扩展，即如果预训练最大长度为512，则最多能处理512长度的句子

固定式

通过公式直接计算，例如Transformer通过三角函数直接计算得到

使用周期函数表示位置编码有两个理由，一个是参考二进制，二是可以轻松学到相对位置（任意位置的编码都可以通过前面某个位置编码的线性表示得到，可以通过cos加法和sin加法规则证明，这也是PE同时使用cos和sin的原因）

三角函数中使用10000的原因，确保循环周期足够大，以便于编码足够长的文本（其实就是这样做实验效果更好）

标签：编码,Transformer,RNN,Encoding,Embedding,Position
From： https://www.cnblogs.com/WMT-Azura/p/16666660.html

RNN（cell）总结和实践
一、RNNCell：1、使用实例hello--ohlol图示：要注意inputSize1#载入数据23importtorch4input_size=45hidden_size=46batch_size=178......
vue3之composition-api的使用（包含watch watchEffect）
是什么composition-api官方介绍vue2：options-api，组件按照选项组织，就是将组件各个部分严格写在methods、computed、watch、data等等里面（特定的区域写特定的代码）；vue3：co......
Composition-api使用
背景、Composition和Option对比#Composition-api使用背景Composition-api是vue3的新特性，在vue2中可以安装@vue/composition-api使用该语法，目前项目现状是用的vue2，所以集......
ECCV 2022 | k-means Mask Transformer
前言目前，大多数现有的基于transformer的视觉模型只是借用了自然语言处理的思想，忽略了语言和图像之间的关键差异，特别是空间扁平像素特征的巨大序列长度。这阻碍了在像素特......
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection概述
1.针对的问题为了在未修剪视频中建模时间关系，以前的多种方法使用一维时间卷积。然而，受核大小的限制，基于卷积的方法只能直接获取视频的局部信息，不能学习视频中时间距离......
基于Hugging Face的transformers包的微调模型训练
transformersAPI参考链接：https://huggingface.co/docs/transformers/v4.21.2/en/trainingtrain.pyfromdatasetsimportload_datasetfromtransformersimportAutoT......
程序报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: il
当我输入代码，读取文件的时候file=open('a.txt','r')print(file.readlines())file.close()结果报这个错：一看，发现编码出错了，百度了一下，原来open函数其中的encod......
Transformer——Attention Is All You Need经典论文翻译
转载自：Transformer——AttentionIsAllYouNeed经典论文翻译（邓范鑫——致力于变革未来的智能技术）本文为Transformer经典论文《AttentionIsAllYouNeed》的中文翻......
如何估算transformer模型的显存大小
在微调GPT/BERT模型时，会经常遇到“cudaoutofmemory”的情况。这是因为transformer是内存密集型的模型，并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进......
2022牛客多校第9场 C Global Positioning System(讨论+lca+树上差分)
传送门若干条路径生成了一个无向连通图，只有所有简单回路对应的向量为\(0\)向量时合法。需要改变的边是满足这个边是所有不为\(0\)回路的交且不属于所有为\(0\)的回路。......

Transformer中的Position Embedding和RNN/CNN中的Position Encoding的区别

区别：Position Embedding是学习式，Position Encoding是固定式

学习式

固定式

相关文章

赞助商

阅读排行