学习了位置编码
位置编码
自注意力并没有记录位置信息,所以要用到位置编码,位置编码将位置信息注入到输入里
假设长度为n的序列是n×d的shpe的X,那么使用n×d的shape的位置编码矩阵P来输出X+P作为自编码输入
P \in R^ {n\times d} : p_ {i,2j} = \sin ( \frac {i}{10000^ {2j/d}} ), p_ {i,2j+1} = \cos ( \frac {i}{10000^ {2j/d}} )
如图(比较抽象,以下是第一次理解) 横坐标是输入的不同行,而线不同对应的是不同的列,也就是特征,比如第六跟第七列,是同样的图像发生了唯一,第七列到第八列就是周期发生了变化,第九列与第八列也只是位置不同,以此区分出了每一次输入都有细微的变化,相邻的位置编码就相近