参考:李宏毅-Transformer【动画细致,有助于理解Self-Attention】
参考:The Illustrated Transformer【详细到一些参数,动画也很好】
李宏毅老师深入浅出讲解transformer模型:https://www.bilibili.com/video/BV1Wq4y1v7DE?share_source=copy_web
论文:Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-December(Nips), 5999–6009.
背景与逻辑
用attention机制替代RNN(处理有序列的数据,seq2seq)
RNN的问题在于不能并行,但CNN只能观察到局部;而用attention机制相当于叠加多层的CNN,从而扩大感受野
但是必须要叠加多层才能看到更大的感受野。因此用self-attention layer来替代,可以看到所有的seq,而同时也可以并行。
Self-attention机制
-
给每个input一个embedding X:单词emb和位置emb,得到的emb结果叫a
-
对每个a,需要三个内容q/k/v,表示的是各个input 之间的关联性(attention系数);直观理解是不同的词之间的关系
产生b1的时候 已经看到了全局所有的向量,天涯若比邻。如果只想看到局部的,也可以让中间某些系数为0即可
-
可以用矩阵运算表示,因此可以并行
Transformer模型
seq2seq:encoder + decoder
标签:753,Transformer,精读,emb,模型,attention,并行 From: https://www.cnblogs.com/alex-bn-lee/p/16799415.html