首页 > 其他分享 >1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)

1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)

时间:2022-12-13 13:33:28浏览次数:52  
标签:Self Attention QKV 相乘 同源 机制 注意力 1001

通过 pytorch 去构建一个 transformer 的框架

不是导包,不是调包侠

注意力机制是一个很宽泛(宏大)的一个概念,QKV 相乘就是注意力,但是他没有规定 QKV是怎么来的

通过一个查询变量 Q,去找到 V 里面比较重要的东西

假设 K==V,然后 QK 相乘求相似度A,然后 AV 相乘得到注意力值Z,这个 Z 就是 V 的另外一种形式的表示

Q 可以是任何一个东西,V 也是任何一个东西, K往往是等同于 V 的(同源),K和 V 不同源不相等可不可以

他没有规定 QKV 怎么来,他只规定 QKV 怎么做

注意力机制

自注意力机制


1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)_相似度




自注意力机制,特别狭隘,属于注意力机制的,注意力机制包括自注意力机制的

本质上 QKV 可以看做是相等的

对于一个词向量(不一定准确),做的是空间上的对应,乘上了参数矩阵,依然代表 X

不仅规定了 QKV 同源,而且固定了 QKV 的做法

1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)_查询变量_02



交叉注意力机制

Q 和 V 不同源,但是 K 和 V 同源

cyd 注意力机制

Q 和 V 同源,Q 和 K 不同源

xxx 注意力机制

Q 必须为 1,K 和 V 不同源



标签:Self,Attention,QKV,相乘,同源,机制,注意力,1001
From: https://blog.51cto.com/u_13804357/5933858

相关文章