GPT前世今生-transformer-注意力机制
背景:
心理学知识,随意线索和非随意线索。
启发:
注意力机制中概念:
query:你的要求 查询的东西。如问“你要干嘛?”
key:如杯子,本子
value:可以也是杯子本子,也可以是对应的分值(即注意力重要程度)
数学:
f(x) = xi,yi,即就是yi 函数表示 给定一个query x,f函数会找到它所最关注的xi,yi
深度学习原理(猜想):
cnn可以抽取feature,那么每个feature就是query,在下一个卷积/或别的运算时,求f(query) = 最关注的权值。
原始做法 非参数注意力池化层:
其中K 为kernel。
可以是高斯kernel, 本质度量x与xi的相近程度, 这里过程就类似knn找到这个最近xi。
若想训练,则可以添加参数:
小结:注意力机制可以写为
其中α就是对于每个yi值的权重。
那么问题是:
1 如何确定 x呢, 又如何确定 xi呢? 确定了xi 如何设定对应的yi value呢
加入x为 feature, x为后面的计算图,位置就是xi, 里面的值就是yi吗?
注意力层:
未完待续---------------------------------------
标签:yi,transformer,今生,feature,xi,GPT,query,注意力 From: https://www.cnblogs.com/lx63blog/p/17263874.html