深度学习中的注意力机制(Attention Mechanism)是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。
最典型的注意力机制包括自注意力机制、空间注意力机制和时间注意力机制
1. 自注意力机制
具体而言,对于序列中的每个元素,自注意力机制计算其与其他元素之间的相似度,并将这些相似度归一化为注意力权重。然后,通过将每个元素与对应的注意力权重进行加权求和,可以得到自注意力机制的输出。
输入整个语句的向量到self-attention中,输出对应个数的向量,再将其结果输入到全连接网络,最后输出标签。以上过程可多次重复:
1.1 运行原理
使用\(\alpha\)表示每一个向量之间的关联程度,而也有许多方法产生,例如下图中的两个
上图左边的方法是最常用的,左乘矩阵再进行dot得到\(\alpha\),这也是transformer使用的方法
分别计算关联性可以得到\(\alpha\)
谁的分数更大,谁的v就更影响结果
1.2 总结
上述过程可总结为
- 输入矩阵\(I\)分别乘以三个\(W\)得到三个矩阵 \(Q,K,V\)。
- $A=QK^\top $,经过处理得到注意力矩阵 \(A^{\prime}=softmax(\frac{QK^\top}{\sqrt{d_k}})\)
- 输出\(O=A^{\prime}V\)
即
\[Attention(Q,K,V)=softmax(\frac{QK^\top}{\sqrt{d_k}})V \]其中,\({\sqrt{d_k}}\) 为向量的长度。
标签:top,矩阵,sqrt,机制,注意力,向量 From: https://www.cnblogs.com/ratillase/p/18083806