Self-Attention自注意力机制解读（2）：图解版！

标签：attention Self Attention 矩阵 Softmax 图解向量 softmax

文章目录

一、前言
二、流程解读
三、流程的矩阵表示
三、Softmax层的解释

一、前言

上一篇文章
Self-Attention自注意力机制：深度学习中的动态焦点 | 手把手实例解析看不懂你打我
以简单的例子引入了Self-Attention，并且以一句话简单的句子：“The cat sat on the mat.”为例做了手把手讲解，我们以每个单词作为一个向量，对这组向量进行一系列操作，最终得到了一个加权求和表格。
上篇文章侧重具体的例子，我们使用了一系列实际的向量数值，带大家计算了一遍，但是对于Self-Attention的整个过程的理解展现的还不够，不如图片来的直观。then 接下来我们用一系列图片，更全面的解读下Self-Attention。

二、流程解读

1.它整体做了一件什么事

请看下面图片，最下面一层四个方框，代表四个向量，你可以理解为四个单词。这四个向量经过一个Self-attention操作之后，出来四个新的向量，这四个向量包含了上下文信息；接着对每个向量进行一个 fully connected layer处理，得到4个新的向量。
在这里插入图片描述

2.多层Self-attention

经过一层Self-attention后，你认为重要性权重提取的还不够，Ok当然可以再来一层！这就是多层注意力机制。

在这里插入图片描述

3.self-attention做了一件什么事

做了一件这样的事情：将每个向量（a¹,a²,…）和其他向量做运算，得到这个向量和其他每个向量的相关性的数值。
接下来，我们记a¹和a²的相关性为α_1，2
在这里插入图片描述

4.具体流程

我先给出一个定义：每个向量都对应着三个向量，例如a¹向量对应q¹,k¹,v¹这三个向量。先不要管怎么算出来这三个方向向量。我们分别称之为查询向量（Query Vectors）、键向量（Key Vectors）和价值向量（Value Vectors）。
那么a¹和a²的相关性α_1,2就等于q¹*k²，也就是拿a¹的Q值乘以a²的K值。如下图
在这里插入图片描述

那么a¹和a³、a⁴的相关性α_1,3 α_1,4也就同理得出了，我们称α为attention score
在这里插入图片描述

另外，我们习惯将自身的相关性，也就是α_1,1也得到。

在这里插入图片描述

好的现在我们得到了α_1,1 α_1,2 α_1,3 α_1,4
接下来我们习惯堆这四个向量进行一步softmax处理，相信大家都了解softmax层的作用，这里的softmax和图片分类任务中的softmax是一模一样的，如果没听说过没关系，文末我也给了解释。简单来说，就是为了得到更易于后续操作的形式。
softmax处理之后得到α^’_1,1 α^’_1,2 α^’_1,3 α^’_1,4
在这里插入图片描述