GPT-2（small）架构推理解析

标签：架构矩阵 small MLP 一列归一化 GPT 20 向量

1、有字符串BBCAD

2、为字符串中的每个字母添加index索引以进行排序，A、B、C、D的索引下标分别是0、1、2、3，因此排序的数字结果为01123

3、将01123中的每个数字转换为c个元素的向量（这个过程称为embedding，其中c是一个超参数）

4、将每个字母的索引信息分别嵌入到token embedding矩阵的列中，这样矩阵中就拥有了字母的索引信息。

5、再将每个字母的位置信息分别嵌入到position embedding矩阵的列中，这样矩阵中就拥有了字母的位置信息。

6、最后将token embedding矩阵跟position embedding矩阵按位相加，得到input embedding矩阵。这个矩阵是一个T x C矩阵，T代表时间，C代表特征或尺寸，长度C是超参数。

7、对input embedding矩阵的每一列进行Layer Normalization归一化操作。每一列都有平均值μ和标准差σ和ε项（ε=1×10-5，用于防止被零除），所以归一化值的计算公式如下：

　　归一化能消除特征之间的量纲影响，可以改善模型训练的稳定性和收敛速度，避免某些特征的值过大或过小对模型的影响过大。（以下为扩展内容）

　　假设有以下样本数据：

　　　　样本1: [10, 20, 30]

　　　　样本2: [20, 30, 40]

　　　　样本3: [30, 40, 50]

　　我们可以计算每个特征维度上的均值和方差：

　　　　特征1的均值：(10 + 20 + 30) / 3 = 20 　　特征1的方差：((10-20)^2 + (20-20)^2 + (30-20)^2) / 3 = 66.67

　　　　特征2的均值：(20 + 30 + 40) / 3 = 30 　　特征2的方差：((20-30)^2 + (30-30)^2 + (40-30)^2) / 3 = 66.67

　　　　特征3的均值：(30 + 40 + 50) / 3 = 40 　　特征3的方差：((30-40)^2 + (40-40)^2 + (50-40)^2) / 3 = 66.67

　　接下来，我们可以对每个特征维度进行归一化：

　　　　样本1的标准化结果: [(-20 / √66.67+ε), (0 / √66.67+ε), (20 / √66.67+ε)] ≈ [-2.16, 0, 2.16]

　　　　样本2的标准化结果: [(-10 / √66.67+ε), (0 / √66.67+ε), (10 / √66.67+ε)] ≈ [-1.08, 0, 1.08]

　　　　样本3的标准化结果: [(0 / √66.67+ε), (10 / √66.67+ε), (20 / √66.67+ε)] ≈ [0, 1.08, 2.16]

　　通过归一化，我们可以看到每个特征维度上的均值都为0，方差都为1。这样，不同样本之间的特征取值在相同的尺度上进行比较，更有利于模型学习到普遍适用的规律。

8、前面是归一化计算的第一步，接下来我们需要将每一列中的每个元素减去均值μ，然后乘以学习的权重（γ），然后加上偏差（β）值，才能得到最终的归一化值。计算公式如下：

9、每一列都计算完成后，就会得到一个归一化后的Layer Normalization矩阵，这个矩阵将作为self-attention层的输入。

10、接下来将T x C 的Layer Normalization矩阵的T列中的每一列生成Q、K、V三个向量，其中T可以理解为注意力头的数量。举个例子，Q向量中每一列中的每个元素的计算方法就是将Q权重矩阵的每一行的第 i 元素与Layer Normalization矩阵中的每一列的第i个元素相乘，然后再将所有相乘的结果相加，然后再将相加的结果加上Q的偏执项，这样就得到了Q向量中某一列的第i个元素的值。重复这一步骤，直到计算出Q向量的每一列的所有元素的值，而这些值组合起来就是一个Q向量。另外说明一下，权重矩阵是在训练过程中学习到的参数，假设输入特征的维度为d_model，d_k是指定的较小维度，则权重矩阵的形状就是（d_model，d_k）。

11、生成Q，K，V三个向量后，将每个多头中的Q向量的每一列和K向量的每一列（之前进行过点积的K向量的列到当前列的列，也就是说只能看到之前出现过的列的信息，无法预知未见过的列）进行点积，然后将点击结果除以sqrt（A），其中A是Q/K/V向量的长度。这种缩放是为了防止大值在下一步中主导归一化（softmax）。注意，这些点积是测量两个矢量之间相似性的一种方法。如果它们非常相似，则点积将很大。如果它们非常不同，则点积将是小的或负的。

12、得到点积除以sqrt（A）的结果后，再将所有结果输入到softmax函数中，每一行都会被归一化为和为1，也就是softmax函数输出的是概率值。

13、将每一行的每个元素的概率值乘以V向量的每一列，从而得到输出向量。重复点积的过程获取每一列输出向量，最终将向量组合，就得到输出矩阵。

14、在经过self-attention层之后，得到了每个多头的输出。这些输出是受Q和K矢量影响的适当混合的V输出矢量。然后叠加每个多头的V输出矢量，从而得到最终的V Output矢量，该V Output矢量的原始长度是C，（其中C / 多头数量=多头矢量长度）。

15、然后再将V Output矢量的每一列乘以Projection Weights权重矩阵的每一行，再加上一个Projection Bias偏执项，就可以得到每一个列向量，这些列向量组成了一个矩阵，该矩阵就是Attention Output输出。

16、然后将Attention Output矩阵与最开始的Input Embedding矩阵按位相加，即进行残差层的计算。我们将相加的结果矩阵称为Attention Residual矩阵。

17、接下来进入MLP（多层感知器），这是一个简单的神经网络，有两层。在进入MLP之前，先将Attention Residual矩阵进行Layer Normalization归一化操作，公式还是一样，只不过权重和偏执是MLP的权重和偏执：

18、然后用归一化后的Attention Residual矩阵的一列与MLP Weights权重矩阵的每一列进行相乘，然后加上MLP Bais偏执，得到一个长度为4*C的向量。

19、让长度为4*C的向量中的每个元素都经过GELU激活函数。

20、然后，我们将经过GELU激活函数的4*C向量投影回长度C。即用4*C向量乘以一个MLP Projection Weights权重矩阵，然后再加上MLP Projection Bias偏置。就可以得到一个长度为C的列向量。重复这个上述操作，就可以得到一个MLP Result矩阵，此矩阵的每一列都是由一个长度为4*C的向量经过GELU激活函数后，乘以MLP Projection Weights权重矩阵，然后再加上MLP Projection Bias偏置得到的。

21、最后将MLP Result矩阵与之前的Attention Residual矩阵进行按位相加，即进行残差层的计算，得到最终的MLP Residual矩阵。

22、从将Input Embedding进行归一化开始，到最终得到MLP Residual矩阵的过程，就是一次完整Transformer的Decoder。这个Decoder过程形成了任何GPT模型的主体，并重复多次，一个块的输出进入下一个块，直到走完全部的Transformer Decoder。正如深度学习中常见的那样，很难说这些层中的每一层到底在做什么，但我们有一些总体想法：早期的层往往专注于学习较低级别的特征和模式，而后期的层则学习识别和理解更高级别的抽象和关系。在自然语言处理的背景下，较低层可能学习语法、句法和简单的单词联想，而较高层可能捕捉更复杂的语义关系、话语结构和上下文相关的含义。

23、接下来将MLP Residual矩阵进行Layer Normalization归一化操作，之后使用线性变换（矩阵乘法），这一次没有偏差。这个最后的转换将我们的每个列向量从长度C转换为长度nvocab。因此，它有效地为我们每个专栏的词汇表中的每个单词生成了一个分数。这些分数有一个特殊的名字：logits。“logits”这个名字来源于“log赔率”，即每个代币赔率的对数。之所以使用“Log”，是因为我们接下来应用的softmax会进行幂运算，将其转换为“赔率”或概率。

24、接下来进行softmax操作。softmax的目标是取一个向量并对其值进行归一化，使其总和为1.0。首先对每个输入值进行幂运算，a=exp（x_1），这具有使所有值为正的效果。一旦我们有了指数值的向量，我们就可以将每个值除以所有值的总和。这将确保这些值的总和为1.0。由于所有的指数值都是正的，我们知道结果值将在0.0和1.0之间，这提供了原始值的概率分布。softmax就是这样：简单地对值求幂，然后除以和。但是如果输入值中的任何一个都非常大，那么指数值将非常大。我们最终会把一个很大的数字除以一个非常大的数字，这可能会导致浮点运算的问题。softmax运算的一个有用特性是：如果我们将一个常数添加到所有输入值，结果将是相同的。因此，我们可以找到输入向量中的最大值，并将其从所有值中减去。这样可以确保最大值为0.0，并且softmax在数值上保持稳定。

标签：架构,矩阵,small,MLP,一列,归一化,GPT,20,向量
From： https://www.cnblogs.com/qq1035807396/p/17934275.html

GPT-2（small）架构推理解析

相关文章

赞助商

阅读排行