学习Transformer，应该从词嵌入WordEmbedding开始_trasnformer模型中embedding

标签：Transformer 嵌入从词 AI 模型矩阵单词 WordEmbedding 向量

其中的2号位置，就是词嵌入层。

Embedding层用于将离散的单词数据，转换为连续且固定长度的向量：

这样使模型才能处理和学习这些数据的语义信息。

例如，我们希望将“Are you OK ?”这句话，作为神经网络模型的输入。

此时神经网络是没办法直接处理这句文本的。

我们需要先将“Are you OK ?”，基于词表vocab，转为整数索引序列的形式。
在这里插入图片描述

例如，转为1、2、3、4。

然后再基于Embedding层，将整数索引序列，转换为单词向量的序列。

过程如下图所示：

这里假设每个单词用4维的向量表示。

那么四个词的句子“Are you OK ?”，就会被转换为4*4的词向量矩阵；

每行对应一个单词。

得到输入文本的词向量矩阵后，才可以继续使用神经网络对文本进行特征提取和处理。

下面，我就重点讲解词嵌入技术的三个关键部分：

1.词嵌入的作用

2.嵌入矩阵的计算

3.Embedding层的代码实验

帮助大家理解词嵌入(Embedding)技术的原理和使用方法。

1.词嵌入有什么用

词嵌入是一种将词汇表中的词或短语，映射为固定长度向量的技术。

通过词嵌入，我们可以将高维且稀疏的单词索引，转为低维且连续的向量。

转换后的连续向量，可以表示出单词与单词之间的语义关系。

例如，假设词汇表中有10000个单词：

此时我们希望表示出man、woman、king、queen四个词语

这四个词语的索引是1~10000中的4个整数。

如果用one-hot向量表示这4个词；

那么就需要4个10000维度的one-hot向量。

这种表示方法，不仅维度高，而且非常的稀疏。

在向量中，只有1个维度是1，其他维度都是0。

不仅如此，单词向量和单词向量之间，都是正交的，没有任何语义关系。

我们使用词嵌入技术，可以把上述的4四个高维稀疏的onehot向量，转换为低维连续向量。

转换后的向量，每个维度都是一个浮点数。

图中就表示了，将单词映射到一个7维的空间中；

那么每个词语就都对应了一个7维的浮点数向量。

为了进一步说明词与词之间的关系：

我们还可以使用PCA降维算法，将7维的词嵌入向量降维至2维。

从而将单词向量在平面上绘制出来。

例如，在下图中：

语义相近的词语，词语对应的向量位置也更相近。

例如，cat猫与kitten小猫的含义相近，它们就聚在一起。

horse、dog与cat的语义差异比kitten大，所以它们距离cat，就相对较远。

不仅如此，我们还可以通过词嵌入向量的数学关系，来描述词语之间的语义关联。

例如，从图中可以看出：

向量(“king”)−向量(“man”)≈向量(“queen”)-向量(“woman”)。

总结来说：

词嵌入技术能够有效地将自然语言中的词语，转换为数值向量；

从而表达词语之间的语义关系。

这种技术也为后续更高级的自然语言处理任务，提供了坚实的基础。

2.嵌入矩阵的计算

为了实现词嵌入，我们会通过特定的词嵌入算法；

例如，word2vec、fasttext、Glove等等，训练一个通用的嵌入矩阵。

下图就表示了一个嵌入矩阵：

这个嵌入矩阵，就是embedding层。

矩阵中的每一行都代表了一个词向量。

这些词向量，都是连续的浮点数。

一旦训练完成，就可以用在不同的NLP任务中。

具体来说：

嵌入矩阵的行，是语料库中词语的个数。

矩阵的列是表示词语的维度。

例如：

上图中的嵌入矩阵，就表示了语料库中包括了5000个单词；

每个单词，都使用一个128维的向量表示；

这个嵌入矩阵是一个5000*128维的矩阵。

下面我们详细说明嵌入矩阵的使用方法。

我们具体使用两种方式来解释：

第1种方式，基于矩阵相乘说明嵌入矩阵。

第2种方式，基于索引的查找说明嵌入矩阵。

首先声明一些关键信息：

设词表中包括5000个单词；

每个词使用一个128维的向量表示。

因此嵌入矩阵的大小就是5000*128；

我们将该矩阵记为E。

我们要将句子“Are you OK ?”进行词嵌入。

通过词嵌入，会将句子中的每个词，都表示为一个128维的向量。

例如：

图中就表示了“Are you OK ?”4个词的嵌入矩阵；

每一行是一个单词的词向量；

4个词的词向量矩阵，大小是4*128。

第1种解释方式，基于矩阵相乘的进行解释。

将“Are you OK ?”中的每个词，进行One-Hot编码：

编码后得到如图中的矩阵。

其中每个词是一个5000维的向量；

整个句子是4*5000的矩阵。

我们将这个矩阵记作V。

将矩阵V和嵌入矩阵E相乘，就会得到一个4*128的矩阵。

计算过程如下：

这个4×128的矩阵，就是句子“Are you OK ?”的嵌入向量。

第2种解释方式，基于索引查找的进行解释。

对于“Are you OK ?”中的4个单词，每个单词都对应一个1~5000的整数索引。

这个整数，就是它们的one-hot向量中，不是0的那个维度数。

例如在图中：

不为1的位置就对应了单词的索引序号。

也就是“Are you OK ?”的整数索引，分别对应2、1、3和5000。

此时，我们根据2、1、3、和5000；

获取嵌入矩阵的第2行、第1行、第3行与第5000行就可以了。

计算过程如下：

最后获取到的四行向量，

就代表“Are”、“you”、“OK”和“?”四个词的词向量。

这相当于词语1就是you；

词语2是are；

词语3是OK；

词语5000是问号。

总结来说：

使用矩阵V和矩阵E相乘得到的词向量矩阵；

与通过索引获取到的词向量矩阵；

它们的结果是完全一样的。

3.Embedding层的使用

最后，我们要讲解如何基于Pytorch，创建词嵌入层。

具体会使用torch.nn，创建一个embedding层；

然后使用这个embedding层，计算出单词的词向量；

最后并将词向量其进行可视化。

实验代码如下：

1)首先从torchtext.vocab中导入GloVe词向量

简单介绍GloVe词向量，它是斯坦福大学的研究者在2014年开发和发布的。

GloVe和word2vec与fasttext，是当前最常用的3个词向量版本。

这里调用GloVe接口，传入词向量的名字6B与对应维度300。

6B表示了模型是基于60 亿个单词的语料库训练的；

300表示一个单词，使用300维的向量表示。

2)接着使用nn.Embedding创建词嵌入层

将glove.vectors，通过from_pretrained接口，导入到Embedding层中。

此时的embedding层，就载入了GloVe词向量数据。

打印embedding层中的weight的尺寸。

可以看到，程序的输出是一个400000×300尺寸的矩阵。

它代表了该词向量层，包含40万个单词，每个单词使用300维来表示。

3)获取单词的索引形式

接着，我们要将man、woman、king、queen等8个词语的索引和对应的词向量打印出来。

首先需要将单词word，通过glove的词汇表，转换为单词的索引index。

然后将这些索引index保存到indices数组中。

打印单词word和索引index的对应关系。

观察程序输出，可以看到：

man对应300、woman对应787等等。

4)根据单词的索引获得词向量

得到单词的索引后，将索引列表，使用torch.tensor，转为张量的形式。

然后通过embedding层，将索引列表indices转换为，词向量的矩阵vector。

打印vector的尺寸，可以看到vector是一个8×300的矩阵。

8代表8个单词，300代表每个单词是一个300维的向量。

5)通过PCA降维和plt接口，绘制词向量

最后，我们使用PCA降维算法，将向量vectors进行降维。

这里使用pca.fit_transform接口，参数n_components设置为2；

将vectors从300维降维到2维。

最后调用plt.scatter和plt.annotate，将单词和向量，绘制到二维平面上。

观察绘制效果：

可以看到，cat和dog位置相近；

king和queen相近；

father、mother、man、woman四个词位置相近。

那么到这里，什么是词嵌入，Embedding技术，就讲完了。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

学习Transformer，应该从词嵌入WordEmbedding开始_trasnformer模型中embedding

如何学习大模型 AI ？

最后如果您也对AI大模型感兴趣想学习却苦于没有方向
标签：Transformer,嵌入,从词,AI,模型,矩阵,单词,WordEmbedding,向量
From： https://blog.csdn.net/2401_86518761/article/details/143066974

相关文章

赞助商

阅读排行

学习Transformer，应该从词嵌入WordEmbedding开始_trasnformer模型中embedding

如何学习大模型 AI ？

最后如果您也对AI大模型感兴趣想学习却苦于没有方向 标签：Transformer,嵌入,从词,AI,模型,矩阵,单词,WordEmbedding,向量 From： https://blog.csdn.net/2401_86518761/article/details/143066974

相关文章

赞助商

阅读排行

最后如果您也对AI大模型感兴趣想学习却苦于没有方向
标签：Transformer,嵌入,从词,AI,模型,矩阵,单词,WordEmbedding,向量
From： https://blog.csdn.net/2401_86518761/article/details/143066974