吴恩达序列模型——自然语言处理

1.词嵌入

　　one-hot 向量将每个单词表示为完全独立的个体，不同词向量都是正交的，因此单词间的相似度无法体现。换用特征化表示方法能够解决这一问题。我们可以通过用语义特征作为维度来表示一个词，因此语义相近的词，其词向量也相近。将高维的词嵌入“嵌入”到一个二维空间里，就可以进行可视化。常用的一种可视化算法是 t-SNE 算法，会将man和woman这些词聚集在一块，king和queen聚集在一块等等。在通过复杂而非线性的方法映射到二维空间后，每个词会根据语义和相关程度聚在一起。

　　词嵌入（Word Embedding）是 NLP 中语言模型与表征学习技术的统称，概念上而言，它是指把一个维数为所有词的数量的高维空间（one-hot 形式表示的词）“嵌入”到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。对大量词汇进行词嵌入后获得的词向量，可用于完成命名实体识别（Named Entity Recognition）等任务。

词嵌入做迁移学习的步骤：

先从大量的文本集中学习词嵌入，或者下载网上预训练好的词嵌入模型
用这些词嵌入模型迁移到新的只有少量标注训练集的任务中，比如用300维的词嵌入来表示单词。好处就是可以用更低维度的特征向量代替原来的10000维的one-hot向量。尽管one-hot向量很快计算，但学到的用于词嵌入的300维的向量会更加紧凑
当在新的任务上训练模型，而在命名实体识别任务上只有少量的标记数据集，可以选择要不要继续微调，用新的数据调整词嵌入。但实际中只有第二步中有很大的数据集才会这样做，如果标记的数据集不是很大，通常不会在微调词嵌入上费力气
当任务的训练集相对较小时，词嵌入的作用最明显，所以它广泛用于NLP

人脸识别领域和词嵌入不同就是：

在人脸识别中训练一个网络，任给一个人脸照片，甚至是没有见过的照片，神经网络都会计算出相应的一个编码结果
学习词嵌入则是有一个固定的词汇表，比如10000个单词，学习向量e1到e10000，学习一个固定的编码，即每一个词汇表的单词的固定嵌入

类比推理

2个向量之间角度的余弦是衡量它们有多相似的指标，角度越小，两个向量越相似，也可以计算Euclidian distance来比较相似性，即||u−v||²。距离越大，相似性越小

词嵌入矩阵

　　不同的词嵌入方法能够用不同的方式学习到一个嵌入矩阵（Embedding Matrix）E。将字典中位置为oi表示，则有：E*oi=ei。但在实际情况下一般不这么做。因为 one-hot 向量维度很高，且几乎所有元素都是 0，这样做的效率太低。因此，实践中直接用专门的函数查找矩阵E的特定列。

2. 学习词嵌入

神经概率语言模型（Neural Probabilistic Language Model）构建了一个能够通过上下文来预测未知词的神经网络，在训练这个语言模型的同时学习词嵌入

训练过程中，将语料库中的某些词作为目标词，以目标词的部分上下文context作为输入，Softmax 输出的预测结果为目标词target。嵌入矩E和w、b 为需要通过训练得到的参数。这样，在得到嵌入矩阵后，就可以得到词嵌入后生成的词向量

关于context的选择有多种方法：target前n个单词或后n个单词，n可调；target前1个单词；target附近某1个单词（Skip-Gram）E

word2Vec

Word2Vec 是一种简单高效的词嵌入学习算法，包括 2 种模型：Skip-gram (SG)根据词预测目标上下文和 Continuous Bag of Words (CBOW)根据上下文预测目标词
每种语言模型又包含负采样（Negative Sampling）和分级的 Softmax（Hierarchical Softmax）两种训练方法。训练神经网络时候的隐藏层参数即是学习到的词嵌入。