首页 > 其他分享 >吴恩达序列模型——自然语言处理

吴恩达序列模型——自然语言处理

时间:2023-03-05 16:36:08浏览次数:45  
标签:吴恩达 嵌入 训练 模型 单词 上下文 序列 自然语言 向量

1.词嵌入

  one-hot 向量将每个单词表示为完全独立的个体,不同词向量都是正交的,因此单词间的相似度无法体现。换用特征化表示方法能够解决这一问题。我们可以通过用语义特征作为维度来表示一个词,因此语义相近的词,其词向量也相近。将高维的词嵌入“嵌入”到一个二维空间里,就可以进行可视化。常用的一种可视化算法是 t-SNE 算法,会将manwoman这些词聚集在一块,kingqueen聚集在一块等等。在通过复杂而非线性的方法映射到二维空间后,每个词会根据语义和相关程度聚在一起。

  词嵌入(Word Embedding)是 NLP 中语言模型与表征学习技术的统称,概念上而言,它是指把一个维数为所有词的数量的高维空间(one-hot 形式表示的词)“嵌入”到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。对大量词汇进行词嵌入后获得的词向量,可用于完成命名实体识别(Named Entity Recognition)等任务。

词嵌入做迁移学习的步骤:

  • 先从大量的文本集中学习词嵌入,或者下载网上预训练好的词嵌入模型
  • 用这些词嵌入模型迁移到新的只有少量标注训练集的任务中,比如用300维的词嵌入来表示单词。好处就是可以用更低维度的特征向量代替原来的10000维的one-hot向量。尽管one-hot向量很快计算,但学到的用于词嵌入的300维的向量会更加紧凑
  • 当在新的任务上训练模型,而在命名实体识别任务上只有少量的标记数据集,可以选择要不要继续微调,用新的数据调整词嵌入。但实际中只有第二步中有很大的数据集才会这样做,如果标记的数据集不是很大,通常不会在微调词嵌入上费力气
  • 当任务的训练集相对较小时,词嵌入的作用最明显,所以它广泛用于NLP
人脸识别领域和词嵌入不同就是:
  • 在人脸识别中训练一个网络,任给一个人脸照片,甚至是没有见过的照片,神经网络都会计算出相应的一个编码结果
  • 学习词嵌入则是有一个固定的词汇表,比如10000个单词,学习向量e1​到e10000​,学习一个固定的编码,即每一个词汇表的单词的固定嵌入

类比推理

 

 

  2个向量之间角度的余弦是衡量它们有多相似的指标,角度越小,两个向量越相似,也可以计算Euclidian distance来比较相似性,即||u−v||2。距离越大,相似性越小

词嵌入矩阵

  不同的词嵌入方法能够用不同的方式学习到一个嵌入矩阵(Embedding Matrix)E。将字典中位置为oi表示,则有:E*oi=ei。但在实际情况下一般不这么做。因为 one-hot 向量维度很高,且几乎所有元素都是 0,这样做的效率太低。因此,实践中直接用专门的函数查找矩阵E的特定列。

 

 2. 学习词嵌入

神经概率语言模型(Neural Probabilistic Language Model)构建了一个能够通过上下文来预测未知词的神经网络,在训练这个语言模型的同时学习词嵌入

 

 训练过程中,将语料库中的某些词作为目标词,以目标词的部分上下文context作为输入,Softmax 输出的预测结果为目标词target。嵌入矩E和w、b 为需要通过训练得到的参数。这样,在得到嵌入矩阵后,就可以得到词嵌入后生成的词向量

关于context的选择有多种方法:target前n个单词或后n个单词,n可调;target前1个单词;target附近某1个单词(Skip-Gram)E

word2Vec

  • Word2Vec 是一种简单高效的词嵌入学习算法,包括 2 种模型:Skip-gram (SG)根据词预测目标上下文 和 Continuous Bag of Words (CBOW)根据上下文预测目标词
  • 每种语言模型又包含负采样(Negative Sampling)和分级的 Softmax(Hierarchical Softmax)两种训练方法。训练神经网络时候的隐藏层参数即是学习到的词嵌入。

 

 

CBOW模型的工作方式与Skim-gram相反,通过采样上下文中的词来预测中间词

对于监督学习问题中的分类任务,在训练时同时需要正例和负例。在分级的 Softmax 中,负例放在二叉树的根节点上;而对于负采样,负例是随机采样得到的。

负采样:选择一个正样本,随机采样k个负样本。

   如上图所示,当输入的词为一对上下文-目标词时,标签设置为 1(这里的上下文也是一个词)。另外任意取 k 对非上下文-目标词作为负样本,标签设置为 0。对于小数据集,k=5到20,数据集越小,K越大; 大数据k=2到5  

  

Glove

 3. 情感分类

情感分类是指分析一段文本对某个对象的情感是正面的还是负面的,实际应用包括舆情分析、民意调查、产品意见调查等等。情感分类的问题之一是标记好的训练数据不足。但是有了词嵌入得到的词向量,中等规模的标记训练数据也能构建出一个效果不错的情感分类器。。

4.词嵌入除偏

语料库中可能存在性别歧视、种族歧视、性取向歧视等非预期形式偏见(Bias),这种偏见会直接反映到通过词嵌入获得的词向量。词嵌入除偏的方法有以下几种:

  • 中和本身与性别无关词汇

  

  • 均衡本身与性别有关词汇:确保一对词(actor 和 actress)到 g⊥的距离相等。

 

 

 

标签:吴恩达,嵌入,训练,模型,单词,上下文,序列,自然语言,向量
From: https://www.cnblogs.com/forever-fate/p/17180846.html

相关文章