李沐 动手学深度学习 学习笔记
词向量是⽤于表⽰单词意义的向量,并且还可以被认为是单词的特征向量或表⽰。 将单词映射到实向量的技术称为词嵌⼊。近年来,词嵌⼊逐渐成为⾃然语⾔处理的基础知识。 虽然独热向量很容易构建,但它们通常不是⼀个好的选择。 ⼀个主要原因是独热向量不能准确表达不同词之间的相似度,⽐如我们经常使⽤的“余弦相似度”。 任意两个不同词的独热向量之间的余弦相似度为0,所以独热向量不能编码词之间的相似性。 word2vec⼯具是为了解决上述问题⽽提出的。 它将每个词映射到⼀个固定⻓度的向量,这些向量能更好地表达不同词之间的相似性和类⽐关系。 word2vec⼯具包含两个模型,即跳元模型(skip-gram)[Mikolov et al., 2013b]和连续词袋(CBOW)[Mikolov et al., 2013a]。 对于在语义上有意义的表⽰,它们的训练依赖于条件概率,条件概率可以被看作是使⽤语料库中⼀些词来预测另⼀些单词。 由于是不带标签的数据,因此跳元模型和连续词袋都是⾃监督模型。