Word2Vec 是一种用于生成词向量的模型,由 Tomas Mikolov 等人在 2013 年提出。它通过从大量语料库中学习,捕捉词汇之间的语义关系。Word2Vec 主要包括两种模型架构:
1. CBOW(Continuous Bag of Words)模型
CBOW 模型通过上下文词来预测中心词。它的工作原理如下:
- 输入:上下文词(例如,选取中心词的前后几个词)。
- 输出:中心词的概率分布。
- 方法:将上下文词的词向量取平均值,然后用这个平均值预测中心词的概率。目标是最大化中心词的预测概率。
特点:
- 适合处理大规模数据,计算效率较高。
- 由于是通过上下文词来预测中心词,更加注重词汇的共现关系。
2. Skip-gram 模型
Skip-gram 模型则与 CBOW 相反,它通过中心词来预测上下文词。具体原理如下:
- 输入:中心词。
- 输出:上下文词的概率分布。
- 方法:对于每个中心词,预测它周围的上下文词。目标是最大化上下文词的预测概率。
特点:
- 适合处理较小规模的数据,尤其在处理稀有词汇时效果更好。
- 更加注重捕捉词汇之间的精细语义关系。
3. 其他相关扩展模型
虽然 CBOW 和 Skip-gram 是 Word2Vec 的主要模型,但还有一些相关的扩展或变种模型:
-
Negative Sampling:为了解决全词汇表的 softmax 计算开销,Skip-gram 模型中常使用负采样。它通过从非上下文词中随机采样来简化计算。
-
Hierarchical Softmax:一种替代传统 softmax 的方法,使用霍夫曼树(Huffman Tree)来表示词汇表,从而减少计算复杂度。
-
Subword Information(如 FastText):FastText 是 Word2Vec 的一种扩展,它不仅学习词的向量表示,还考虑词的子词(subword)信息。这使得模型可以更好地处理拼写错误或新词。
总结
- CBOW:基于上下文词预测中心词,适合大规模数据,效率高。
- Skip-gram:基于中心词预测上下文词,适合捕捉细粒度语义关系,对稀有词效果更好。
- Negative Sampling 和 Hierarchical Softmax:用于优化模型计算效率。
- FastText:一种考虑子词信息的扩展,适合处理拼写变化和低频词。
Word2Vec 的这些模型和扩展广泛应用于自然语言处理任务中,如文本分类、情感分析、信息检索等。
标签:中心词,Word2Vec,Skip,模型,介绍,CBOW,上下文 From: https://www.cnblogs.com/chentiao/p/18353959