one-hot
词表有多大,每个词的词向量就有多少维
不足
- 稀疏。
- 没有语义信息。
Word2Vec
两种训练框架:
- CBOW:上下文预测中心词
- skip-gram:中心词预测上下文 (word embedding多用这种)
word2vec的词向量考虑到了词的前后一定窗口内的上下文语义信息,且表示更加稠密。
不足
- 词向量是静态的,一词多义无法解决。
ELMo
使用双向LSTM来对句子的每个词建模
-
相比于word2vec具有更深的网络层次,可以捕获到更高级别的语法、语义等信息;
-
同时结合了前向和后向表征,有效地融合了上下文特征,更好地表征一词多义;
不足
- 并行能力差
- LSTM处理长依赖问题弱于bert
Bert
使用Attention机制代替RNN,解决长依赖问题,可以并行化
标签:中心词,多义,模型,语义,经典,LSTM,上下文,向量 From: https://www.cnblogs.com/shiiiilong/p/17365203.html