• 2024-05-20【文本挖掘】(三)文本表示
    文本表示的概念核心:将字符串以计算机形式进行表示出来,如向量化。分类离散/向量表示:词袋模型(独热编码、TF-IDF、N-gram)分布式表示:词嵌入wordembedding,包括word2vec、Glove、ELMO、GPT、BERT等。基于矩阵:基于降维表示和基于聚类表示基于神经网络:CBOW、Skip-gram、NNLM