分词
基于字典的分词,基于标注的分词
基于字典的分词
基于字典 博客
- 列出所有分词可能,算出每种分词概率
- 马尔可夫假设:每个词的出现只跟前一个词的出现有关
- n-gram:每个词的出现跟前n-1个词有关
- 构建有向无环图,viterbi算法求最优路径
- 效率更高
jieba分词原理
- 加载字典, 生成trie树(字典树,前缀树),生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
- 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
- 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法