使用 add_word(word, freq=None, tag=None)
和 del_word(word)
可在程序中动态修改词典。
使用 get_FREQ(word)
用来统计当前词的词频。
使用 suggest_freq(segment, tune=True)
可调节单个词语的词频,使其能(或不能)被分出来。
注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。
# test frequency tune testlist = [ ('今天天气不错', ('今天', '天气')), ('如果放到post中将出错。', ('中', '将')), ('我们中出了一个叛徒', ('中', '出')), ] for sent, seg in testlist: print('/'.join(jieba.cut(sent, HMM=False))) word = ''.join(seg) print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True))) print('/'.join(jieba.cut(sent, HMM=False))) print("-"*40)
今天天气/不错 今天天气 Before: 3, After: 0 今天/天气/不错 如果/放到/post/中将/出错/ 中将 Before: 763, After: 494 如果/放到/post/中/将/出错/。 我们/中/出/了/一个/叛徒 中出 Before: 3, After: 3 我们/中/出/了/一个/叛徒
标签:jieba,word,After,Before,词频,print,字典,调整 From: https://www.cnblogs.com/wajava/p/18111128