分词库的安装
下载只需要一次即可 pip install jieba
分词的使用
精准模式 默认二级使用精准模式
import jieba
li = jieba.lcut(句子)
全模式
import jieba
li = jieba.lcut(句子,cut_all=True)
词频统计
li = ["a","b","a"]
d = {}
for w in li:
# 查看这个w在字典中有几个
old_num = d.get(w,0)
# 现在的个数=之前个数+1
new_num = old_num + 1
# 更新字典
d[w] = new_num
print(d) # 统计好词频的字典
词频字典的排序
# 假设d是有数据的字典
d = {}
# 先获得有序的键值对内容
items = d.items()
# 把这个内容变成列表
items_list = list(items) #[(词,数),(词,数)]
# 列表降序
items_list.sort(key=lambda o:o[1],reverse=True)
# 输出结果
print(items_list)
标签:知识点,jieba,items,list,li,num,190143,MIT,字典
From: https://blog.51cto.com/u_13137233/11909829