首页 > 其他分享 >jieba分词-红楼梦-次数前20

jieba分词-红楼梦-次数前20

时间:2023-12-28 23:45:52浏览次数:31  
标签:jieba word items file 20 counts 分词

import jieba

读取文本文件

path = "红楼梦.txt"
file = open(path, "r", encoding="utf-8")
text = file.read()
file.close()

使用jieba分词

words = jieba.lcut(text)

统计词频

counts = {}
for word in words:
# 过滤掉长度为1的词语
if len(word) == 1:
continue
# 更新字典中的词频
counts[word] = counts.get(word, 0) + 1

对字典中的键值对进行排序

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

输出前20个高频词语

for i in range(20):
word, count = items[i]
print(f"{word:<10}{count:>5}")
image

标签:jieba,word,items,file,20,counts,分词
From: https://www.cnblogs.com/sleepsleepsleep/p/17933831.html

相关文章

  • 2024年Android开发出路还能搞车载吗?
    前言众所周知今年互联网行业发展的并不愉快,导致互联网行业的就业形式不太理想,“开猿节流”的事情时有发生,于是不少Android开发萌生了转行做车载的想法。什么是车机开发?车机指的是安装在汽车里面的车载信息娱乐产品的简称,通俗点说就是我们在车内经常使用的收音机、音乐播放、地图导......
  • 20231228
    年末越来越近了,我的心也越来越沉重了。今天晚上ml把我们去年写的「给明年的自己的信」发给我们了,我好像是最后一个得到的(不过有些人都没得到?),说实话要不是ml要搞这个活动我都已经忘记了。看了一下,我给自己写的是:省流:不要摆烂不能摆烂!不能摆烂!绝对不能摆烂!不可能摆烂!别......
  • ICPC2021Kunming G Glass Bead Game 题解
    QuestionICPC2021KunmingGGlassBeadGame有\(n\)个玻璃珠,\(B_1,B_2,\cdots,B_n\)每一步你可以选择一个\(B_i\)移道第一个位置上,花费的代价为操作前\(B_i\)前面的玻璃珠的个数。已知每一步选择玻璃珠\(B_i\)的概率\(p_i\),问当\(m\rightarrow\infty\)时,在第\(......
  • jieba库
    ```importjieba#读取文本文件path="红楼梦.txt"file=open(path,"r",encoding="utf-8")text=file.read()file.close()#使用jieba分词words=jieba.lcut(text)#统计词频counts={}forwordinwords:#过滤掉长度为1的词语iflen(word)==1:......
  • ICPC2021Kunming G Find the Maximum 题解
    QuestionFindtheMaximum给出一个树,每个点有一个权值\(b_n\),求一条树上路径\(V\),要求\(\frac{\sum_{u\inV(-x^2+b_ux)}}{|V|}\)最大,其中\(x\)是自己选择的一个树Solution先转化一下\(\frac{\sum_{u\inV(-x^2+b_ux)}}{|V|}\),得到\[\frac{\sum_{u\inV(-x^2+b_......
  • 红楼梦jieba 分词
    importjiebatxt=open("D:\pycharm\python123\jieba分词作业\红楼梦.txt","r",encoding='utf-8').read()words=jieba.lcut(txt)#精确模式进行分词count={}#创建空字典forwordinwords:iflen(w......
  • 西游记jieba分词
    importjiebatxt=open("西游记.txt","r",encoding='utf-8').read()words=jieba.lcut(txt)#使用精确模式对文本进行分词counts={}#通过键值对的形式存储词语及其出现的次数forwordinwords:iflen(word)==1:continueelifwordin......
  • 分词
    importjiebatxt=open("红楼梦.txt","r",encoding='UTF-8').read()words=jieba.lcut(txt)count={}forwordinwords:  iflen(word)==1:    continue  else:    count[word]=count.get(word,0)+1    cut=[......
  • 2023.12.28——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午学习,下午学习;我了解到的知识点:1.ERP明日计划:学习......
  • jieba 分词-红楼梦
    importjiebaexcludes={"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己",......