jieba分词 | 西游记相关分词,出现次数最高的20个。

时间：2023-12-25 21:34:06浏览次数：54

代码

 1 import jieba
 2 
 3 txt = open("《西游记》.txt", "r", encoding='utf-8').read()
 4 
 5 words = jieba.lcut(txt)  # 使用精确模式对文本进行分词
 6 
 7 counts = {}  # 通过键值对的形式存储词语及其出现的次数
 8 
 9 for word in words:
10     if len(word) == 1:
11         continue
12     elif word == "大圣" or word == "老孙" or word == "行者" or word == "孙大圣" or word == "孙行者"\
13         or word == "猴王" or word == "悟空" or word == "齐天大圣" or word == "猴子":
14         rword = "孙悟空"
15     elif word == "师父" or word == "三藏" or word == "圣僧":
16         rword = "唐僧"
17     elif word == "呆子" or word == "八戒" or word == "老猪":
18         rword = "猪八戒"
19     elif word == "沙和尚":
20         rword = "沙僧"
21     elif word == "妖精" or word == "妖魔" or word == "妖道":
22         rword = "妖怪"
23     elif word == "佛祖":
24         rword = "如来"
25     elif word == "三太子":
26         rword = "白马"
27     else:
28         rword = word
29 
30     counts[rword] = counts.get(rword, 0) + 1
31 
32 items = list(counts.items())  # 将键值对转换成列表
33 
34 items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序
35 
36 for i in range(20):
37     word, count = items[i]
38     print("{0:<10}{1:>5}".format(word, count))

标签：jieba,rword,word,elif,20,分词
From： https://www.cnblogs.com/223746q/p/17927009.html

2023 CCPC 女生
gymB.终焉之茧$\star$显然两个维度分别做单谷函数，起始点$A$是一个端点。一个naive的想法是三分目标点$B$，但交互次数会超。二分关于$B$对称点$C$即可注意题目要求距离为$0$时立刻结束而不是最终距离为$0$。一晚上没调出来E.永世乐土keyobser......
2023.12.25 近期练习
CF1793F有一个朴素的想法，使用不删除莫队，使用一种数据结构维护相邻元素的差，$O(n\sqrtq\logn)$。可以通过链表加不增加莫队，维护最小值，使用值域分块，$O(n\sqrtq+q\sqrtn)$。即使如此，也因为常数过大无法通过。考虑使用扫描线，从右往左扫描区间，将询问挂到左端点上。大于小......
JavaScript读写FM1208 CPU卡源码
本示例使用的发卡器：<!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><htmlxmlns="http://www.w3.org/1999/xhtml"><head><metahttp-equiv=&quo......
建管家受邀出席2023第五届建筑供应链大会，以数字化服务引领行业新风向
12月7日至9日，2023第五届建筑供应链大会在浙江省绍兴市盛大召开。本次大会由中国建筑业协会主办，汇聚了众多行业协会、领军企业以及专家学者，共同探讨建筑供应链的创新与协同发展。作为中国建筑业协会的优秀会员及数字化服务商，建管家受邀出席并在现场展示了其独特的数字化服务成果......
从零开始掌握MAYA 2022：打造视觉创意的艺术大师之路
......
2023年12月随便做做
代码链接2023.12.03难绷了，ruarua地厌学，救命。Codeforces-1086F-ForestFires(0)以前的比赛原题，当时场切了。今天找到原题，觉得当时自己太牛逼了，反观现在自己真的是越学越菜。2023.12.04VP了场Edu，名副其实出题人〇神玩多了。CF1902F-TreesandXORQueriesAgain(......
前端学习笔记202310学习笔记第一百贰拾贰天-nodejs-命令行操作29
......
前端学习笔记202310学习笔记第一百贰拾贰天-nodejs-命令行操作29
......
ISCTF2023部分WP
write-up:战队：来日方长赛道：进阶赛道队长：张伟文队员：结局别在遗憾Zn.WEB:圣杯战争!!!（题解：结局别说遗憾Zn.）解题思路：打开题目链接，代码如下：<?phphighlight_file(__FILE__);error_reporting(0);classartifact{public$excalibuer;public$arrow;publicfunction_......
office2019专业增强版word功能讲解及安装包收集整理
简介Office2019专业增强版是微软最新推出的办公软件，相信大家对这款软件并不陌生。这款软件提供了许多实用的功能，例如多显示器优化功能。当我们使用两个显示器时，很难保证它们的分辨率完全相同，因此在不同显示器上显示文档时可能会出现差异。使用多显示器优化功能可以有效地避免在不同......

jieba分词 | 西游记相关分词,出现次数最高的20个。

相关文章

赞助商

阅读排行