首页 > 其他分享 >jieba分词 | 西游记相关分词,出现次数最高的20个。

jieba分词 | 西游记相关分词,出现次数最高的20个。

时间:2023-12-25 21:34:06浏览次数:44  
标签:jieba rword word elif 20 分词

代码

 1 import jieba
 2 
 3 txt = open("《西游记》.txt", "r", encoding='utf-8').read()
 4 
 5 words = jieba.lcut(txt)  # 使用精确模式对文本进行分词
 6 
 7 counts = {}  # 通过键值对的形式存储词语及其出现的次数
 8 
 9 for word in words:
10     if len(word) == 1:
11         continue
12     elif word == "大圣" or word == "老孙" or word == "行者" or word == "孙大圣" or word == "孙行者"\
13         or word == "猴王" or word == "悟空" or word == "齐天大圣" or word == "猴子":
14         rword = "孙悟空"
15     elif word == "师父" or word == "三藏" or word == "圣僧":
16         rword = "唐僧"
17     elif word == "呆子" or word == "八戒" or word == "老猪":
18         rword = "猪八戒"
19     elif word == "沙和尚":
20         rword = "沙僧"
21     elif word == "妖精" or word == "妖魔" or word == "妖道":
22         rword = "妖怪"
23     elif word == "佛祖":
24         rword = "如来"
25     elif word == "三太子":
26         rword = "白马"
27     else:
28         rword = word
29 
30     counts[rword] = counts.get(rword, 0) + 1
31 
32 items = list(counts.items())  # 将键值对转换成列表
33 
34 items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序
35 
36 for i in range(20):
37     word, count = items[i]
38     print("{0:<10}{1:>5}".format(word, count))

 

标签:jieba,rword,word,elif,20,分词
From: https://www.cnblogs.com/223746q/p/17927009.html

相关文章

  • 2023 CCPC 女生
    gymB.终焉之茧\(\star\)显然两个维度分别做单谷函数,起始点\(A\)是一个端点。一个naive的想法是三分目标点\(B\),但交互次数会超。二分关于\(B\)对称点\(C\)即可注意题目要求距离为\(0\)时立刻结束而不是最终距离为\(0\)。一晚上没调出来E.永世乐土keyobser......
  • 2023.12.25 近期练习
    CF1793F有一个朴素的想法,使用不删除莫队,使用一种数据结构维护相邻元素的差,\(O(n\sqrtq\logn)\)。可以通过链表加不增加莫队,维护最小值,使用值域分块,\(O(n\sqrtq+q\sqrtn)\)。即使如此,也因为常数过大无法通过。考虑使用扫描线,从右往左扫描区间,将询问挂到左端点上。大于小......
  • JavaScript读写FM1208 CPU卡源码
    本示例使用的发卡器:<!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><htmlxmlns="http://www.w3.org/1999/xhtml"><head><metahttp-equiv=&quo......
  • 建管家受邀出席2023第五届建筑供应链大会,以数字化服务引领行业新风向
     12月7日至9日,2023第五届建筑供应链大会在浙江省绍兴市盛大召开。本次大会由中国建筑业协会主办,汇聚了众多行业协会、领军企业以及专家学者,共同探讨建筑供应链的创新与协同发展。作为中国建筑业协会的优秀会员及数字化服务商,建管家受邀出席并在现场展示了其独特的数字化服务成果......
  • 从零开始掌握MAYA 2022:打造视觉创意的艺术大师之路
    ......
  • 2023年12月随便做做
    代码链接2023.12.03难绷了,ruarua地厌学,救命。Codeforces-1086F-ForestFires(0)以前的比赛原题,当时场切了。今天找到原题,觉得当时自己太牛逼了,反观现在自己真的是越学越菜。2023.12.04VP了场Edu,名副其实出题人〇神玩多了。CF1902F-TreesandXORQueriesAgain(......
  • 前端学习笔记202310学习笔记第一百贰拾贰天-nodejs-命令行操作29
    ......
  • 前端学习笔记202310学习笔记第一百贰拾贰天-nodejs-命令行操作29
    ......
  • ISCTF2023部分WP
    write-up:战队:来日方长赛道:进阶赛道队长:张伟文队员:结局别在遗憾Zn.WEB:圣杯战争!!!(题解:结局别说遗憾Zn.)解题思路:打开题目链接,代码如下:<?phphighlight_file(__FILE__);error_reporting(0);classartifact{public$excalibuer;public$arrow;publicfunction_......
  • office2019专业增强版word功能讲解及安装包收集整理
    简介Office2019专业增强版是微软最新推出的办公软件,相信大家对这款软件并不陌生。这款软件提供了许多实用的功能,例如多显示器优化功能。当我们使用两个显示器时,很难保证它们的分辨率完全相同,因此在不同显示器上显示文档时可能会出现差异。使用多显示器优化功能可以有效地避免在不同......