首页 > 其他分享 >jieba 分词西游记

jieba 分词西游记

时间:2023-12-17 22:27:31浏览次数:22  
标签:jieba rword word items elif counts 西游记 分词


import jieba

txt = open("西游记.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}

for word in words:
if len(word) == 1:
continue
elif word == "大圣" or word=="老孙" or word=="行者" or word=="孙大圣" or word=="孙行者" or word=="猴王" or word=="悟空" or word=="齐天大圣" or word=="猴子":
rword = "孙悟空"
elif word == "师父" or word == "三藏" or word=="圣僧":
rword = "唐僧"
elif word == "呆子" or word=="八戒" or word=="老猪":
rword = "猪八戒"
elif word=="沙和尚":
rword="沙僧"
elif word == "妖精" or word=="妖魔" or word=="妖道":
rword = "妖怪"
elif word=="佛祖":
rword="如来"
elif word=="三太子":
rword="白马"
else:
rword = word
counts[rword] = counts.get(rword,0) + 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

for i in range(20):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))

 

扫描第一章运行结果(一本书太大了)

孙悟空 119
祖师 54
石猴 49
一个 22
什么 21
唐僧 21
弟子 18
老猴 15
神仙 14
我们 13
起来 13
大王 13
怎么 12
哪里 11
问道 10
地上 10
高兴 10
知道 9
本事 9
妖怪 9

标签:jieba,rword,word,items,elif,counts,西游记,分词
From: https://www.cnblogs.com/wqx3121343019/p/17909946.html

相关文章

  • jieba分词
    jieba分词‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬描述‪‬‪‬‪‬‪‬‪‬‮‬‪‬......
  • jieba分词之聊斋
    importjiebaexcludes={"不知","不可","一日","不敢","数日","以为","不能","可以","不得","如此","------------","三日","而已","明日","其中&qu......
  • jieba分词
    importjiebapath="all.txt"#读取文本文件file=open(path,"r",encoding="utf-8")text=file.read()file.close()words=jieba.lcut(text)#使用jieba分词counts={}#统计词频forwordinwords:iflen(word)==1:#过滤掉长度为1的词语......
  • jieba分词
    importjiebawithopen('红楼梦.txt','r',encoding='utf-8')asf:#打开文件txt=f.read()#读取为txtwords=jieba.lcut(txt)#利用jieba库的lcut分词counts={}#创建字典forwordinwords:#逐个遍历iflen(word)==1:#对于一些分词之......
  • 一种可以实现搜索结果按照相似度来排序的sql,核心是分词和order by like 的使用
    常规的搜索一般使用like执行模糊搜索,这种搜索有个缺陷,一旦搜索内容里面有一个错的就会导致搜索失败。有没有一种实现可以容错的且按照相似度排序的方法呢?类似百度google那样的。经过自己的测试发现使用分词结合排序的orderbylike可以实现。我直接给出例子sql的吧  比如......
  • python123——西游记相关的分词,出现次数最高的20个
       #统计西游记人物出场次数,(去除冠词,代词等干扰)并降序排列p173importjiebaexcludes={"一个","那里","怎么","我们","不知","两个","甚么","不是","只见","原来","如何","这个","不曾&q......
  • R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
    原文链接:https://tecdat.cn/?p=34469原文出处:拓端数据部落公众号本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供......
  • 通过结巴分词 sklearn判断语句和例句集合最相近的句子
    `importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["分析一下攻击队QAX的攻击行为","分析一下防守单位QAX的防守情况","分析一下目标资产1.1.1.1相关的攻击行为","攻击队QAX......
  • jieba-cant-extract-single-character
    jiebacantextractsinglecharacterSubtitle:jieba无法提取单个字符Created:2023-11-13T15:28+08:00Published:2023-11-13T15:45+08:00以句子"我喜欢赵"为例,用「赵」代指某个人名,使用jieba提取关键词:importjiebaimportjieba.analyseimportjieba.possegaspseg......
  • ElasticSearch-集成ik分词器
    目录背景介绍版本选择优势说明集成过程1.下载安装包2.解压安装包3.重启ElasticSearch服务3.1通过ps-ef|grepelastic查看正在启动的es进程号3.2使用kill-9xxx杀死进程3.3使用./elasticsearch启动es服务分词测试细粒度分词方式分词请求分词结果粗粒度分词方式分词请求分词......