首页 > 编程语言 >python123——西游记相关的分词,出现次数最高的20个

python123——西游记相关的分词,出现次数最高的20个

时间:2023-12-13 09:22:40浏览次数:47  
标签:elif rword word items python123 20 counts 西游记 分词

 

 

 

#统计西游记人物出场次数,(去除冠词,代词等干扰)并降序排列p173
import jieba
excludes={"一个","那里","怎么","我们","不知","两个","甚么","不是","只见","原来","如何","这个","不曾","不敢","闻言","正是","只是","那怪","出来","一声","真个","不得","这里","今日","那个","取经","却说","如今","三个","这般","就是","不见","铁棒","认得","不能","不要","果然","上前","有些","性命"}
txt = open("西游记.txt", "r", encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word=="唐僧" or word=="师父":
        rword="唐僧"
    elif word=="三藏" or word=="沙僧":
        rword="沙僧"
    elif word=="老孙" or word=="大圣" or word=="悟空" or word=="孙行者" or word=="孙大圣":
        rword="悟空"
    # elif word=="孟德" or word=="丞相":
    #     rword="曹操"
    else:
        rword=word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(20):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word, count))

 

运行结果

 

标签:elif,rword,word,items,python123,20,counts,西游记,分词
From: https://www.cnblogs.com/qinuoqwq/p/17898276.html

相关文章

  • 2023年奔走的总结---吉特日化MES 智能搬运AGV 篇三
    《2023年奔走的总结---吉特日化MES项目趣事篇一》《2023年奔走的总结---吉特日化MES制药项目篇二》《2023年奔走的总结---吉特日化MES智能搬运AGV篇三》上篇文章写到了今年关于制药医疗器械相关的项目,本篇文章将重点总结一下今年遇到的A......
  • [20231207]开发不应该这样写sql4.txt
    [20231207]开发不应该这样写sql4.txt--//最近在优化sql语句,发现另外一种风格,实际上以前也遇到过,感觉这就像一种病,会传染只要一个这样写后面的要么跟进要么--//不改。我觉得开发应该感谢exadata,不然我们的生产系统估计会垮掉。1.环境:XXXXXX>@ver1PORT_STRING          ......
  • 【愚公系列】2023年12月 通用职责分配原则(一)-信息专家原则(Information Expert Prin
    ......
  • 2023年,我的些许遗憾
    2023年,我的些许遗憾   虽然我在2023年干的不错,在工作和生活上实现了人生的诸多愿望与奋斗目标,但是也还是留下了些许遗憾。这些遗憾,说大不大,说小也不小,也算是跌宕起伏人生的一个小插曲吧。  2023年最大的遗憾就是没能顺利参与R项目。 R项目的客户是某个世界500强的......
  • 打印100=200之间的素数(质数)
    只能被本身和1整除的数--素数#define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>//1.试除法--低阶intmain(){ inti=0; intcount=0; for(i=100;i<=200;i++) { intj=0; for(j=2;j<=i;j++)//j从2开始是为了直接避免1这个数被除 { if(i%......
  • 【misc】[网刃杯 2022]玩坏的winxp --磁盘取证初探
    附件下载时vmdk文件首先尝试了vm虚拟机挂载,但是失败了,后面了解到winhex也可以挂载vmdk文件,这里我是使用DG进行磁盘分析挂载后,根据这个路径\DocumentsandSettings\Administrator\桌面\10个t的学习资料查找,可以看到有五张图片导出五张图片,binwalk看一下,在第五张图片中分离得......
  • 如何在Unity 3D项目中新建URP项目(Unity版本2021.3.29)
    Step1在UnityHub中新建3D项目Step2在新建好Unity项目当中选择window=>PackageManager=>选择UnityRegistry并搜索UniversalRP点击Install安装Step3在PackageManager中安装完成后,回到Unity编辑器当中查看项目Package发现新增CoreRPLibrary和UniversalRP证明UR......
  • 2023.12.12——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午学习,下午学习;我了解到的知识点:1.c#明日计划:学习......
  • 2023-12-12
    好久都没写过算法题了,上次提交也是一个月之前的事了。 其实第一讲和第二讲都没怎么学好,因此现在开始学第三讲又嗝了这么长时间感觉图论是真的抽象,一个树的重心就把我困了三四天,现在也才终于有了自己的见解了,真的是给我整吐了,距离其实已经过了三个月了,本来是打算三个月把......
  • Solution Set 2023.12.12
    ABC332GNotTooManyBalls可以转化为最大流模型,设节点\(x_i\)代表第\(i\)种球,\(y_j\)代表第\(j\)个盒子。考虑如下建边方案:\(S\rightarrowx_i\),容量为\(A_i\)\(x_i\rightarrowy_j\),容量为\(i\timesk\)\(y_j\rightarrowT\),容量为\(B_j\)可以发现该网络......