首页 > 其他分享 >jieba 分词红楼梦相关的分词,出现次数最高的20个

jieba 分词红楼梦相关的分词,出现次数最高的20个

时间:2023-12-18 19:57:30浏览次数:25  
标签:__ jieba 20 text word counts 分词

点击查看代码
import jieba
import wordcloud


def takeSecond(elem):
    return elem[1]

def createWordCloud(text):           #生成词云函数
    w=wordcloud.WordCloud(font_path="STZHONGS.TTF", width=1000, height=500, background_color="white")
    w.generate(text)

if __name__=='__main__':
    path = r"红楼梦.txt"
    file = open(path, "r", encoding="utf-8")
    text = file.read()
    print(text)
    file.close()

    words = jieba.lcut(text)      # jieba分词
    counts = {}
    for word in words:            # 如果词长度不为1就留起来 (不是单个的字就留起来)
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word, 0) + 1


    fourStopwords = open(r"cn_stopwords.txt", "r", encoding='utf-8').read()          # 打开中文停词表
    StopWord = fourStopwords.split("\n")
    for delWord in StopWord:
        try:
            del counts[delWord]
        except:
            continue

    items = list(counts.items())
    items.sort(key=takeSecond, reverse=True)
    print(items)


标签:__,jieba,20,text,word,counts,分词
From: https://www.cnblogs.com/mumusanshui/p/17912072.html

相关文章

  • Tapdata 亮相 2023 谷歌出海创业加速器展示日活动,实时数据点亮企业创新之路
    12月6日,经过2023谷歌出海创业加速器对入营企业为期3个月的辅导及培训,其毕业典礼及展示日活动在北京举行。经历三个月的沉淀,来自不同行业,包含Tapdata在内的10家入营企业集中亮相,相互分享各自产品的创新思路,共同探讨企业出海的挑战与痛点,交流入营后的收获与感悟。......
  • 2023-12-18设计模式概述
                 ......
  • [NOI2023] 贸易
    题意:给定一棵深度为\(n\)的完美二叉树,根节点为\(1\),对于所有非\(1\)的点,都有一条连到其父亲的边权为\(a_i\)的单向边,除此之外,还给定了\(m\)条单向边(\(u\rightarrowv)\),边权为\(w\),保证\(u\)是\(v\)的祖先,求\(\sum_{i=1}^{2^n-1}\sum_{j=1}^{2^n-1}dis(i,j)\),其......
  • 2023最新中级难度C++面试题,包含答案。刷题必备!记录一下。
    好记性不如烂笔头内容来自面试宝典-中级难度C++面试题合集问:什么是虚函数和纯虚函数?它们有什么区别?虚函数是一种在基类中声明的函数,它可以在派生类中被覆盖以实现多态性。纯虚函数是一种特殊的虚函数,它没有定义任何具体的行为,只声明了一个接口。纯虚函数的目的是为了让......
  • 2023最新高级难度C++面试题,包含答案。刷题必备!记录一下。
    好记性不如烂笔头内容来自面试宝典-高级难度C++面试题合集问:详细解释一下C++中的虚继承(virtualinheritance)的概念及其应用场景。虚继承是一种特殊的继承方式,用于解决多重继承中可能出现的菱形继承问题。菱形继承会导致基类被复制多次,占用额外的内存,并可能导致数据混乱......
  • 11.20
    <%@pagecontentType="text/html;charset=UTF-8"language="java"%><%@pageimport="java.sql.*"%><%@pageimport="javax.naming.*"%><%@pageimport="javax.*"%><html><body&g......
  • 202. 快乐数
    题目202.快乐数要求编写一个算法来判断一个数 n 是不是快乐数。「快乐数」 定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1,也可能是 无限循环 但始终变不到1。如果这个过程 结果为 1,那么这个数就是快乐数......
  • 20231218打卡
    今天考完了java期末测试,50分得了37分,主要扣在了财务统计和审批查询上,同时,今天的考试也不同于以往的练习,不再对USER进行CRUD操作,我是踩了这个坑的,浪费了好多时间,然后我对于业务流程的审批处理操作不够熟悉,在剩余的时间也只完成了大部分的内容。分清楚项目需求真的非常关键且必要,希......
  • 2023年国家基地“楚慧杯”网络安全实践能力竞赛初赛-Crypto+Misc WP
    Miscez_zip题目4096个压缩包套娃我的解答:写个脚本直接解压即可:importzipfilename='附件路径\\题目附件.zip'foriinrange(4097):f=zipfile.ZipFile(name,'r')f.extractall(pwd=name[:-4].encode())name=f.filelist[0].filenameprint(nam......
  • 《2022雷军年度演讲全文:穿越人生低谷的感悟》
    参考:2022雷军年度演讲全文:穿越人生低谷的感悟首先,本次演讲我认为是相比以往很不一样的。雷军讲述了自己职业生涯三次低谷,以及面对人生挫折的复盘,可谓是干货满满。另外演讲的过程中不难看出,他的心中永远保持着梦想和热爱,即使过程并不顺利但依然坚持思考,乐观面对,这种力量是直击人心......