首页 > 编程语言 >实现高词频的统计以及文件的操作(python_jieba分词)

实现高词频的统计以及文件的操作(python_jieba分词)

时间:2023-06-20 10:05:24浏览次数:47  
标签:jieba 曹操 python 陈宫 词频 董卓 分词 sent


Requests

jieba 分词应用:使用 jieba 分词对一个文本进行分词,将分词结果保存于文件“fc.txt”中,注意结果只保存有效词语,单字不保存。并统计在文章中出现次数最多的前五个词语(一个字的不算词语)。(问题来源:旺财的python作业)

Text

董卓进京后,废立皇帝,残害百姓,荒淫暴虐,激起群臣共愤。一日,司徒王允假借庆寿,约请几位旧臣到他府中叙谈。当他谈到:“社稷旦夕难保”时,情不自禁,掩面哭泣。骁骑校尉曹操自告奋勇,愿行刺董卓。他向王允借来七星宝刀,来到董卓相府,伺机行刺。董卓正在园中小阁休息,他问曹操:“何故来迟?”曹操说因马太瘦弱。董卓便命吕布为曹操挑选一匹好马,吕布出阁而去。
董卓因感困乏,倒身而卧,当他面朝里翻过身去时,曹操急忙拔出宝刀,刚要行刺,不料董卓从铜镜中看见曹操拔刀的身影,急忙回身问操,此时吕布已经牵马来到小阁,曹操急中生智,立即捧刀跪下说:“操近得七宝刀一口,献上恩相。”董卓接过宝刀,很是喜爱,便让操出阁去看马,曹操将马牵出相府,飞身上马,逃出洛阳。
董卓察觉事有蹊跷,知是曹操行刺,便命各地画影图形,捉拿曹操。曹操欲回乡,途经中牟县,被县令陈宫认出。陈宫得知曹操要号召天下诸侯,兴兵共讨董卓,被他的壮志打动,便弃了官职,追随曹操。一天,他们借宿在曹操故友吕伯奢家中,吕伯奢往邻村买酒款待二人。
曹操听到吕家厨房杀猪时的刀声和人语,疑心吕家要加害于他,误杀了吕伯奢全家。为了避免留下后患,在路上又杀死了买酒回来的吕伯奢。陈宫责怪曹操不该“明知而故杀”。曹操却冷笑道:“宁教我负天下人,休教天下人负我。”
陈宫不愿跟随这样不仁不义的人,弃操而去。
曹操逃回陈留之后,尽散家财,招兵买马,准备联络袁绍等人共讨董卓。”

Process

用jieba分词的话要先下载第三方库——jieba,命令符窗口中输入下载命令:pip install jieba -i https://pypi.doubanio.com/simple/,用的是豆瓣源的下载,个人觉得豆瓣是最快的,不接受反驳,谢谢hhh。

Code

import jieba
fR = open('a.txt', 'r', encoding='gb2312')
result={}
sent = fR.read()
sent_list = jieba.lcut(sent)
for i in sent_list:
    if len(i)<2:
        sent_list.remove(i)
    else:
        temp=result.get(i,"none")
        if temp=="none":
            result[i]=1
        else:
            result[i]+=1
d_order = sorted(result.items(), key=lambda x: x[1], reverse=True)
for i in range(len(d_order)):
    if i<5:
        print(d_order[i][0])
fR.close()

Result

实现高词频的统计以及文件的操作(python_jieba分词)_Code


标签:jieba,曹操,python,陈宫,词频,董卓,分词,sent
From: https://blog.51cto.com/u_16165815/6520491

相关文章

  • Python和c语言爬虫如何选择?
    Python是最受欢迎的爬虫语言之一,因为它易于学习和使用,有大量的库和框架可供选择。JavaScript通常用于Web爬虫,因为它可以直接在浏览器中运行,可以轻松地从动态网站中提取数据。java是一种广泛使用的语言,它有很多强大的库和框架,可以用于爬虫。具体用哪个语言做爬虫完全取决于你的项目......
  • python编程规范之函数变量定义规范
    我们经常能看到一些人写代码是这样的:defmy_function():print(my_variable)my_variable=10my_function()在这种情况下,代码将正常运行并输出变量的值为10。当你在函数内部引用一个变量时,Python首先会查找函数内部是否定义了该变量。如果没有找到,它会继续查找函数外......
  • Loop or Iterate over all or certain columns of a dataframe in Python-pandas 遍历
    Inthisarticle,wewilldiscusshowtolooporIterateoverallorcertaincolumnsofaDataFrame?Therearevariousmethodstoachievethistask.Let’sfirstcreateaDataframeandseethat: Code:  Python3  #importpandaspackageim......
  • Python爬虫需要那些步骤 ?
    Python爬虫是一种自动化程序,可以通过网络爬取网页上的数据。Python爬虫可以用于各种用途,例如数据挖掘、搜索引擎优化、市场研究等。Python爬虫通常使用第三方库,例如BeautifulSoup、Scrapy、Requests等,这些库可以帮助开发者轻松地获取网页上的数据。Python爬虫的工作原理是通过HTTP......
  • python: draw
     #-*-coding:utf-8-*-#pipinstallpygame"""DrawTool.py画板"""importmathimportpygamefrompygame.localsimportQUIT,KEYDOWN,K_ESCAPE,MOUSEBUTTONDOWN,MOUSEMOTION,MOUSEBUTTONUP#导入事件classBrush(object):......
  • Python学习笔记
    函数调试相关F8stepover单步执行会把函数调用视作一行,直接执行,不会进入函数内部F7stepinto也可以单步执行,如果是函数,会进入函数内部函数注释使用三对引号参数相关形参和实参:定义函数时使用的参数是形参,调用函数时传入的函数是实参局部变量和全局变量:局部变量是在函......
  • BUUCTF:[SUCTF 2019]Pythonginx
    @app.route('/getUrl',methods=['GET','POST'])defgetUrl():url=request.args.get("url")host=parse.urlparse(url).hostnameifhost=='suctf.cc':return"我扌yourproblem?111&q......
  • python读取csv文件进行绘图
    2023-06-19   https://www.cnblogs.com/NJ-Leon/  1.matplotlib库安装升级pip: python3-mpipinstall-Upip 安装matplotlib库: python3-mpipinstall-Umatplotlib 2.python代码importcsvimportmatplotlib.pyplotaspltfile_path......
  • linux中进入python交互解释器Tab补全功能
    进入python交互解释器后,按tab键默认是缩进功能,而不是代码补全。为了实现代码补全,可以采用如下操作:1、创建指令补全文件[root@room8pc16 ~]# vim /usr/local/bin/tab.pyfrom rlcompleter import readlinereadline.parse_and_bind('tab: complete')2、配置环境变量,在~/.bashrc......
  • python基础 | python中为什么没有自增运算符?
    学过Java或者C语言的同学在使用python时发现之前很方便的自增运算在python中无法使用,要想弄清楚这个问题,首先需要明白什么是自增运算符?自增运算符:自增运算符的作用是在运算结束前将变量的值加1。自增运算符一般存在于C/C++/C#/Java等高级语言中。自增运算是在该数字原来的内存地......