首页 > 其他分享 >提取文档的内容,返回每个单词处出现的次数

提取文档的内容,返回每个单词处出现的次数

时间:2023-05-06 18:00:17浏览次数:41  
标签:count word face 单词 次数 文档 print line

#统计文档中每个字出现的次数
word_count={}

with open("D:\Desktop\wde.txt")as fin:#打开文档
    for line in fin :#提取文档的内容
        line=line[:-1]#去掉最后的换行符
        w=line.split()#单词之间是空格
        for word in w:#提取文档内容
            if word not in word_count:#如果没有见过计0
                word_count[word]=0
            word_count[word] +=1#已经计过的加1
w_sort = sorted(
    word_count.items(),#返回一个列表,将每个键值对分开,键与值之间用逗号分割
    key=lambda x: x[1],
    reverse=True
)[:10]#只返回成绩排前10的数据

print(w_sort)#[('and', 11), ('is', 9), ('face', 4), ('can', 4),
print(word_count.items())#dict_items([('Everybody', 1), ('has', 1), ('to', 3), ('face', 4), ('bad', 3),
print(word_count)#{'Everybody': 1, 'has': 1, 'to': 3, 'face': 4, 'bad': 3, 'days': 3, 

标签:count,word,face,单词,次数,文档,print,line
From: https://www.cnblogs.com/36zy/p/16990978.html

相关文章

  • C 语言编写的简单词法分析器 reference.c
    #include<stdio.h>#include<string.h>#defineMAX500 #ifdef__unix#definefopen_s(pFile,filename,mode)((*(pFile))=fopen((filename),(mode)))==NULL#endifintmain(){ FILE*in,*out; charword[MAX];  charcp;  inti; if((fopen_s(&in,"......
  • 多文档事务
    多文档事务mongodb单机只能支持单文档事务,只能保证单文档的原子性,如果想要保证多文档的原子性,那么就需要分布式复制集了,由于我使用的是docker容器创建的mongodb实例,演示的时候也使用docker容器即可。创建三个mongodb实例。--replSet设置集群名称dockerrun--namemongo1......
  • 【Apache POI】Word文档转换HTML,多级列表自定义处理
    本文使用poi和xdocreport组件,在其基础自定义实现某些功能最近有个需求,文档的转换,需要把Word文档转换为编辑器可识别支持的HTML格式类型,Apache的开源组件poi可以解析docx和doc类型的文档,于是使用该组件实现需求关于Word文档的俩种格式,docx格式是一种压缩文件,由xml格......
  • 函数文档
    在函数的定义中,常利用多行注释给函数写文档,称为函数文档。函数文档是一种特殊的注释,以  """  开头和结束函数作为一个对象,有一个特殊的属性__doc__(注意:doc左右两侧均为两个下画线),通过这个属性同样可以获得函数的描述文档。 定义函数有默认值,放在参数的后面......
  • java基于springboot+vue的校园新闻网站、校园新闻管理系统,附源码+数据库+文档+PPT,适合
    1、项目介绍校园新闻网站的主要使用者分为管理员和用户,实现功能包括管理员:首页、个人中心、用户管理、新闻类型管理、校园新闻管理、留言板管理、论坛交流、系统管理,用户前台:首页、校园新闻、论坛交流、留言反馈、个人中心、后台管理等功能。由于本网站的功能模块设计比较全面,所......
  • java基于springboot+vue的垃圾分类管理系统,附源码+文档+PPT+数据库
    1、项目介绍垃圾分类网站的主要使用者分为管理员和用户、垃圾分类管理员,实现功能包括管理员:首页、个人中心、用户管理、垃圾分类管理员管理、垃圾分类管理、垃圾类型管理、垃圾图谱管理、系统管理,垃圾分类管理员;首页、个人中心、用户管理、垃圾分类管理员管理、垃圾分类管理、垃......
  • PyTorch 1.0 中文文档:torch.utils.data
    译者:BXuan694classtorch.utils.data.Dataset表示数据集的抽象类。所有用到的数据集都必须是其子类。这些子类都必须重写以下方法:__len__:定义了数据集的规模;__getitem__:支持0到len(self)范围内的整数索引。classtorch.utils.data.TensorDataset(*tensors)用于张量封装的Dataset类......
  • PyTorch 1.0 中文文档:torch.utils.cpp_extension
    译者:belonHantorch.utils.cpp_extension.CppExtension(name,sources,*args,**kwargs)创建一个C++的setuptools.Extension。便捷地创建一个setuptools.Extension具有最小(但通常是足够)的参数来构建C++扩展的方法。所有参数都被转发给setuptools.Extension构造函数。例子>>>from......
  • PyTorch 1.0 中文文档:Torch 脚本
    译者:keyianpai创建Torch脚本代码将追踪和脚本化结合起来Torch脚本语言参考类型表达式语句变量解析python值的使用调试内置函数Torch脚本是一种从PyTorch代码创建可序列化和可优化模型的方法。用Torch脚本编写的代码可以从Python进程中保存,并在没有Python依赖的进程中加载。我们......
  • PyTorch 1.0 中文文档:torch.utils.bottleneck
    译者:belonHantorch.utils.bottleneck是调试瓶颈bottleneck时首先用到的工具.它总结了python分析工具与PyTorch自动梯度分析工具在脚本运行中情况.在命令行运行如下命令python-mtorch.utils.bottleneck/path/to/source/script.py[args]其中[args]是script.py脚本的参数(任......