python 对文本进行分词

时间：2022-08-20 09:33:07浏览次数：76

标签：函数 python 列表单词 frequency vdic 文本分词

# 导入正则表达式相关模块
import re


# 定义一个函数，通过该函数查找文本字符串中的每一个单词
# 然后计算每个单词出现的次数，最后按照出现次数从多到少放到变量中
def get_char(txt):
    # 通过re.split()函数将英文单词分别取出来，函数的第一个参数是分隔符
    # 第一个参数指定以":" ";"  ","  "." """ 和空格(\s)以及0个或多个空格(\s*)作为分隔符
    # 第二个参数是要拆分的字符串
    # 通过以下代码把字符串分成一个个单词（以分隔符划分）
    # 将分隔出来的单词放到列表变量vlist中
    vlist = re.split('[:;,."\s]\s*', txt)
    # 生产字典变量
    vdic_frequency = dir()
    # 遍历列表变量
    for vchar in vlist:
        # 取出每个单词 并判断字典中是否存在一个元素项（键值对）
        # 该项键名是以该单词命名
        if vchar in vdic_frequency:
            # 如果存在，将该单词命名的键的值加1
            vdic_frequency[vchar] += 1
        else:
            vdic_frequency[vchar] = 1
    # 对字典中的项按键值进行排序，并且是倒叙排序（reverse=True）
    vdic_sort = sorted(vdic_frequency.items(), key=lambda item: item[1], reverse=True)
    return vdic_sort


# 主函数为main

if __name__ == '__main__':
    # 打开文件，读出文件文本
    # 其中test.txt 文件是当前目录下的一篇英文文章，文本类型
    with open('test.txt', 'r') as f:
        vtext = f.read()

    # 调用排序函数
    vstr = get_char(vtext)
    print('列出文本中的英文单词：\n')
    # 在终端上打印文本中的单词
    print(vstr)

(1)get_char()函数的主要流程是：首先用re模块的split()函数对字符串进行分割，这里主要注意的是split()函数的第一个参数实际上是一个正则表达式它能识别多个分隔符，以上实现正确分隔英文单词的目标。split()函数返回一个列表变量，这个列表变量中的每一项是一个单词，接着把单词从列表中取出来加入字典中，这个字段的键名用单词命名，键值用这个单词的在字符串中出现的次数赋值，实现的方式是通过循环遍历列表统计出每个单词出现的次数，然后用统计出的数据修改字典，最后按字典单词何该单词出现的次数两个值组成

（2）主函数的流程是从一个文本文件中读入一个英文长字符串，然后调用get_char()函数取值一个列表变量，再将这个列表变量的内容打印到终端，这样就看到了文本文件的所有英文单词

标签：函数,python,列表,单词,frequency,vdic,文本,分词
From： https://www.cnblogs.com/vigo01/p/16607164.html

学习：python 程序打包exe文件
python程序打包exe.py首先要安裝模块pipinstall pyinstaller按住shift右鍵打开命令窗口-输入命令intaller-F文件名.py,等待执行完成后，文件夹内会多一个dis......
python 中生成列表矩阵
001、>>>[[0]*5foriinrange(3)]##生成3行5列，元素为0的矩阵[[0,0,0,0,0],[0,0,0,0,0],[0,0,0,0,0]] 002、>>>......
python 中判断列表、元组、字符串、字典、集合为空的方法
001、>>>test1=[]>>>test1[]>>>ifnottest1:##判断列表为空...print("noelement")...noelement 002、>>>test......
python 中（序列）内置函数enumerate
pyhton中内置函数enumerate用于将序列生成二元组。001、>>>str1="hello!"##测试字符串>>>foriinenumerate(str1):##enumerate用于......
python中 pysam包FastxFile函数
001、读取fasta文件root@PC1:/home/test#lsa.fastaroot@PC1:/home/test#cata.fasta##测试数据>Rosalind_1ATCCAGCT>Rosalind_2GG......
Python PyInstaller安装和使用教程（详解版）
在创建了独立应用（自包含该应用的依赖包）之后，还可以使用PyInstaller将 Python 程序生成可直接运行的程序，这个程序就可以被分发到对应的Windows或MacOSX平台上运行......
python操作mysql的应用（重复运行注册用户的接口）
1.comm里放置数据操作代码2.conftest.py里放置删除用户代码3.test_register.py里放置测试注册用户的代码(运行注册接口之前先从数据库删除注册的账号) ----------......
python-docx操作word
python-docx学习资料比较不错的，随后附上用于修改表格边框的函数及相关网站OfficeOpenXML(OOXML)-WordProcessing-TableBordersfromdocx.oxmlimportOxmlE......
Python 3 function & *args & *kwargs All In One
Python3function&*args&*kwargsAllInOnelambdafunctionrefs©xgqfrms2012-2020www.cnblogs.com/xgqfrms发布文章使用：只允许注册用户才可以访问！......
Python小游戏——外星人入侵（保姆级教程）第一章 01 02
系列文章目录第一章：武装飞船01：创建Pygame窗口以及响应用户输入02：创建设置类Setting()一、前期准备1.语言版本Python3.9.02.编译器Pycharm20223.下载Pygame点击下......

python 对文本进行分词

相关文章

赞助商

阅读排行