目录
1、认识Python
Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。
Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字或标点符号,它具有比其他语言更有特色的语法结构。
2、环境与工具
2.1 python环境
在Windows上使用命令行窗口查看所安装的python版本
python
2.2 pycharm编译
在这里可以直接使用社区版的pycharm进行代码编译。
3、对文本进行分词
3.1 代码构思
使用re模块的split()函数对字符串进行分隔
3.2 代码示例
import re
from collections import Counter
# 定义函数,用于查找文本字符串中的每一个单词,并计算出现次数
def get_char(txt):
# 拆分方式,过滤掉空字符串
vlist = re.findall(r'\b\w+\b', txt.lower())
# 使用Counter来统计词频
vdic_fre = Counter(vlist)
# 按照频率排序
vdic_sort = vdic_fre.most_common()
return vdic_sort
if __name__ == '__main__':
# 读取文本文件
with open('test.txt', 'r', encoding='utf-8') as f:
vtext = f.read()
# 调用排序函数
vstr = get_char(vtext)
print('列出文本中的单词:\n')
print(vstr)
3.3 运行结果
还需要在代码的目录下新建一个文件:test.txt
输入内容并保存,然后运行程序
4、总结
使用该函数可用作对文本内容进行整理,按照设定的分词方式进行文本分词。
标签:__,txt,python,实例,vdic,文本,分词 From: https://blog.csdn.net/LNN0212/article/details/139594974