首页 > 编程语言 >Python实现文件中的所有词汇分割为单独的字母

Python实现文件中的所有词汇分割为单独的字母

时间:2022-10-03 21:38:36浏览次数:57  
标签:__ 词汇 Python 字母 character outputFileName sourceFilePath print newFile

  1. 基于Character-Based Language Model在制作之前需要对语料库中的词汇进行分割,将每个字母单拎出来存在另一个文件里使用;
  2. 下方是干分割工序的Python脚本:
# -*- coding: UTF-8 -*-
import string
import sys

def SplitIntoCharacters(sourceFilePath, outputFileName):
sourceFile = open(sourceFilePath)
newFile = open(outputFileName, 'a')
chn_punctuations = "!?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."
for word in sourceFile.read().split():
for character in word:
isPunct = character in string.punctuation or character in chn_punctuations
if not isPunct:
newCharacter = character.lower() + "\n"
newFile.writelines(newCharacter)
sourceFile.close()
newFile.close()
print("done!")


if __name__ == "__main__":
# print('args list:', str(sys.argv))
sourceFilePath = sys.argv[1]
outputFileName = sys.argv[2]
if sourceFilePath == ' ' or outputFileName == ' ':
print("Error: Source file path or the output file name is empty")
else:
SplitIntoCharacters(sourceFilePath, outputFileName)

# by Alexander Enharjan
  1. 用法是:
python3 wordSpliter (INPUT_FILE_PATH) (OUTPUT_FILE_PATH)


作者:艾孜尔江·艾尔斯兰

转载请务必标明出处!



标签:__,词汇,Python,字母,character,outputFileName,sourceFilePath,print,newFile
From: https://blog.51cto.com/u_15127808/5730473

相关文章

  • python爬虫配置随机请求头headers伪装User-Agent
    python爬虫随机headers伪装fake_useragentfake_useragent库调用方法ua.random可以随机返回一个headers(User-Agent)fromfake_useragentimportUserAgent#下载:pipins......
  • python 利用md5去重 转载
    原文连接:https://blog.csdn.net/babytiger/article/details/90293866#/usr/bin/envpython#-*-coding:utf-8-*-#运行的代码文件要放到删除重复的文件或图片所包含......
  • python中getter和setter方法的使用
    classUserInfo(object):@propertydefusername(self):#这里返回的self.名字不能和函数名同名[email protected](self,usern......
  • Python语法之集合
    集合是无序元素的集合,集合中的元素不可重复,并且创建完成后,其中的元素不可更改。但是整个集合是可以更改的,我们可以向其增加元素,也可以从中删除元素。也就是说,我们无法修改......
  • Python SQLite3 基本操作类
    #!/usr/bin/envpython#encoding:utf-8"""@version:v1.0@author:W_H_J@license:ApacheLicence@contact:[email protected]@software:PyCharm@f......
  • python类型注解
    python类型注解functionannotation写法:使用冒号:加类型代表参数类型默认值参数示例:b:int=2使用->加类型代表返回值类型python解释器运行时并不会检查类型......
  • 使用Python实现读取TXT小说文件按每一回显示打印出来
    大家好,我是皮皮。一、前言前几天在Python铂金交流群【红色基因代代传】问了一个Python处理的问题,提问截图如下:文件里边的部分截图如下:大概的需求如下所示:二、实现过程这里【......
  • 盘点一个Python抓取有道翻译爬虫中的报错问题
    大家好,我是皮皮。一、前言前几天在Python白银交流群【斌】问了一个Python网络爬虫的问题,提问截图如下:报错截图如下:粉丝需要的数据如下:二、实现过程有道翻译之前有做过很多,确......
  • 将你的 Python 脚本转换为命令行程序
    使用Python中的​​scaffold​​​和​​click​​库,你可以将一个简单的实用程序升级为一个成熟的命令行界面工具。在我的职业生涯中,我写过、用过和看到过很多随意的......
  • 常见工程、应用、学习错误及安装问题之Python
    ​​pip临时使用国内镜像源​​​​python创建文件夹​​​​python读取文件下所有文件路径​​​​将numpy中的True/False转换成1/0​​​​使用python复制文件​​​​L......