Python实现文件中的所有词汇分割为单独的字母

时间：2022-10-03 21:38:36浏览次数：57

标签：__ 词汇 Python 字母 character outputFileName sourceFilePath print newFile

基于Character-Based Language Model在制作之前需要对语料库中的词汇进行分割，将每个字母单拎出来存在另一个文件里使用；
下方是干分割工序的Python脚本：

# -*- coding: UTF-8 -*-
import string
import sys

def SplitIntoCharacters(sourceFilePath, outputFileName):
    sourceFile = open(sourceFilePath)
    newFile = open(outputFileName, 'a')
    chn_punctuations = "！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."
    for word in sourceFile.read().split():
        for character in word:
            isPunct = character in string.punctuation or character in chn_punctuations
            if not isPunct:
                newCharacter = character.lower() + "\n"
                newFile.writelines(newCharacter)
    sourceFile.close()
    newFile.close()
    print("done!")


if __name__ == "__main__":
    # print('args list:', str(sys.argv))
    sourceFilePath = sys.argv[1]
    outputFileName = sys.argv[2]
    if sourceFilePath == ' ' or outputFileName == ' ':
        print("Error: Source file path or the output file name is empty")
    else:
        SplitIntoCharacters(sourceFilePath, outputFileName)

# by Alexander Enharjan

用法是：

python3 wordSpliter (INPUT_FILE_PATH) (OUTPUT_FILE_PATH)

作者：艾孜尔江·艾尔斯兰

转载请务必标明出处！

标签：__,词汇,Python,字母,character,outputFileName,sourceFilePath,print,newFile
From： https://blog.51cto.com/u_15127808/5730473

python爬虫配置随机请求头headers伪装User-Agent
python爬虫随机headers伪装fake_useragentfake_useragent库调用方法ua.random可以随机返回一个headers(User-Agent)fromfake_useragentimportUserAgent#下载：pipins......
python 利用md5去重转载
原文连接：https://blog.csdn.net/babytiger/article/details/90293866#/usr/bin/envpython#-*-coding:utf-8-*-#运行的代码文件要放到删除重复的文件或图片所包含......
python中getter和setter方法的使用
classUserInfo(object):@propertydefusername(self):#这里返回的self.名字不能和函数名同名[email protected](self,usern......
Python语法之集合
集合是无序元素的集合，集合中的元素不可重复，并且创建完成后，其中的元素不可更改。但是整个集合是可以更改的，我们可以向其增加元素，也可以从中删除元素。也就是说，我们无法修改......
Python SQLite3 基本操作类
#!/usr/bin/envpython#encoding:utf-8"""@version:v1.0@author:W_H_J@license:ApacheLicence@contact:[email protected]@software:PyCharm@f......
python类型注解
python类型注解functionannotation写法：使用冒号:加类型代表参数类型默认值参数示例：b:int=2使用->加类型代表返回值类型python解释器运行时并不会检查类型......
使用Python实现读取TXT小说文件按每一回显示打印出来
大家好，我是皮皮。一、前言前几天在Python铂金交流群【红色基因代代传】问了一个Python处理的问题，提问截图如下：文件里边的部分截图如下：大概的需求如下所示：二、实现过程这里【......
盘点一个Python抓取有道翻译爬虫中的报错问题
大家好，我是皮皮。一、前言前几天在Python白银交流群【斌】问了一个Python网络爬虫的问题，提问截图如下：报错截图如下：粉丝需要的数据如下：二、实现过程有道翻译之前有做过很多，确......
将你的 Python 脚本转换为命令行程序
使用Python中的scaffold和click库，你可以将一个简单的实用程序升级为一个成熟的命令行界面工具。在我的职业生涯中，我写过、用过和看到过很多随意的......
常见工程、应用、学习错误及安装问题之Python
pip临时使用国内镜像源python创建文件夹python读取文件下所有文件路径将numpy中的True/False转换成1/0使用python复制文件L......

Python实现文件中的所有词汇分割为单独的字母

相关文章

赞助商

阅读排行