首页 > 其他分享 >文本预处理4-去除阿拉伯数字

文本预处理4-去除阿拉伯数字

时间:2024-06-21 21:32:42浏览次数:22  
标签:txt 阿拉伯数字 filename content file path folder 文本 预处理

1.针对去除文本中的阿拉伯数字。

2.读取txt文档,将处理后的内容写回原文件。

#文本预处理4-去除阿拉伯数字
import os
import re
def remove_numbers(text):
    # 正则表达式匹配阿拉伯数字
    pattern = re.compile(r'\d+')
    # 使用re.sub()函数将匹配到的数字替换为空字符串
    result = re.sub(pattern, '', text)
    return result


def process_txt_files(folder_path):
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                content = file.read()
                processed_content = remove_numbers(content)

            # 将处理后的内容写回原文件
            with open(file_path, 'w', encoding='utf-8') as file:
                file.write(processed_content)

            # print(f'Processed content written back to {filename}')


# 替换为你的文件夹路径
folder_path = "C:\\Users\\lenovo\\Desktop"
process_txt_files(folder_path)

 

 

 

标签:txt,阿拉伯数字,filename,content,file,path,folder,文本,预处理
From: https://blog.csdn.net/weixin_53389235/article/details/139832946

相关文章

  • 【MindSpore学习打卡】初学教程-04数据集 Dataset-使用MindSpore实现高效数据加载与预
    在深度学习的世界里,数据是模型训练的根基。高质量的数据输入不仅能提升模型的性能,还能加速训练过程。MindSpore提供了一个强大的数据引擎,通过数据集(Dataset)和数据变换(Transforms)实现高效的数据预处理。本文将详细介绍如何使用MindSpore加载和处理数据集,并通过具体的示例......
  • 文本预处理1--去除#和句号之间内容
    1.针对文本里特定两个符号之间内容的中文进行去除,本次选取#和句号之间的内容进行去除。2.大家可以根据自己的实际需求修改代码实现自己的文本内容的整理。3.下面是去除#和句号之间内容的python代码:其中读取的是txt文本,处理后的内容写回原txt文件。importosdefremove_cont......
  • 文本预处理2-去除空行
    1.针对文本里有大量的空行,进行删除空行处理。2.读取txt文档,将处理后的内容写回原文件。#文本预处理2-去除空行importosdefremove_empty_lines(text):#使用splitlines()分割文本为行列表,并过滤掉空行lines=[lineforlineintext.splitlines()ifline.st......
  • 文本预处理3-空一行
    1.针对需要空行处理的文本。2.读取txt文档,将处理后的内容写回原文件。文本预处理3-空一行importosimportredefadd_empty_line_before_numbers(text):#正则表达式匹配阿拉伯数字,但排除第一个数字pattern=re.compile(r'(?<!^)(\d+)')#使用列表推导......
  • 文本三剑客
    文本三剑客sedawkgrepgrep就是查找文本当中的内容,扩展正则表达式。sedsed是一种流编辑器,一次处理一行内容。如果只是展示,会放到缓冲区(模式空间),展示结束之后,会从模式空间把操作结果删除一行一行处理,当前行处理结束,才会处理下一行,知道文件末尾。sed的命令格式和操作......
  • 24.3K star!一个轻量级且高度可配置的现代化命令行文本编辑器
    大家好,今天给大家分享的是一个轻量级且高度可配置的现代化命令行文本编辑器。micro是一个轻量级且高度可配置的命令行文本编辑器,以其简洁的设计和强大的插件系统著称。该项目强调速度与效率,适合那些追求快速编辑体验并希望保持系统资源占用低的用户。项目介绍micro旨在成为n......
  • Python 学习 第四册 第8章 结构化的文本文件
    ----用教授的方式学习。目录8.1结构化的文本文件8.1.1CSV8.1.2 XML8.1.3 JSON8.1.4 YAML8.1结构化的文本文件结构化的文本有很多格式,区别它们的方法如下所示。• 分隔符,比如 tab('\t')、逗号(',')或者竖线('|')。逗号分隔值(CSV)就是这样的例子。• '<' 和 '>' ......
  • 若依框架页面新增时,富文本加入图片保存时出现:JSON parse error: Unexpected character
    在使用若依框架的富文本框新增时,如果插入一个图片的时候会出现一个JSONparseerror:Unexpectedcharacter('/'(code47)):maybea(non-standard)comment?(notrecognizedasonesinceFeature'ALLOW_COMMENTS'notenabledforparser);nestedexceptioniscom.fas......
  • selenium框架学习之获取文本框内容和Xpath元素不唯一
    本周一直写创建简历的测试用例,由于元素和内容过多,只能把各个方法单独封装,然后在测试用例里面使用,以此优化用例。在封装的时候遇到的一些问题,和大家说下怎么解决~1. 获取文本框输入---新增了一个【输入微信号】的功能模块,需要同时测试点击【同手机】和输入文本的功能。于是......
  • webman admin 控件的使用 如何修改富文本控件的高度
    如何修改富文本控件的高度把控件类型为富文本的控件参数设置为height:300,则会生成一个300高度的tinymcetinymce.init({selector:'textarea',//changethisvalueaccordingtoyourHTMLheight:300});你也可以将其他的tinymce设置添加进这个控件参数当中,......