首页 > 其他分享 >文本预处理5-去除文字开头的空格

文本预处理5-去除文字开头的空格

时间:2024-06-22 10:00:14浏览次数:11  
标签:content text lines 空格 file path folder 文本 预处理

1.针对文本开头存在空格的问题进行处理。

2.读取txt文档,将处理后的内容写回原文件。

#文本预处理5-去除文字开头的空格
import os
def left_align_text(text): 
    # 将文本分割成行
    lines = text.split('\n')
    # 去除每行的前导空格并左对齐
    aligned_lines = [line.lstrip().ljust(len(lines[0])) for line in lines]
    # 将对齐后的行合并回文本
    aligned_text = '\n'.join(aligned_lines)
    return aligned_text


def process_txt_files(folder_path):
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                content = file.read()
                processed_content = left_align_text(content)

            # 将处理后的内容写回原文件
            with open(file_path, 'w', encoding='utf-8') as file:
                file.write(processed_content)

            # print(f'Processed content written back to {filename}')


# 替换为你的文件夹路径
folder_path = "C:\\Users\\lenovo\\Desktop"
process_txt_files(folder_path)

 

 

 

标签:content,text,lines,空格,file,path,folder,文本,预处理
From: https://blog.csdn.net/weixin_53389235/article/details/139833038

相关文章

  • 文本三剑客之awk命令
    概念awk是Linux以及UNIX环境中现有的功能最强大的数据处理工具,awk其名称得自于它的创始人AlfredAho、PeterWeinberger和BrianKernighan姓氏的首个字母awk是一种处理文本数据的编程语言,适合文本处理和报表生成,awk的设计使得它非常适合于处理由行和列组成的文本数据......
  • 文本预处理4-去除阿拉伯数字
    1.针对去除文本中的阿拉伯数字。2.读取txt文档,将处理后的内容写回原文件。#文本预处理4-去除阿拉伯数字importosimportredefremove_numbers(text):#正则表达式匹配阿拉伯数字pattern=re.compile(r'\d+')#使用re.sub()函数将匹配到的数字替换为空字......
  • 【MindSpore学习打卡】初学教程-04数据集 Dataset-使用MindSpore实现高效数据加载与预
    在深度学习的世界里,数据是模型训练的根基。高质量的数据输入不仅能提升模型的性能,还能加速训练过程。MindSpore提供了一个强大的数据引擎,通过数据集(Dataset)和数据变换(Transforms)实现高效的数据预处理。本文将详细介绍如何使用MindSpore加载和处理数据集,并通过具体的示例......
  • 文本预处理1--去除#和句号之间内容
    1.针对文本里特定两个符号之间内容的中文进行去除,本次选取#和句号之间的内容进行去除。2.大家可以根据自己的实际需求修改代码实现自己的文本内容的整理。3.下面是去除#和句号之间内容的python代码:其中读取的是txt文本,处理后的内容写回原txt文件。importosdefremove_cont......
  • 文本预处理2-去除空行
    1.针对文本里有大量的空行,进行删除空行处理。2.读取txt文档,将处理后的内容写回原文件。#文本预处理2-去除空行importosdefremove_empty_lines(text):#使用splitlines()分割文本为行列表,并过滤掉空行lines=[lineforlineintext.splitlines()ifline.st......
  • 文本预处理3-空一行
    1.针对需要空行处理的文本。2.读取txt文档,将处理后的内容写回原文件。文本预处理3-空一行importosimportredefadd_empty_line_before_numbers(text):#正则表达式匹配阿拉伯数字,但排除第一个数字pattern=re.compile(r'(?<!^)(\d+)')#使用列表推导......
  • 文本三剑客
    文本三剑客sedawkgrepgrep就是查找文本当中的内容,扩展正则表达式。sedsed是一种流编辑器,一次处理一行内容。如果只是展示,会放到缓冲区(模式空间),展示结束之后,会从模式空间把操作结果删除一行一行处理,当前行处理结束,才会处理下一行,知道文件末尾。sed的命令格式和操作......
  • 24.3K star!一个轻量级且高度可配置的现代化命令行文本编辑器
    大家好,今天给大家分享的是一个轻量级且高度可配置的现代化命令行文本编辑器。micro是一个轻量级且高度可配置的命令行文本编辑器,以其简洁的设计和强大的插件系统著称。该项目强调速度与效率,适合那些追求快速编辑体验并希望保持系统资源占用低的用户。项目介绍micro旨在成为n......
  • Python 学习 第四册 第8章 结构化的文本文件
    ----用教授的方式学习。目录8.1结构化的文本文件8.1.1CSV8.1.2 XML8.1.3 JSON8.1.4 YAML8.1结构化的文本文件结构化的文本有很多格式,区别它们的方法如下所示。• 分隔符,比如 tab('\t')、逗号(',')或者竖线('|')。逗号分隔值(CSV)就是这样的例子。• '<' 和 '>' ......
  • 若依框架页面新增时,富文本加入图片保存时出现:JSON parse error: Unexpected character
    在使用若依框架的富文本框新增时,如果插入一个图片的时候会出现一个JSONparseerror:Unexpectedcharacter('/'(code47)):maybea(non-standard)comment?(notrecognizedasonesinceFeature'ALLOW_COMMENTS'notenabledforparser);nestedexceptioniscom.fas......