首页 > 其他分享 >文本预处理2-去除空行

文本预处理2-去除空行

时间:2024-06-21 18:27:49浏览次数:18  
标签:空行 txt content file path folder 文本 预处理

1.针对文本里有大量的空行,进行删除空行处理。
2.读取txt文档,将处理后的内容写回原文件。
#文本预处理2-去除空行
import os
def remove_empty_lines(text):
    # 使用 splitlines() 分割文本为行列表,并过滤掉空行
    lines = [line for line in text.splitlines() if line.strip()]
    # 使用换行符 '\n' 将非空行连接起来形成新的文本
    return '\n'.join(lines)


def process_txt_files(folder_path):
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                content = file.read()
                processed_content = remove_empty_lines(content)

            # 将处理后的内容写回原文件
            with open(file_path, 'w', encoding='utf-8') as file:
                file.write(processed_content)

            # print(f'Processed content written back to {filename}')


# 替换为你的文件夹路径
folder_path = "C:\\Users\\lenovo\\Desktop"
process_txt_files(folder_path)

 

 

 

标签:空行,txt,content,file,path,folder,文本,预处理
From: https://blog.csdn.net/weixin_53389235/article/details/139832317

相关文章

  • 文本预处理3-空一行
    1.针对需要空行处理的文本。2.读取txt文档,将处理后的内容写回原文件。文本预处理3-空一行importosimportredefadd_empty_line_before_numbers(text):#正则表达式匹配阿拉伯数字,但排除第一个数字pattern=re.compile(r'(?<!^)(\d+)')#使用列表推导......
  • 文本三剑客
    文本三剑客sedawkgrepgrep就是查找文本当中的内容,扩展正则表达式。sedsed是一种流编辑器,一次处理一行内容。如果只是展示,会放到缓冲区(模式空间),展示结束之后,会从模式空间把操作结果删除一行一行处理,当前行处理结束,才会处理下一行,知道文件末尾。sed的命令格式和操作......
  • 24.3K star!一个轻量级且高度可配置的现代化命令行文本编辑器
    大家好,今天给大家分享的是一个轻量级且高度可配置的现代化命令行文本编辑器。micro是一个轻量级且高度可配置的命令行文本编辑器,以其简洁的设计和强大的插件系统著称。该项目强调速度与效率,适合那些追求快速编辑体验并希望保持系统资源占用低的用户。项目介绍micro旨在成为n......
  • Python 学习 第四册 第8章 结构化的文本文件
    ----用教授的方式学习。目录8.1结构化的文本文件8.1.1CSV8.1.2 XML8.1.3 JSON8.1.4 YAML8.1结构化的文本文件结构化的文本有很多格式,区别它们的方法如下所示。• 分隔符,比如 tab('\t')、逗号(',')或者竖线('|')。逗号分隔值(CSV)就是这样的例子。• '<' 和 '>' ......
  • 若依框架页面新增时,富文本加入图片保存时出现:JSON parse error: Unexpected character
    在使用若依框架的富文本框新增时,如果插入一个图片的时候会出现一个JSONparseerror:Unexpectedcharacter('/'(code47)):maybea(non-standard)comment?(notrecognizedasonesinceFeature'ALLOW_COMMENTS'notenabledforparser);nestedexceptioniscom.fas......
  • selenium框架学习之获取文本框内容和Xpath元素不唯一
    本周一直写创建简历的测试用例,由于元素和内容过多,只能把各个方法单独封装,然后在测试用例里面使用,以此优化用例。在封装的时候遇到的一些问题,和大家说下怎么解决~1. 获取文本框输入---新增了一个【输入微信号】的功能模块,需要同时测试点击【同手机】和输入文本的功能。于是......
  • webman admin 控件的使用 如何修改富文本控件的高度
    如何修改富文本控件的高度把控件类型为富文本的控件参数设置为height:300,则会生成一个300高度的tinymcetinymce.init({selector:'textarea',//changethisvalueaccordingtoyourHTMLheight:300});你也可以将其他的tinymce设置添加进这个控件参数当中,......
  • jquery文本操作、样式属性操作、效果学习
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><title>Document</title>......
  • Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音
    MetaAI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。发布的成果体现了开放性、协作、卓越和规模化等核心原则。公开早期研究工作旨在激发迭代,推动AI负责任发展。MetaChameleon系列模型可将文本......
  • Shell 编程之正则表达式与文本处理器
    Shell编程之正则表达式与文本处理器一、正则表达式基础正则表达式元字符总结二、文本处理器sed工具awk工具sort工具uniq工具tr工具三、总结在Shell编程中,正则表达式(RegularExpression)和文本处理器(如grep,sed,awk等)是两个极其重要的工具,它们允许我们以复杂......