首页 > 编程语言 >Python处理文档中的文本

Python处理文档中的文本

时间:2023-05-08 15:13:21浏览次数:32  
标签:txt Python text paragraphs fruit 文档 file doc 文本

  1. 提取所有Word 文档中的指定部分内容,并合并到一个txt文件中:
import glob
import docx


def get_text_between_headings(doc, heading1, heading2):
    start = -1
    end = -1
    for i in range(len(doc.paragraphs)):
        if doc.paragraphs[i].text == heading1:
            start = i
        elif doc.paragraphs[i].text == heading2:
            end = i
            break
    return '\n'.join([doc.paragraphs[i].text for i in range(start+1, end)])


# 获取所有Word文件的路径
file_paths = glob.glob('./*.docx')

# 创建一个txt文件
with open('./output.txt', 'w', encoding='utf-8') as f:
    # 遍历每个Word文件,将其内容写入txt文件
    for file_path in file_paths:
        doc = docx.Document(file_path)
        # text = '\n\n'.join([paragraph.text for paragraph in doc.paragraphs])
        # f.write(text)
        fruit = get_text_between_headings(doc, "Done", "Introspection")
        # print(fruit)
        if not (fruit.startswith('Figure') or fruit.startswith('[')):
            f.write(fruit)


  1. 给txt文档中的所有空行按顺序添加指定内容:
with open('output.txt', 'r') as file:
    lines = file.readlines()

week_no = 0
with open('processed_file.txt', 'w') as file:
    for i, line in enumerate(lines):
        if not line.strip():  # 检查行是否为空行
            week_no += 1
            file.write(f'Week {week_no}')
        file.write(line)



作者:艾孜尔江
转载请务必标明出处!

标签:txt,Python,text,paragraphs,fruit,文档,file,doc,文本
From: https://www.cnblogs.com/ezhar/p/17381815.html

相关文章

  • C++和Python && 和||运算符之不同点
    ......
  • How to use Linux command or Python code get Raspberry PI's Temperature All In On
    HowtouseLinuxcommandorPythoncodegetRaspberryPI'sTemperatureAllInOne如何使用Linux命令或Python代码获取RaspberryPI的温度raspberrypicheckthetemperatureimportgpiozeroasgz#readthetemperatureintoavariable:cpu_temp=gz.CPUTe......
  • python 下载并显示图片
    fromPILimportImage,ImageTkimportrequestsimporttkinter#导入Tkinter模块#importtkpaa='aaa.gif'url='http://www.baidu.com/img/baidu_jgylogo3.gif'defdownLoadImage(name,url):r=requests.get(url)#printr.c......
  • Python备忘录
    记录使用Python时的点滴。Author:[email protected]:2023.05.0812:20:00LastModified:2023.05.0812:23:001.Python在Windows下的补全pipinstallpyreadline32.操作注册表:winreg模块包括且不限于如下作用:获取实时更新的环境变量取值......
  • Mac M1 安装python3.6.x
    在macM1上通过pyvenv直接安装python3.6.x会失败。后来发现其实python官方直接提供了m1的pkg包,就不需要再重新编译安装了。进入python官方为macos提供的各版本下载页面,在其中找到python3.6.x的可用版本,直接下载安装即可:https://www.python.org/downloads/macos/下载完毕直......
  • 【python】http.server搭建局域网文件传输
    1、起因  因为测试需要向平板传输apk安装文件,插数据线比较麻烦,同一局域网起个服务方便又快捷,速度也快,linux下类似 2、官网文档  python3.11  https://docs.python.org/3/library/http.server.html  python2.7(自行了解)  https://docs.python.org/2.7/......
  • 几种常见的Python数据结构
    摘要:本文主要为大家讲解在Python开发中常见的几种数据结构。本文分享自华为云社区《Python的常见数据结构》,作者:timerring。数据结构和序列元组元组是一个固定长度,不可改变的Python序列对象。创建元组的最简单方式,是用逗号分隔一列值:In[1]:tup=4,5,6当用复杂的......
  • Python 和 JavaScript 的区别是什么?
    Python和JavaScript是两门非常流行的编程语言,它们各自有着独特的特点和应用场景。Python和JavaScript是两种不同的编程语言,它们的设计目标和应用场景有所不同。Python是一种多用途、高级、解释型的编程语言,可用于开发各种应用程序,包括Web开发、数据分析、人工智能、科学计算......
  • Python爬虫设置代理
    在Python中使用代理进行爬虫操作可以有效地隐藏用户的真实IP地址,防止被封禁或者限制访问。下面是设置代理的示例代码:importrequestsproxies={"http":"http://127.0.0.1:8888","https":"http://127.0.0.1:8888",}response=requests.get('ExampleDomain�......
  • ArcGIS将自己的Python代码作为工具箱或自定义工具
      本文介绍在ArcMap软件中,通过已有的Python脚本程序,建立新的工具箱并在其中设置自定义工具的方法。  通过本文介绍的操作,我们便可以实现将自己的Python代码封装,并像其他ArcGIS已有工具一样,进行界面化的地理处理操作。  话不多说,我们开始具体操作。首先,在ArcMap中打开“ArcT......