Python处理文档中的文本

时间：2023-05-08 15:13:21浏览次数：35

标签：txt Python text paragraphs fruit 文档 file doc 文本

提取所有Word 文档中的指定部分内容，并合并到一个txt文件中：

import glob
import docx


def get_text_between_headings(doc, heading1, heading2):
    start = -1
    end = -1
    for i in range(len(doc.paragraphs)):
        if doc.paragraphs[i].text == heading1:
            start = i
        elif doc.paragraphs[i].text == heading2:
            end = i
            break
    return '\n'.join([doc.paragraphs[i].text for i in range(start+1, end)])


# 获取所有Word文件的路径
file_paths = glob.glob('./*.docx')

# 创建一个txt文件
with open('./output.txt', 'w', encoding='utf-8') as f:
    # 遍历每个Word文件，将其内容写入txt文件
    for file_path in file_paths:
        doc = docx.Document(file_path)
        # text = '\n\n'.join([paragraph.text for paragraph in doc.paragraphs])
        # f.write(text)
        fruit = get_text_between_headings(doc, "Done", "Introspection")
        # print(fruit)
        if not (fruit.startswith('Figure') or fruit.startswith('[')):
            f.write(fruit)

给txt文档中的所有空行按顺序添加指定内容：

with open('output.txt', 'r') as file:
    lines = file.readlines()

week_no = 0
with open('processed_file.txt', 'w') as file:
    for i, line in enumerate(lines):
        if not line.strip():  # 检查行是否为空行
            week_no += 1
            file.write(f'Week {week_no}')
        file.write(line)

作者：艾孜尔江
转载请务必标明出处！

标签：txt,Python,text,paragraphs,fruit,文档,file,doc,文本
From： https://www.cnblogs.com/ezhar/p/17381815.html

C++和Python && 和||运算符之不同点
......
How to use Linux command or Python code get Raspberry PI's Temperature All In On
HowtouseLinuxcommandorPythoncodegetRaspberryPI'sTemperatureAllInOne如何使用Linux命令或Python代码获取RaspberryPI的温度raspberrypicheckthetemperatureimportgpiozeroasgz#readthetemperatureintoavariable:cpu_temp=gz.CPUTe......
python 下载并显示图片
fromPILimportImage,ImageTkimportrequestsimporttkinter#导入Tkinter模块#importtkpaa='aaa.gif'url='http://www.baidu.com/img/baidu_jgylogo3.gif'defdownLoadImage(name,url):r=requests.get(url)#printr.c......
Python备忘录
记录使用Python时的点滴。Author:[email protected]:2023.05.0812:20:00LastModified:2023.05.0812:23:001.Python在Windows下的补全pipinstallpyreadline32.操作注册表:winreg模块包括且不限于如下作用：获取实时更新的环境变量取值......
Mac M1 安装python3.6.x
在macM1上通过pyvenv直接安装python3.6.x会失败。后来发现其实python官方直接提供了m1的pkg包，就不需要再重新编译安装了。进入python官方为macos提供的各版本下载页面，在其中找到python3.6.x的可用版本，直接下载安装即可：https://www.python.org/downloads/macos/下载完毕直......
【python】http.server搭建局域网文件传输
1、起因因为测试需要向平板传输apk安装文件，插数据线比较麻烦，同一局域网起个服务方便又快捷，速度也快，linux下类似 2、官网文档 python3.11 https://docs.python.org/3/library/http.server.html python2.7（自行了解） https://docs.python.org/2.7/......
几种常见的Python数据结构
摘要：本文主要为大家讲解在Python开发中常见的几种数据结构。本文分享自华为云社区《Python的常见数据结构》，作者：timerring。数据结构和序列元组元组是一个固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：In[1]:tup=4,5,6当用复杂的......
Python 和 JavaScript 的区别是什么？
Python和JavaScript是两门非常流行的编程语言，它们各自有着独特的特点和应用场景。Python和JavaScript是两种不同的编程语言，它们的设计目标和应用场景有所不同。Python是一种多用途、高级、解释型的编程语言，可用于开发各种应用程序，包括Web开发、数据分析、人工智能、科学计算......
Python爬虫设置代理
在Python中使用代理进行爬虫操作可以有效地隐藏用户的真实IP地址，防止被封禁或者限制访问。下面是设置代理的示例代码：importrequestsproxies={"http":"http://127.0.0.1:8888","https":"http://127.0.0.1:8888",}response=requests.get('ExampleDomain�......
ArcGIS将自己的Python代码作为工具箱或自定义工具
本文介绍在ArcMap软件中，通过已有的Python脚本程序，建立新的工具箱并在其中设置自定义工具的方法。通过本文介绍的操作，我们便可以实现将自己的Python代码封装，并像其他ArcGIS已有工具一样，进行界面化的地理处理操作。话不多说，我们开始具体操作。首先，在ArcMap中打开“ArcT......

Python处理文档中的文本

相关文章

赞助商

阅读排行