【Python】Word文档操作

时间：2024-07-09 15:08:09浏览次数：20

标签：Word para Python text cell 文档 doc print toc

一、全文替换

不是创建word文档写入内容，而是基于现有的Word文档进行替换处理

使用run.text直接赋值修改发现样式会丢失，而网上大部分办法都是这么写的...

直到我看到这篇文章的评论：

https://blog.csdn.net/qq_40222956/article/details/106098464

除了段落替换后，Word文档还插入了表格，后来反应过来表格的单元格也是有段落属性

同样需要通过段落对象拿到run进行替换

直接上代码：

# 全文替换操作，且不丢失文档样式
def replace_text_in_doc(doc: Document):
    # 段落内容替换
    for para in doc.paragraphs:
        for idx, run in enumerate(para.runs):
            para_text = run.text.strip()
            if not para_text:
                continue
            modified_text = mustache_clear(para_text)
            para.runs[idx].text = modified_text

    # 单元格内容替换
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                for cell_para in cell.paragraphs:
                    for idx, cp_run in enumerate(cell_para.runs):
                        cpr_text = cp_run.text.strip()
                        if not cpr_text:
                            continue
                        modified_text = mustache_clear(cpr_text)
                        cell_para.runs[idx].text = modified_text

    doc.save(new_doc_path)
    return

二、读取文档标题：

发现文档标题有好几种style名称

# 标准标题style类型名
headerTags = [
    'Heading 1',
    'Heading 2',
    'Heading 3',
    'Heading 4',
    'Heading 5',
    'Heading 6',
]

# 目录style类型名
tocTypes = [
    'toc 1',
    'toc 2',
    'toc 3',
    'toc 4',
    'toc 5'
    'toc 6'
]

# 附录自定义style类型名
customHeaders = [
    '附录一级标题',
    '附录二级标题',
    '附录三级标题',
    '附录四级标题',
    '附录五级标题',
]

但是toc类型的是最多最全的，这里就用toc来找标题了

代码实现：

通过toc读取的段落，除了文本本身还会附带标题下标

所以这里还做了下标拆分和保留的逻辑

# 目录style类型名
tocTypes = [
    'toc 1',
    'toc 2',
    'toc 3',
    'toc 4',
    'toc 5'
    'toc 6'
]

# 读取所有目录信息
def get_all_toc_title_text(doc: Document):
    print('- - - - - - 读取所有目录信息 - - - - - - ')
    toc_list = []
    for para in doc.paragraphs:
        if para.style.name in tocTypes:
            rough_collect = para.text.split()
            # 标题信息
            title = ' '.join(rough_collect[: -1])
            # 标题下标
            title_idx = rough_collect[-1]
            toc_list.append(title)
            print(f"{title} | {title_idx}")
    return toc_list

三、读取文档表格：

表格读取没有过多要声明的

# 读取所有表格
def get_all_tables(doc: Document):
    print('- - - - - - 读取所有表格 - - - - - - ')
    for table in doc.tables:
        print('- - - - - - table - - - - - - ')
        for row in table.rows:
            for cell in row.cells:
                print(f"{cell.text} | ", end='')
            print()

    return

但是读取指定部分的表格就有点费劲了

表格的话这里只有下标可以访问第几个表格，所以只能从表格内容为特征入手

例如附录D的表格头的列信息固定是这几个文本：

appendix_d_spec = {'安全控制点', '测评指标', '结果记录', '符合程度'}

docx读取的时候，顺序会不一致，所以用集合装填元素，只要取出的集合和特征集合元素一样即可

逻辑代码：

# 读取所有附录D的表格数据
def get_appendix_d_tables(doc: Document):
    print('- - - - - - 读取所有附录D的表格数据 - - - - - - ')
    for table in doc.tables:
        first_row = table.rows[0].cells
        col_len = len(first_row)
        cell_name_list = {cell.text for cell in first_row}
        print(cell_name_list)
        if len(cell_name_list) != 4:
            continue

        cell_name = ' | '.join(cell_name_list)
        print(f"cell_name -> {cell_name}, col_len -> {col_len} ")
        if appendix_d_spec != cell_name_list:
            continue

        print('- - - - - - 附录D表格开始 - - - - - - ')
        for row in table.rows:
            each_row = " | ".join({cell.text for cell in row.cells})
            print(each_row)
        print('- - - - - - 附录D表格结束 - - - - - - ')
    return

标签：Word,para,Python,text,cell,文档,doc,print,toc
From： https://www.cnblogs.com/mindzone/p/18291962

基于springboot+vue人事管理系统vue含文档附万字文档（源码+文档+部署+讲解）
前言......
基于springboot+vue人力资源管理系统含文档附万字文档（源码+文档+部署+讲解）
前言......
基于springboot+vue企业级工位管理系统含文档附万字文档（源码+文档+部署+讲解）
前言......
Python酷库之旅-第三方库Pandas(012)
目录一、用法精讲28、pandas.HDFStore.keys函数28-1、语法28-2、参数28-3、功能28-4、返回值28-5、说明28-6、用法28-6-1、数据准备28-6-2、代码示例28-6-3、结果输出29、pandas.HDFStore.groups函数29-1、语法29-2、参数29-3、功能29-4、返回值29-5、说明29......
libaom 编码器 aomenc 使用文档介绍
使用方法：./aomenc<选项>-o目标文件名源文件名使用--help查看完整的选项列表。选项：--help显示使用选项并退出-c<参数>,--cfg=<参数>使用配置文件-D,--debug调试模式（使输出确定性）-o<参数>,--output=<参数>输出文件名--codec=<参数>使用的编解码器-p<参数......
Python实战训练(方程与拟合曲线)
1.方程求e^x-派（3.14）的解用二分法来求解，先简单算出解所在的区间，然后用迭代法求逼近解，一般不能得到精准的解，所以设置一个能满足自己进度的标准来判断解是否满足这里打印出解x0是因为在递归过程中没有变量去接收返回值，所以返回x0，再打印x0得到的是None，再用numpy自带的log（pi）就查......
爆赞！GitHub首本Python开发实战背记手册，标星果然百万名不虚传
Python (发音:['paiθ(ə)n;(US)'paiθɔn]n.蟒蛇，巨蛇)，是一种面向对象的解释性的计算机程序设计语言，也是一种功能强大而完善的通用型语言，已经具有十多年的发展历史，成熟且稳定。Python具有脚本语言中最丰富和强大的类库，足以支持绝大多数日常应用。Python语言的特点......
C#将文件以byte[]形式传给python的sanic接口
C#如何将文件以byte[]形式传给python的sanic接口？C#调用的部分你可以按照以下步骤进行：1）读取文件，将文件转换成byte[]；2）定义类，将byte[]内容转成json格式传输；3）使用post请求将content传输到接口，返回结果；C#调用部分代码：/*将文件转换成byte[]格式*/protectedstaticbyte[]GetFileD......
Python函数进阶：高阶函数与函数式编程实战
前言大家好！今天我们来探讨一个非常有趣且实用的话题——Python函数进阶，特别是高阶函数与函数式编程。记得上次我在一个项目中需要处理复杂的数据流，通过高阶函数和函数式编程，我不仅简化了代码，还提高了运行效率。说到这里，大家是否也想掌握这门技术呢？让我们一起深入了解Pytho......
Python多线程与多进程编程：提升程序性能的实用技巧
前言大家好！今天我们要深入探讨Python中的多线程与多进程编程，这可是提升程序并发性能的关键技能之一。记得我在处理大量数据时，通过多线程和多进程技术，大大提高了程序的执行效率。为了让大家也能掌握这些实用技巧，我将通过多个具体案例，详细讲解如何在Python中实现多线程和多......

【Python】Word文档操作

一、全文替换

二、读取文档标题：

代码实现：

三、读取文档表格：

相关文章

赞助商

阅读排行