Python办公自动化之——批量操作Word文档(三)

标签：文件 docx 办公自动化 Word Python 文档 output path

Python 在办公自动化中，尤其是处理 Word 文档时，能够显著提升工作效率和准确性。通过编写脚本，Python 可以自动完成许多繁琐的任务，以下是一些常见的应用场景：合并多个 Word 文件，在许多企业环境中，需要将多个报告、合同或其他文档合并为一个统一的文件。Python 脚本可以遍历一个目录，读取所有 Word 文件，并将它们合并到一个新文档中。这对于处理大量的会议记录、合同文件等非常实用。自动生成报告，通过从 Excel 或数据库中读取数据，Python 可以自动生成结构化的报告。利用一个模板文件，脚本可以插入数据、图表和其他内容，生成格式统一的月度、季度或年度报告。这种方式不仅节省时间，还能减少人为错误。批量修改文档内容，在更新企业标识、修改页眉页脚、调整文档格式等任务中，Python 脚本可以批量处理多个文档。例如，可以自动将所有文档中的旧 logo 替换为新 logo，或将页眉页脚中的公司名称更新为最新版本。内容提取和分析，Python 还可以用于从 Word 文档中提取特定内容，如表格数据、特定格式的段落或关键词。提取后可以进一步进行分析、汇总，甚至生成图表或统计报告。批量邮件合并，利用 Python，可以自动生成个性化的邮件内容并将其插入到 Word 文档中，然后通过邮件客户端发送。这对于发送大量个性化通知、邀请函等非常有用。

一、自动批量合并文件

合并Word文档可以将相关的内容集中在一起，以便更好地组织和整理信息。以下将介绍如何使用Python通过编程合并Word文档，实现批量处理文档和自动化效果。下面是一个完整的Python程序，用于自动合并某个路径下的所有Word文件。该程序会将指定目录中的所有Word文档读取并合并到一个新的Word文档中。

1.1 全部代码

import os
from docx import Document

def merge_word_files(input_directory, output_path):
    # 创建一个新的文档对象，用于合并后的内容
    merged_document = Document()
    
    # 遍历输入目录中的所有Word文件
    for filename in os.listdir(input_directory):
        if filename.endswith('.docx'):
            file_path = os.path.join(input_directory, filename)
            doc = Document(file_path)
            
            # 将每个文档的内容添加到合并文档中
            for element in doc.element.body:
                merged_document.element.body.append(element)
    
    # 保存合并后的文档
    merged_document.save(output_path)
    print(f"Documents merged and saved as {output_path}")

# 示例运行
input_directory = 'path_to_word_files'  # 替换为Word文件所在目录路径
output_path = 'merged_document.docx'  # 合并后Word文档的输出路径

merge_word_files(input_directory, output_path)

1.2 详细说明

定义 merge_word_files 函数：
- 创建一个新的 Document 对象用于存放合并后的内容。
- 遍历指定目录中的所有Word文件（文件扩展名为 .docx）。
- 打开每个Word文件，并将其内容逐一添加到合并文档中。
- 最后，保存合并后的文档到指定路径。
示例运行：
- input_directory 指定包含待合并Word文件的目录路径。
- output_path 指定合并后Word文档的输出路径。

1.3 示例

假设你的Word文件位于 C:\word_files 目录中，你希望将这些文件合并到一个名为 merged_document.docx 的文件中，程序可以这样运行：

input_directory = 'C:\\word_files'
output_path = 'C:\\word_files\\merged_document.docx'

merge_word_files(input_directory, output_path)`

1.4 注意事项

合并后的文档会按照文件名的字母顺序依次合并各个文档的内容。
如果需要更复杂的排序或合并规则，可以对 os.listdir 获取的文件列表进行处理。
如果源文件包含复杂的元素（如页眉、页脚、样式等），上述方法可能需要进一步调整以确保所有内容正确合并。

运行上述程序会将 C:\word_files 目录下的所有 .docx 文件合并成一个名为 merged_document.docx 的文件，并保存到同一目录下。

二、自动生成批量文档

在企业和组织中，经常需要定期⽣成报告，如销售、市场分析或项⽬进展报告。这些报告通常包括⽂本描述、数据表格、图表等元素。⼿动编写这些报告不仅耗时，⽽且可能因⼈为错误⽽影响数据的准确性。利⽤Python⾃动从数据源⽣成包含多种元素的完整Word报告，可以显著提⾼⼯作效率和报告质量。下面是一个示例Python程序，用于批量生成Word文档。该程序从Excel文件中读取信息，并基于一个已知的Word模板生成文档。以下是程序的实现步骤：

安装所需的库：pandas用于读取Excel文件，python-docx用于处理Word文档。
从Excel文件中读取数据。
使用模板生成多个Word文档。

2.1 全部代码

import pandas as pd
from docx import Document
from docx.shared import Pt
import os

def create_word_from_template(template_path, output_path, data):
    # 打开模板文档
    doc = Document(template_path)
    
    # 替换模板中的占位符
    for paragraph in doc.paragraphs:
        for key, value in data.items():
            if key in paragraph.text:
                inline = paragraph.runs
                for item in inline:
                    item.text = item.text.replace(key, str(value))
    
    # 保存生成的新文档
    doc.save(output_path)
    print(f"Document saved as {output_path}")

def generate_documents_from_excel(excel_path, template_path, output_dir):
    # 从Excel文件读取数据
    df = pd.read_excel(excel_path)
    
    # 确保输出目录存在
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # 遍历每一行数据，生成相应的Word文档
    for index, row in df.iterrows():
        data = row.to_dict()
        output_path = os.path.join(output_dir, f"document_{index + 1}.docx")
        create_word_from_template(template_path, output_path, data)

# 示例运行
excel_path = 'data.xlsx'  # Excel文件路径
template_path = 'template.docx'  # Word模板路径
output_dir = 'generated_docs'  # 输出目录

generate_documents_from_excel(excel_path, template_path, output_dir)

2.2 详细说明

定义 create_word_from_template 函数：
- 打开指定的Word模板文档。
- 遍历文档中的段落，查找并替换占位符（例如，{{name}}）。
- 保存生成的新文档。
定义 generate_documents_from_excel 函数：
- 从指定的Excel文件读取数据。
- 确保输出目录存在，不存在则创建。
- 遍历每一行数据，调用 create_word_from_template 生成相应的Word文档。
示例运行：
- excel_path 指定Excel文件的路径。
- template_path 指定Word模板的路径。
- output_dir 指定生成文档的输出目录。

2.3 Excel 文件示例

假设你的 data.xlsx 文件内容如下：

name	age	position
Alice	30	Engineer
Bob	25	Designer
Carol	28	Manager

2.4 Word 模板文件示例

假设你的 template.docx 文件内容如下：

Name: {{name}}
Age: {{age}}
Position: {{position}}

程序会读取Excel文件中的数据，基于模板生成多个Word文档，并将其保存在 generated_docs 目录中。每个生成的文档会替换模板中的占位符为实际的数据值。

三、批量转为PDF

在日常办公和文档处理中，有时我们需要将多个Word文档、Excel表格或PPT演示文稿转换为PDF文件。将文档转换为PDF格式的好处是它可以保留文档的布局和格式，并且可以在不同平台上进行方便的查看和共享。

import os
from docx import Document
import comtypes.client    #install python-docx comtypes库

def convert_docx_to_pdf(docx_path, pdf_path):
    word = comtypes.client.CreateObject('Word.Application')
    doc = word.Documents.Open(docx_path)
    doc.SaveAs(pdf_path, FileFormat=17)  # 17 corresponds to wdFormatPDF
    doc.Close()
    word.Quit()

def batch_convert_docx_to_pdf(directory):
    for filename in os.listdir(directory):
        if filename.endswith('.docx'):
            docx_path = os.path.join(directory, filename)
            pdf_path = os.path.join(directory, filename.replace('.docx', '.pdf'))
            convert_docx_to_pdf(docx_path, pdf_path)
            print(f"Converted: {docx_path} -> {pdf_path}")

# 请将下面路径替换为您要转换的Word文档所在的目录路径
directory_path = 'path_to_your_directory'
batch_convert_docx_to_pdf(directory_path)

总结

通过这种自动化脚本，办公人员可以专注于更有价值的工作，而不是耗时的重复性任务。这种应用不仅在提高效率方面表现突出，还能显著减少人为错误，确保文档的一致性和准确性。自动化脚本能够快速处理大量文档，无论是生成报告、更新内容还是格式调整，都可以在短时间内完成，远比手工操作更加高效。此外，自动化脚本能够确保每个文档的格式和内容都符合预定的标准，减少了因手工操作带来的格式不一致、信息遗漏等问题。对于需要频繁更新文档内容的企业或机构，自动化脚本是一个强大的工具，能够迅速响应变化的需求，保持文档的最新状态。在大数据和信息化的时代，自动化办公不仅能够提升个体工作效率，还能增强团队协作能力，通过共享和自动处理文档，提高整体工作流的效率。无论是财务报表、项目报告，还是合同协议，自动化脚本都可以提供一种高效、准确、标准化的解决方案，大大提升办公效率和文档管理的质量。

标签：文件,docx,办公自动化,Word,Python,文档,output,path
From： https://www.cnblogs.com/haohai9309/p/18217036