Python 遍历读取Word文档全部内容

时间：2023-09-06 09:01:28浏览次数：46

标签：docx 遍历 Word parent Python text df import block

import docx
from docx.document import Document
from docx.table import _Cell, Table
from docx.oxml.text.paragraph import CT_P
from docx.text.paragraph import Paragraph
from docx.oxml.table import CT_Tbl
import pandas as pd

doc = docx.Document('test.docx')
'''依次遍历文档内容的函数'''

def iter_block_items(parent):
    # 判断传入的是否为word文档对象，是则获取文档内容的全部子对象
    if isinstance(parent, Document):
        parent_elm = parent.element.body
    # 判断传入的是否为单元格，是则获取单元格内全部子对象
    elif isinstance(parent, _Cell):
        parent_elm = parent._tc
    else:
        raise ValueError("something's not right")

    # 遍历全部子对象
    for child in parent_elm.iterchildren():
        # 判断是否为段落，是则返回段落对象
        if isinstance(child, CT_P):
            yield Paragraph(child, parent)
        # 判断是否为表格，是则返回表格对象
        if isinstance(child, CT_Tbl):
            yield Table(child, parent)

'''获取表格数据，转换为dataframe数据结构'''
def get_table_dataframe(table):
    date = []
    keys = None
    for i, row in enumerate(table.rows):
        # 获取表格一行的数据
        text = (cell.text for cell in row.cells)  # text为generator生成器类型
        # 判断是否是表头
        if i == 0:
            keys = tuple(text)
            continue
        date.append(dict(zip(keys, text)))  # zip方法，按列打包为元组的列表。再转换为字典
    df = pd.DataFrame(date)  # pd依赖的DataFrame方法将字典数据转换成列表集
    return df


# 遍历word文档，最后调用函数没有返回值时停止遍历
for block in iter_block_items(doc):
    # print(block.style.name)
    # 判断是否是表格
    if block.style.name == 'Table Grid':
        df = get_table_dataframe(block)
        print(df)
    # 判断该子对象是否是正文
    elif block.style.name == 'Normal':
        print(block.text)
    # 判断是否为标题1。如果是Heading 2则判断是否为标2，以此类推。
    elif block.style.name == 'Heading 1':
        print(block.text)


# path为：保存路径+文件名.csv。sep表示用逗号分隔,index是否要索引，header是否要列名
df.to_csv(path, sep=',', index=False, header=True, encoding='utf_8_sig')


# path为：保存路径+文件名.xlsx。
df.to_excel(path, index=False, header=True, encoding='utf_8_sig')


df = pd.read_csv(path)
# 读取工作簿第一个表
df = pd.read_excel(path, sheet_name='Sheet1')

标签：docx,遍历,Word,parent,Python,text,df,import,block
From： https://www.cnblogs.com/QQ-77Ly/p/17681357.html

Python第三章：程序控制结构
1.range（a,b,c）从a到b，不包括b，步长为c。2.random随机数第一步：importrandom 生成从a到b的随机整数：random.randint(a,b) 生成从0到1的随机数：random() 生成从a到b，数量为c的数字：random.sample(range(a,b),c) 3.Python中的if、for、while都没有{}，而是......
python函数的应用（一）九九乘法表
函数实现99乘法表的打印#1.使用函数重构乘法口诀表并调用defmultiplication(n):foriinrange(1,n+1):forjinrange(1,i+1):print(j,"*",i,"=",j*i,end="\t")print()#调用函数a=int(input("请输入您想打印的乘法口诀表部分"))mult......
Python类属性与方法的使用
#类属性与方法的使用classGoods:id_count=0#装饰器写法，@classmethod用来定义类方法@classmethoddefgenerate_id(cls):cls.id_count+=1returncls.id_countdef__init__(self):#商品的唯一序号，00001,00002，使用zfill......
python实现百钱百鸡之优化版
前言上一篇文章python实现百钱百鸡问题，用for循环实现了百钱百鸡的经典问题，文末简单说了下优化版的大体思路，这篇文章实现下。功能实现要求根据用户输入的购买钱数、公鸡、母鸡和小鸡的数量（小鸡按照3只作为一个整体来售卖，公鸡和母鸡都是按照一只来售卖），所买鸡的总数为100，给用户计算出......
一行代码美化Python异常输出
安装python-mpipinstallpretty_errors使用先来试试一个简单的错误。importpretty_errorsprint(1/0) 如果不使用pretty_errors报错信息如下： bug少的时候，可能没有什么太大区别，当报错信息铺满一整页，差距就体现出来了个性化配置如需......
Python开发之pip3
简介pip是Python包管理工具，该工具提供了对Python包的查找、下载、安装、卸载的功能。命令使用查看pip3版本pip--version下载安装包使用以下命令pipinstallsome-package-name例如我们安装numpy包pipinstallnumpy我们也可以轻易地通过以下的命令来移除软件......
《python从入门到实践》第七章习题记录
点击查看代码#7-1汽车租赁：编写一个程序，询问用户要租赁什么样的汽车，并打印一条消息，如“LetmeseeifIcanfindyouaSubaru”。car=input("whichcardoyoulike?>")print(f"LetmeseeifIcanfindyoua{car}")#7-2餐馆订位：编写一个程序，询问用户有多少人用......
国内镜像安装Python解释器及扩展包
一、下载Python解释器1、下载地址官网（下载速度很慢）：WelcometoPython.org淘宝镜像（推荐）：CNPMBinariesMirror(npmmirror.com)2、下载方法前往淘宝镜像站，选择版本，这里以Python3.10.10为例。如果是64位的系统，点击python-3.10.10-amd64.exe，等待下载完成。3、安装Python解释......
Node.js 使用 officecrypto-tool 读取加密的 Excel (xls, xlsx) 和 Word( docx)文档
Node.js使用officecrypto-tool读取加密的Excel(xls,xlsx)和Word(docx)文档,还支持xlsx和docx文件的加密（具体使用看文档）。暂时不支持doc文件的解密传送门：officecrypto-tool读取加密的Excel示例一：xlsx-populate//只支持xlsx，xlsx-populate自带了解密功能，/......
Python开发实例（十一）单词记忆游戏：编写一个简单的游戏，测试用户对一组随机单词的记忆能力
在这个实例中，我们将创建一个简单的单词记忆游戏。游戏的规则是随机展示一组单词，然后要求用户在一定时间内尽可能多地记住这些单词。时间到后，再询问用户输入这些单词。最后，计算并显示用户正确记住的单词数量。下面是单词记忆游戏的Python程序：pythonCopycodeimportrandomimport......

Python 遍历读取Word文档全部内容

相关文章

赞助商

阅读排行