首页 > 编程语言 >使用python读取doc、docx文档

使用python读取doc、docx文档

时间:2022-10-20 12:03:43浏览次数:56  
标签:docx 读取 python doc paragraphs import

1.读取docx

需要使用python-docx

(1)安装python-docx

python -m pip install python-docx

(2)读取docx

import docx
document = docx.Document("D:/资料/me/AA.docx")
#获取所有段落
all_paragraphs = document.paragraphs
for paragraph in all_paragraphs:
    #打印每一个段落的文字
    print(paragraph.text)

2.读取doc

无法直接读取doc,需要先将doc文件转换为docx文件

在windows上将doc文件转换为docx文件时,需要用到win32com包

使用win32com包需要安装——pypiwin32

(1)安装pypiwin32

python -m pip install pypiwin32

(2)读取doc

import docx
import win32com.client as wc
import operator
#doc文件另存为docx
word = wc.Dispatch("Word.Application")
doc = word.Documents.Open(r"D:\\资料\\me\\BB.doc")
# 12代表转换后为docx文件
doc.SaveAs(r"D:\\资料\\me\\docx\\BB.docx", 12)
doc.Close
word.Quit

#读取转换后的docx
path = "D:/资料/me/docx/BB.docx"
file = docx.Document(path)
for p in file.paragraphs:
    print(p.text)

 

标签:docx,读取,python,doc,paragraphs,import
From: https://www.cnblogs.com/baby123/p/16809347.html

相关文章

  • Python第五章
    1、实例1:使用字符串拼接输出一个关于程序员的笑话代码:programmer_1='程序员甲:搞IT太辛苦了,我想换行……怎么办?'programmer_2='程序员乙:敲一下回车键'print(progra......
  • 如何将docker镜像的日志输出到标准输出/错误输出?(将自定义的应用日志输出到控制台)
    对于一个nginx容器,如果要通过dockerlogs命令,直接查看容器的日志,该如何来操作? 非常的简单,就是将应用(nginx)生成的日志输出到标准输出或者错误输出。 那么,具体的实现......
  • Docker能干嘛
    Docker能干嘛之前的虚拟机技术​虚拟机技术缺点:​资源占用十分多​冗余步骤多​启动很慢​容器化技术​比较Docker和虚拟机技术的不同:​传统虚拟机,虚拟出一些硬件,运行一个完......
  • 第三十四章 Centos7下Docker安装RabbitMQ
    一、拉取RabbitMQ镜像文件#官网:https://www.rabbitmq.com/networking.html[root@testtech2-180~]#dockerpullrabbitmq:management二、启动RabbitMQ[root@testte......
  • docker容器报x509:certificate signed by unknown authority错误
    在执行dockersearch,dockerpull命令时,我遇到的报错信息Errorresponsefromdaemon:Get"https://registry-1.docker.io/v2/":x509:certificatesignedbyunknowna......
  • 第三十五章 Centos7下rpm安装Docker-17.03
    一、安装依赖[root@cos-ftp~]#sudoyuminstalllibxml2-devellibcurl-devel-y二、下载Docker安装包#1.下载地址:https://download.docker.com/linux/centos/7/x86......
  • python当中自定义上下文管理器
    在python当中,我们知道with的用法,是一种上下文管理机制。比如withopen(file,'w')asf: 这种方法下,就集成了open和close.我们也可以自定义一个上下文管理器。方法一:c......
  • 第六章Python实训
    test6-1    test6-2    test6-3    test6-4    test6-5    test6-6    ......
  • python中的Xpath的安装及使用
    Xpath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3CXSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表......
  • python DeepRacer超参
    超级参数(Hyperparameters)参考了这篇文章https://rambo.blog.csdn.net/article/details/120643653训练的过程:1、小车根据经验操作或者随机操作,跑出界或者跑完一圈后为......