首页 > 编程语言 >用python处理word文档的操作

用python处理word文档的操作

时间:2023-05-20 11:05:40浏览次数:52  
标签:docx word python rels 文档 rel import Document

提取超链接

from docx import Document
注意docx包不是python自带的包需要下载下一篇,我会给大家说相关的下载,可以点这里跳转到下一篇博客

from docx import RT

import re

d=Document('D:\无名字的文件夹\python练习\材料.docx')

for p in d.paragraphs:
rels=d.part.rels
for rel in rels:
if rels[rel].reltype==RT.HYPERLINK:
print("\n超链接文本为",rels[rel],"超链接网址为:",rels[rel]._target)

提取文本

doc=Document('D:\无名字的文件夹\python练习\材料.docx')

for p in doc.paragraphs:
t=p.text
print(t)

提取图片

from zipfile import ZipFile
from os.path import basename

zf = ZipFile("D:\无名字的文件夹\python练习\材料.docx")
for item in zf.filelist:
fn = item.filename
if fn.endswith(('.jpg','.jpeg','.png')):
print(fn)

标签:docx,word,python,rels,文档,rel,import,Document
From: https://www.cnblogs.com/iampigeon/p/17416887.html

相关文章

  • Python潮流周刊#1:如何系统地自学Python?
    这里记录每周值得分享的Python及通用技术内容,部分内容为英文,已在小标题注明。(本期标题取自其中一则分享,不代表全部内容都是该主题,特此声明。)文章&教程1、编程语言的错误处理模式文章讨论了编程中处理错误的四种常见方法:返回错误代码(C、Go)、异常(Java、C#、Python、C++)、回调函数(Jav......
  • 使用Python爬取给定网页的所有链接(附完整代码)
    此脚本从给定的网页中检索所有链接,并将其保存为txt文件。(文末有完整源码)这是一个简单的网络爬虫示例,使用了requests库来发送HTTP请求并获取网页内容,使用BeautifulSoup库来解析网页内容。代码解释如下:1.导入所需的库导入requests库并将其重命名为rq,用于发送HTTP请求和获......
  • python -- pandas常见的一些行、列操作方法(感兴趣的,可以跟着一起练练手)
     这篇文章分享一下pandas常见的一些行、列操作方法,比较基础,感兴趣的童鞋可以看看。 首先,我们用“random.seed(inti)” 生成一组测试数据。对于random.seed()有兴趣进一步了解的,可以前往阅读 python--numpy.random.seed() 如果“pipinstallpandas”遇到问题,可参考......
  • Python学习
    3-13字符串类型字符串类型:str   1.定义格式:       变量='内容'           打印一行       变量="内容"           打印一行       变量='''内容'''或者三引号           可以通过回车的方式换行,......
  • java调用python并且实现RESTAPI
    在Eclipse中创建springboot工程(maven)配置pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocati......
  • python内置库--fileinput
    1关于fileinput利用fileinput,我们可以循环遍历标准输入或者多个文件中的数据它和open()作用很类似,但是open()只能操作一个文件且相关函数功能没有它丰富2函数介绍fileinput.input(files=None,inplace=False,backup='',*,mode='r',openhook=None,encoding=None,error......
  • Python自动化
    3-20数据类型转换数据类型转换:   1.int(x):x代指对象,返回值是一个整数类型,对象->整数       x为字符串:字符串应全为整数       x为小数:只保留整数部分       x不能是负数       x为布尔类型:True=1False=0   2.float(x):x......
  • Python自动化运维
    2-27在命令行窗口中启动的Python解释器中实现在Python自带的IDLE中实现print("Helloworld")编码规范每个import语句只导入一个模块,尽量避免一次导入多个模块不要在行尾添加分号“:”,也不要用分号将两条命令放在同一行建议每行不超过80个字符使用必要的空行可以增加代码的可读性运......
  • Python学习
    3-13字符串类型字符串类型:str   1.定义格式:       变量='内容'           打印一行       变量="内容"           打印一行       变量='''内容'''或者三引号           可以通过回车的方式换行,且打印出......
  • java基于springboot+vue的漫画网站管理系统,附源码+数据库+lw文档+PPT,适合毕业设计、课
    1、项目介绍考虑到实际生活中在漫画网站方面的需要以及对该系统认真的分析,将系统权限按管理员和用户这两类涉及用户划分。(a)管理员;管理员使用本系统涉到的功能主要有:首页、个人中心、用户管理、漫画分类管理、漫画投稿管理、分类管理、排行榜管理、交流论坛、系统管理等功能......