获取docx后缀文件中的所有文字

时间：2022-11-09 10:22:19浏览次数：54

标签：docx word 后缀 text list 获取 df columns

import docx
import re

# 手动修改
word_name = ""
# 手动修改
document = docx.Document(
    r".\doc\已梳理\未添加（手动添加）\新建 DOCX 文档.docx"
)


all_paragraphs = document.paragraphs
# 获取word文档中的所有文字
word_text_list = [paragraph.text for paragraph in all_paragraphs]
word_text = "".join(word_text_list)
word_text = word_text.replace(":", "：")


# 获取问题列表
Q_list = re.findall("qstart(.*?)qend", word_text)
# 获取答案列表
A_list = re.findall("astart(.*?)aend", word_text)
# A_list.append(A_last)


# 导出
import pandas as pd

df = pd.DataFrame()
df["问题"] = Q_list
print(A_list)
print(len(A_list))
# 若答案有问题，手动修改
df["答案"] = A_list
df["文档来源"] = word_name

# dataframe重排
new_columns = df.columns.to_list()
new_columns.insert(0, "文档来源")
new_columns.pop(-1)
df = df.reindex(columns=new_columns)
df.to_excel("49.xlsx", index=False)

标签：docx,word,后缀,text,list,获取,df,columns
From： https://www.cnblogs.com/tiansz/p/16872693.html

获取数组中逆序对的对数
packageclass04;importjava.util.Arrays;/***获取数组中逆序对的对数*<p>*在一个数组中，*任何一个前面的数a，和任何一个后面的数b，*如果(a,b)是降序的，......
获取DataGridView中ComboBox列某格的值
获取DataGridView中ComboBox列某格的值如此获取dgr.Cells["treat_result"].Value.ToString();......
jenkins 发版获取镜像仓库中tag
一、安装阿里云linux客户端工具选择官网下载地址#wgetwgethttps://aliyuncli.alicdn.com/aliyun-cli-linux-latest-amd64.tgz#tar-xfaliyun-cli-linux-latest-am......
python获取程序执行文件路径方法
python脚本打包成exe文件获取当前路径importosimportsys#确定应用程序是脚本文件还是被冻结的exeifgetattr(sys,'frozen',False):#获取应用程序exe的路径......
4种在JavaScript中获取URL中参数值的方法
方法一：正则法functiongetQueryString(name){varreg=newRegExp('(^|&)'+name+'=([^&]*)(&|$)','i');varr=window.location.search.substr(1).match(re......
Springboot项目application.properties获取中文数据乱码
1. springboot项目中的application.properties中的中文在获取到的时候是乱码。 2.解决方案找见OriginTrackedPropertiesLoader类，在同一个包下面新建一个相......
postman动态获取token到环境变量供后续接口使用
一：新建环境(为了方便供本项目使用,与其他项目隔离)左侧点击Environments,点击加号新建在界面内填写变量、类型、初始值、当前值变量与脚本设置的变量一致类型默......
Python 获取windows硬件信息 CPU/计算机名/IP
获取windows硬件信息#-*-coding:utf-8-*-#@Time:2022/11/811:22#@Author:lzc#@Email:[email protected]#@blog:https://www.cnblogs.com/zich......
某查猫信息获取cookie限制
地址链接游客状态#反爬类型基于cookie和IP的访问频率（次数）限制反爬策略游客状态基于IP的访问频率限制搜索接口有动态加密参数mfccode，mfccode只能使用一次cookie......
12种JS常用获取时间的方式
在编程中，总会遇到各种各样的获取时间的要求，下面我们来看一下获取不同时间格式的方法有哪些？如果不记得的话建议收藏哦！1、获取当前的日期和时间方法：newDate()console.log(n......

获取docx后缀文件中的所有文字

相关文章

赞助商

阅读排行