首页 > 编程语言 >盘点一个Python自动化办公的实战案例

盘点一个Python自动化办公的实战案例

时间:2022-10-17 07:44:05浏览次数:56  
标签:实战 docx Python text paragraph re 盘点 import data

大家好,我是皮皮。

一、前言

前几天在Python钻石交流群【Hxy任我肥】问了一个Python自动化办公的问题,提问截图如下:

想要的效果是下图这样的:

准确来说,这个都不算是问题了,而是一个实实在在的需求。

二、实现过程

这里【Jason】给了一个可行的思路,如下:

后来【瑜亮老师】给了一个具体的代码,如下所示:

import re
from docx import Document
import pandas as pd

document = Document("判断(括号处理)(1).docx")
all_paragraphs = document.paragraphs
data = [paragraph.text for paragraph in all_paragraphs if '√' in paragraph.text or '×' in paragraph.text]
data = ''.join(data)
res = re.findall('[√×]', data, re.S)
res = [f'{k + 1}.{v}' for k, v in enumerate(res)]
df = pd.DataFrame(res)
df.to_excel('test9-13.xlsx', index=False, header=None)

真的太强了!

代码运行之后可以得到预期的结果,如下图所示:

后来【狂吃山楂片】基于此代码,来了个简易版的,代码如下所示:

import re
from docx import Document
import pandas as pd

document = Document(r"判断(括号处理)(1).docx")
text = document.part.blob.decode('utf-8')

text = re.sub(r'<.*?>', '', text)
text = re.sub(r'\.\s+', r'.', text)
df = pd.DataFrame(re.findall(r'\d+\.[√×]', text))
df.to_excel('result.xlsx', header=None, index=False)

这技术真是到家了,出神入化的。

代码运行之后,也完全可以实现这个需求。

后来【瑜亮老师】还给了一个代码,也非常赞,如下所示:

data = [paragraph.text for paragraph in all_paragraphs if '√' in paragraph.text or '×' in paragraph.text]
# 合并为一个长字符串,然后替换删除所有的空格
data = ''.join(data).replace(' ', '')
# 使用re正则表达式提取出所有含有题号的答案
res = re.findall(r'\d+\.[√×]', data, re.S)
df = pd.DataFrame(res)
df.to_excel('test9-13.xlsx', index=False, header=None)

真让人叹为观止!把多余的空格都替换删除,可以防止答案中含有空格而导致不能被正则r'\d+.[√×]'匹配到,这样就一步到位了。不用再用列表推导式构造答案。

你以为这就完事了?

后来【甯同学】使用openpyxl库也搞定了,代码如下图所示:

import re 
import docx
import openpyxl
def str_work(string:str):
    return [*filter(None,re.split('\.',re.sub('\d+','',string.replace(' ', '').replace('\n', ''))))]
wb = openpyxl.Workbook()
ws = wb.active
ws.append(['题目','答案'])
doc = docx.Document(r'C:\Users\Administrator\Desktop\判断(括号处理).docx')
doc_text = '\n'.join(( i.text for i in doc.paragraphs[3:]))
doc_list = doc_text.split('\n一、判断题')
title_row = [i.strip() for i in doc_list[0].split('\n') if i.strip().split('、')!=['']]
answer_row = [i for i in str_work(doc_list[1])]
for i in zip(title_row,answer_row):
    ws.append(list(i))
wb.save('1.xlsx')

运行之后得到的结果如下图所示:

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python自动化办公的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【Hxy任我肥】提问,感谢【Jason】、【瑜亮老师】、【狂吃山楂片】、【甯同学】给出的思路和代码解析,感谢【dcpeng】、【产后修复】、【此类生物】、【余克富】等人参与学习交流。

标签:实战,docx,Python,text,paragraph,re,盘点,import,data
From: https://www.cnblogs.com/dcpeng/p/16797811.html

相关文章

  • 3天用flask搭建平台实战教程四:直接使用现成模版写出后台
    之前编写了用户restful接口,但是对于想快速实现前端页面或者不会使用js前端框架的开发人员直接使用模版也是个不错的选择。先在根目录创建templates文件夹和static文件夹......
  • python系列13:python中Path常用功能
     1.基本功能 建议使用pathlib模块来处理文件和文件夹,可以跨平台。pathlib提供path对象来操作,包括目录和文件。In[1]:frompathlibimportPathIn[2]:p=Path()In......
  • python学习第三周总结
    文件操作文件的读写模式文件的操作模式文件相关操作文件内光标移动文件内容修改函数前戏函数的语法结构函数的定义和调用函数的分类函数......
  • ROS2基本命令与简单列子(python与C++)
    初次学习ROS2机器操作系统,本博客将简单入门记录于此。 一. ros2安装:sudoapt-getinstallcurl&&curl http://fishros.com/tools/install/ros-foxy|bash二.编......
  • python学习——爬取数据到mysql
    承接上文,上次把数据爬取到了excel中,这次在上次代码的基础上进行修改,将数据直接上传到mysql中#-*-coding:utf-8-*-importrequestsfrombs4importBeautifulSoupim......
  • 65、记录使用科大讯飞的声纹识别从官方的Python Demo转C++ Demo路程
    基本思想:需要将声纹识别的demo集成到项目中,奈何官方只提供了py版本和java版本,需要c++版本,逐开发和记录一下,只是简单复现其py代码一、官方代码的和手册的地址 这里将py代码......
  • 【Python】Centos7安装Python3和pip
    安装Python3#wgethttps://www.python.org/ftp/python/3.6.2/Python-3.6.2.tar.xz#tar-xvJfPython-3.6.2.tar.xz#cdPython-3.6.2#./configure--prefix=/data......
  • python第三周总结
    每周总结文件操作1.文件概念与打开方式1.文件的概念就是操作系统暴露给用户操作硬盘的快捷方式eg:双击一个文件其实是从硬盘将数据加载到内存ctrl......
  • python 包
    1.python包init.py其实是一个特殊的文件,只要这个文件存在这个文件夹里,那么这个文件夹就是python包,如果没有__init__.py,那这个文件夹就只是文件夹。创建包的步骤:2.导......
  • python新类似乎违背了广度优先的执行顺序, 对象自定义计数实例化的多少
    classTSSS():deff1(self):print('fromTSSS')classSSS(TSSS):deff1(self):print('fromSSS')classSS():deff1(self):......