首页 > 编程语言 >Python办公自动化(一)对比execl内容

Python办公自动化(一)对比execl内容

时间:2023-12-12 18:13:07浏览次数:58  
标签:execl xlsx 办公自动化 name Python num col merged row

Python办公自动化(一)对比execl内容

安装依赖

需要安装的库:openpyxl,pandas
如何安装:
打开命令行(win+R 输入cmd/powershell),输入以下命令

pip install openpyxl 
pip install pandas

代码

新建一个文件夹 ,新建一个文件,文件名为compare.py,输入以下代码,保存。

#使用说明
#1.将df1.xlsx和df2.xlsx分别替换为你的文件名
#2.将diff替换为你的工作表名
#3.将机构名称替换为你的列名,此处意思是将两个表格中的机构名称相同的数据合并,并比较两个表格中的机构名称相同的数据是否相同

from openpyxl import Workbook, load_workbook
from openpyxl.styles import PatternFill, Font

import pandas as pd

# 加载Excel数据到Pandas DataFrame中
# 将df1.xlsx和df2.xlsx分别替换为你的文件名
# 将diff替换为你的工作表名
df1 = pd.read_excel('df1.xlsx', sheet_name='diff')
df2 = pd.read_excel('df2.xlsx', sheet_name='diff')
df1 = df1.drop_duplicates()
df2= df2.drop_duplicates()
# 合并DataFrame,并按机构名称排序
merged_df = pd.merge(df1, df2, on='名称', suffixes=['_a', '_b'],how='outer').sort_values('名称')
# 将合并后的DataFrame写入到Excel文件中
merged_df.to_excel('merged.xlsx', index=False)

# 设置标记不同值的字体和填充样式
font_red = Font(color='FF0000')
fill_red = PatternFill(start_color='FFC7CE', end_color='FFC7CE', fill_type='solid')

# 打开Excel文件并获取活动工作表
workbook = load_workbook(filename='merged.xlsx')
worksheet = workbook.active

# 将表头添加到Excel文件
for col_num, header in enumerate(merged_df.columns):
    cell = worksheet.cell(row=1, column=col_num+1)
    cell.value = header

# 遍历每一行并比较单元格的值
for row_num, row in enumerate(merged_df.values, start=2):
    for col_num, value in enumerate(row, start=1):
        col_name = merged_df.columns[col_num - 1]
        if col_name.endswith('_a'):
            compare_col_name = col_name[:-2] + '_b'
            compare_value = row[merged_df.columns.get_loc(compare_col_name)]
            if pd.isna(value) and pd.isna(compare_value):
                continue
            if value != compare_value:
                cell = worksheet.cell(row=row_num, column=col_num)
                cell.font = font_red
                cell.fill = fill_red

# 保存Excel文件并关闭工作簿
workbook.save("merged.xlsx")
workbook.close()

执行代码
打开命令行(win+R 输入cmd/powershell),进入到该文件夹,输入python compare.py,回车。

效果

merged.xlsx 中为合并后的数据,红色字体为不同的数据

标签:execl,xlsx,办公自动化,name,Python,num,col,merged,row
From: https://www.cnblogs.com/zhangjun0204/p/17897514.html

相关文章

  • 【Python爬虫】爬虫框架Scrapy初使用_爬取4399游戏页面数据
    Scrapy简介Scrapy是一个用于爬取和提取数据的开源web抓取框架。它提供了一个强大的机制,让开发者可以轻松地创建和管理爬虫程序,以从网站上自动提取结构化的数据。以下是Scrapy的一些主要特点和优势:强大灵活的爬取能力:Scrapy具有高度可配置的请求处理和数据提取功能。它可以轻......
  • Python——第五章:json模块
    什么是json:json模块是用于处理JSON(JavaScriptObjectNotation)数据的模块,翻译过来叫js对象简谱。JSON是一种轻量级的数据交换格式,常用于将数据在不同语言之间进行传递。我们先来看一段json代码:wf={"name":"汪峰","age":18,"hobby":"上头条","wife"......
  • 02-python基础学习
    Python简介:python是一个解释型语言,主要理念就是优雅和简单。目前市面上存在两个版本的python,2版本现在已经停止更新。因此使用3.x版本编写的python代码无法使用2.xpython解释器进行处理。python源文件以.py结尾,其中的代码,通过使用python解释器解释执行。可以通过使用......
  • Python实现单例模式的五种写法
    单例模式是一种设计模式,用于确保一个类只有一个实例,并提供全局访问点。在Python中,可以使用多种方法实现单例模式。本文将介绍五种常见的Python单例模式实现方式,包括使用模块、装饰器、基类、元类和线程安全机制。单例模式是一种常见的设计模式,用于确保一个类只有一个实例,并提供全局......
  • Python爬取网站内容时,出现返回200和403状态码的原因解析
    在使用Python进行网页爬取时,我们有时会遇到返回200状态码表示成功,而有时会遇到返回403状态码表示访问被拒绝的情况。本文将解析造成这种情况的可能原因,并提供一些解决方法,以确保爬取网站内容的顺利进行。在使用Python进行网页爬取时,经常会遇到一种情况:有时成功返回200状态码,表示请......
  • 解决Python爬虫中Header报错的方法
    在使用Python编写爬虫时,有时会遇到Header报错的情况。本文将介绍常见的Header报错类型,并提供解决方法,帮助您顺利处理Python爬虫中的Header报错问题。当我们使用Python进行爬虫开发时,经常需要设置请求头(Header)来模拟浏览器发送请求。然而,有时可能会遇到一些与Header相关的报错。以下......
  • Python办公自动化在Mac和Linux平台上的兼容性限制
    Python是一种强大的编程语言,被广泛应用于办公自动化领域。然而,有关Python办公自动化在Mac和Linux平台上的兼容性问题需要进行一定的探讨。本文将对Python办公自动化在Mac和Linux平台上的兼容性限制进行分析,并提供一些解决方案。Python是一种流行的编程语言,在办公自动化领域有着广泛......
  • Python爬虫无法获取页面内容的常见原因及解决方法
     在使用Python进行网页爬取时,有时会遇到无法获取页面内容的情况。本文将探讨造成这种情况的常见原因,并提供一些解决方法,帮助您顺利进行网页内容的爬取。 当我们使用Python进行网页爬取时,有时会遇到无法获取页面内容的情况。以下是可能导致这种情况的常见原因: 1.请求错误: 在构......
  • Python中isdigit、isnumeric、isdecimal
    isdigit字符串的isdigit方法用于判断字符串是否只包含数字,即0-9的字符print('1233'.isdigit())#Trueprint('12.33'.isdigit())#Falseisnumeric字符串的isnumeric方法可用于判断字符串是否是数字,数字包括Unicode数字,byte数字(单字节),全角数字(双字节),罗马数字print('23......
  • 用python将csv转excel (.xls和.xlsx)的几种方式
    excel后缀有2种格式,.xls是从Excel97到Excel2003的默认文件格式,而.xlsx是Excel2007及更高版本的默认文件格式。.xlsx和.xls格式的主要区别在于,.xls格式单个工作表最多支持65536行,256列。.xlsx格式最多支持1048576行,16384列。此外就是,存储同样多的数据,.xlsx格式文......