Python Pandas实现高效表格自动化处理

时间：2024-07-05 20:02:05浏览次数：18

标签：plt 表格 Python sales df pd 数据 Pandas

1. Pandas简介

Pandas是Python中用于数据分析和处理的强大库,它提供了高性能、易用的数据结构和工具。对于处理结构化数据,特别是表格数据,Pandas是一个不可或缺的工具。本文将介绍如何使用Pandas进行表格自动化处理。

2. 安装Pandas

使用pip安装Pandas:

pip install pandas

3. 读取表格数据

Pandas支持多种格式的表格数据读取,包括CSV、Excel、SQL数据库等。

import pandas as pd

# 读取CSV文件
df_csv = pd.read_csv('data.csv')

# 读取Excel文件
df_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 读取SQL数据库
import sqlite3
conn = sqlite3.connect('database.db')
df_sql = pd.read_sql_query("SELECT * FROM table_name", conn)

4. 数据查看和基本操作

# 查看前几行数据
print(df.head())

# 查看数据基本信息
print(df.info())

# 查看统计摘要
print(df.describe())

# 选择特定列
selected_columns = df[['column1', 'column2']]

# 条件筛选
filtered_df = df[df['column'] > 5]

# 排序
sorted_df = df.sort_values('column', ascending=False)

5. 数据清洗

# 处理缺失值
df_cleaned = df.dropna()  # 删除包含缺失值的行
df_filled = df.fillna(0)  # 用0填充缺失值

# 删除重复行
df_unique = df.drop_duplicates()

# 重命名列
df_renamed = df.rename(columns={'old_name': 'new_name'})

# 数据类型转换
df['column'] = df['column'].astype(int)

6. 数据转换和处理

# 应用函数到列
df['new_column'] = df['column'].apply(lambda x: x * 2)

# 分组统计
grouped = df.groupby('category')['value'].mean()

# 数据透视表
pivot_table = pd.pivot_table(df, values='value', index='category', columns='date')

# 合并数据框
merged_df = pd.merge(df1, df2, on='key_column')

# 时间序列处理
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
monthly_data = df.resample('M').mean()

7. 数据分析示例

让我们通过一个实际的例子来展示Pandas的强大功能。假设我们有一个销售数据的CSV文件:

import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('sales_data.csv')

# 数据清洗
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
df = df.dropna()

# 按月份统计销售额
monthly_sales = df.resample('M')['sales'].sum()

# 计算每个产品的总销售额
product_sales = df.groupby('product')['sales'].sum().sort_values(ascending=False)

# 找出销售额最高的前5个产品
top_5_products = product_sales.head()

# 可视化
plt.figure(figsize=(12, 6))
monthly_sales.plot(kind='bar')
plt.title('Monthly Sales')
plt.xlabel('Month')
plt.ylabel('Sales')
plt.tight_layout()
plt.savefig('monthly_sales.png')

plt.figure(figsize=(10, 6))
top_5_products.plot(kind='pie', autopct='%1.1f%%')
plt.title('Top 5 Products by Sales')
plt.axis('equal')
plt.savefig('top_5_products.png')

# 输出结果到Excel
with pd.ExcelWriter('sales_analysis.xlsx') as writer:
    monthly_sales.to_excel(writer, sheet_name='Monthly Sales')
    product_sales.to_excel(writer, sheet_name='Product Sales')

这个例子展示了如何使用Pandas读取CSV文件,进行数据清洗和转换,执行时间序列分析和分组统计,并生成可视化图表和Excel报告。

8. 大数据处理技巧

当处理大型数据集时,可以使用以下技巧提高效率:

使用chunksize参数分块读取大文件
使用df.memory_usage(deep=True)检查内存使用情况
优化数据类型,如使用category类型代替object
使用df.query()进行高效的条件筛选

9. 结语

Pandas为Python中的表格自动化处理提供了强大而灵活的工具。通过本文介绍的技术,您可以高效地处理各种表格数据,从数据清洗到高级分析。随着数据量的增长和分析需求的复杂化,掌握Pandas将成为数据处理中不可或缺的技能。

希望这篇文章对您的Pandas学习和使用有所帮助。如有任何疑问,欢迎在评论区讨论交流。

标签：plt,表格,Python,sales,df,pd,数据,Pandas
From： https://blog.csdn.net/qq_32516133/article/details/140216834

python实验二数据类型、表达式及语句
一、实验目的1.会使用Pycharm编辑器编写简单数据类型；2.掌握常量、变量的表示方式和简单操作；3.掌握Python语言中基本的输入和输出方法；4.掌握Python语言的各种运算符以及这些运算符的表达式；5.掌握字符串类型的格式化方法；6.能综合应用所学基础知识编写一些基本的程序。二、......
数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGB
全文链接：https://tecdat.cn/?p=34434原文出处：拓端数据部落公众号分析师：ShilinChen离职率是企业保留人才能力的体现。分析预测职员是否有离职趋向有利于企业的人才管理，提升组织职员的心理健康，从而更有利于企业未来的发展。解决方案任务/目标采用分类这一方法构建6种模型对职......
python多线程与多进程开发实践及填坑记（1）
1.需求分析1.1.概述基于Flask、Pika、Multiprocessing、Thread搭建一个架构，完成多线程、多进程工作。具体需求如下：并行计算任务：使用multiprocessing模块实现并行计算任务，提高计算效率、计算能力。消息侦听任务：使用threading模块完成RabbitMQ消息队列的侦听任务，将接收到......
Python异步编程技术详解:async、await、yield和anext
Python异步编程技术详解:async、await、yield和anext1.async和await2.yield3.anext4.StopAsyncIteration5.综合示例:异步聊天机器人总结异步编程是Python中一种强大的并发编程模式,可以显著提高I/O密集型应用的性能。本文将详细介绍Python中的几种重要的异步编......
Python金融时间序列模型ARIMA 和GARCH 在股票市场预测应用|附代码数据
原文链接：http://tecdat.cn/?p=24407最近我们被客户要求撰写关于金融时间序列模型的研究报告，包括一些图形和统计输出。这篇文章讨论了自回归综合移动平均模型(ARIMA)和自回归条件异方差模型(GARCH)及其在股票市场预测中的应用（点击文末“阅读原文”获取完整代码数据******......
从Pandas到Polars
这里展示了如何将一些熟悉的Pandas命令转换为Polars。另外也介绍Pandas和Polars之间一些根本区别。在以下示例中，将Polarsv0.20.10与Pandasv2.2.0进行比较。首先在Polars中创建一个样本数据集importpolarsasplimportpolars.selectorsascsimportpandasaspdim......
还在为如何学Python而犯难吗？在这里分享下最全的Python学习路线！
先是Python基础知识的看完基础的，那就来进阶的，前面的是入门，现在的也就是作为一个程序员的基础最后在来个爬虫的觉得有用的朋友，记得点赞哟，如果觉得还看得不过瘾，可以私信我，我这里有Python爬虫系统教学的免费直播观看名额或者还想看其他知识点的，可以在下面留言。......
Python学习篇：流程控制详细介绍（四）
目录1前言2条件判断2.1基本语法2.2使用示例2.3注意事项3循环3.1for循环3.2while循环3.3循环控制语句 4异常处理 4.1基本语法4.2使用示例 4.3注意事项 1前言Python中的流程控制是编程中非常重要的一部分，它允许你根据条件、循环或其他因素来......
超详细Python教程——函数和模块的使用
函数和模块的使用在讲解本章节的内容之前，我们先来研究一道数学题，请说出下面的方程有多少组正整数解。事实上，上面的问题等同于将8个苹果分成四组每组至少一个苹果有多少种方案。想到这一点问题的答案就呼之欲出了。可以用Python的程序来计算出这个值，代码如下所示。"""......
一个用来画拉氏图的简单Python脚本
技术背景关于拉氏图的更多介绍，可以参考下这篇博客，这里简单引述一部分内容：Ramachandranplot（拉氏图）是由G.N.Ramachandran等人于1963年开发的，用来描述蛋白质结构中氨基酸残基二面角\(\psi\)和\(\phi\)是否在合理区域的一种可视化方法。同时也可以反映出该蛋白质的构象是否合理......