首页 > 编程语言 >Python Pandas 数据分析项目实例

Python Pandas 数据分析项目实例

时间:2024-01-16 20:35:27浏览次数:26  
标签:数据分析 Python df 文档 print 数据 Pandas

 

假设我们有一个电子商务公司的销售数据,包含了客户购买记录、商品价格、购买日期等信息。我们的目标是分析这些数据,提取有价值的信息,例如总销售额、最畅销的产品、销售趋势等。

1、安装引用Pandas

如没有安装 Pandas,可以通过 pip 安装它。参考下面的文档。然后在 Python 脚本或 Jupyter 笔记本中导入 Pandas。

参考文档:Python Pandas 安装和设置

2、加载数据

使用 Pandas 加载数据。Pandas 支持多种格式的数据,如 CSV、Excel、SQL 数据库和 JSON。根据数据源的格式,选择合适的方法进行加载。不同的加载方法可以参考下面的文档。

参考文档:不同的数据源读取数

3、查看数据

可以使用 head() 方法查看数据集的前几行。使用 shape 属性查看行数和列数。使用 info() 方法查看每列的名称、非空值数量和数据类型。对于类别型数据,可以使用 value_counts() 方法来查看每个类别的频数分布。

import pandas as pd

# 假设这是 data.csv 的内容
from io import StringIO
data = StringIO("""
Movie,Rating,Reviews
Inception,8.8,19000
The Matrix,8.7,15000
Interstellar,8.6,20000
The Prestige,8.5,17000
""")

# 读取数据
df = pd.read_csv(data)

# 查看前几行
print("头部数据:")
print(df.head())

# 查看数据集的大小
print("\n数据集大小:")
print(df.shape)

# 查看列名和数据类型
print("\n数据信息:")
print(df.info())

# 查看统计摘要
print("\n统计摘要:")
print(df.describe())

# 检查缺失值
print("\n缺失值检查:")
print(df.isnull().sum())

# 随机抽样
print("\n随机样本:")
print(df.sample(2,replace=False))

4、数据清洗及类型转换

进行数据分析时,数据清洗是一个非常重要的步骤。数据清洗通常包括处理缺失值、去除重复数据、转换数据格式、标准化文本值等操作。相关方法以及示例代码,可以参数下面的文档。

参考文档:Python Pandas 数据清洗

5、数据分析

参考文档:Python Pandas 数据分析项目实例-CJavaPy

 参考文档

示例数据为商品每日的销售数量及价格,分析出总的销售的额,和最畅销的产品,最后根据日期和销售额生成柱状图,如下,

import pandas as pd
import matplotlib.pyplot as plt
from io import StringIO

# 示例数据
data = """Date,Product,Quantity,Price
2024-01-01,C,10,20
2024-01-02,C#,15,25
2024-01-03,JAVA,12,30
2024-01-04,Python,20,20
2024-01-05,JavaScript,10,25"""

# 将字符串数据转换为DataFrame
df = pd.read_csv(StringIO(data))

# 数据探索
print("Initial Data:")
print(df.head())
print("\nData Info:")
print(df.info())

# 数据清洗
df = df.dropna()

# 数据转换
df['Date'] = pd.to_datetime(df['Date'])
df['Total_Sales'] = df['Quantity'] * df['Price']

# 数据分析
total_sales = df['Total_Sales'].sum()
best_selling = df.groupby('Product')['Total_Sales'].sum().idxmax()

print(f"\n总销售额: {total_sales}")
print(f"最畅销的产品: {best_selling}")

# 数据可视化
df.groupby(df['Date'].dt.day)['Total_Sales'].sum().plot(kind='bar')
plt.title('Monthly Sales')
plt.xlabel('Month')
plt.ylabel('Total Sales')
plt.show()

参考文档:

Python Pandas 数据可视化

Python Pandas 时间序列分析

Python Pandas 时间序列分析 日期时间的处理和转换

Python Pandas 高级数据操作 多层索引

Python Pandas 高级数据操作 数据透视表

Python Pandas 高级数据操作 优化技巧和最佳实践

Python Pandas 高级数据操作 Categorical 数据类型的使用

标签:数据分析,Python,df,文档,print,数据,Pandas
From: https://www.cnblogs.com/tinyblog/p/17968485

相关文章

  • Python随笔3(流程控制if else )
    #answer=input('你是会员名y/n')##pass是空语句#if(answer=='y'):#pass#else:#pass'''只要是空的就是False'''print(bool(False))print(bool(0))print(bool(0.0))print(bool(None))print(bool(''))......
  • Python一些提高效率的类库和装饰器用法
    本文主要是慢慢积累Python中一些能提高效率的类库和装饰器,闲话少说,开始进入主题。一、重试【问题引申:接口网络抖动不稳如何做?回答:请求接口捕获异常和接口请求重试】1fromretryingimportretry2#等待1秒后重试,最大重试次数为33@retry(stop_max_attempt_number=3,wait_......
  • 软件测试|探索Flask接口路由技术:构建灵活可拓展的Python应用
    什么是路由路由是将URL地址与应用程序中的函数相映射的过程。当用户在浏览器中输入特定的URL地址时,Flask会调用与该地址相匹配的函数并返回相应的结果。路由的应用场景在Web应用程序都通过路由技术使用URL链接来控制网页显示的内容,只要知道URL链接,即使没有主页导航也可......
  • 软件测试|探索Flask接口路由技术:构建灵活可拓展的Python应用
    测试管理班是专门面向测试与质量管理人员的一门课程,通过提升从业人员的团队管理、项目管理、绩效管理、沟通管理等方面的能力,使测试管理人员可以更好的带领团队、项目以及公司获得更快的成长。提供1v1私教指导,BAT级别的测试管理大咖量身打造职业规划。什么是路由路由是将UR......
  • python获取当前执行py文件的路径
    1.os.getcwd() 只有路径,不包含py文件名path=os.getcwd()print(path)#结果:E:\pyworkspace\pycharmProjects\cdtest\oproject\Pubic 2.os.path.realpath(__file__)#包含了py文件path=os.path.realpath(__file__)print(path)#结果:E:\pyworkspace\pycharmProjects\c......
  • python中各种函数的用法及注意事项
    比较函数使用这个函数要先导入operator模块:``importoperator``常用的比较函数(>>=<<===!=)依次在下列出operator.gt(a,b)operator.ge(a,b)operator.lt(a,b)operator.le(a,b)operator.eq(a,b)operator.ne(a,b)直接赋值和使用copy函数的区别#!/......
  • 探索Flask接口路由技术:构建灵活可拓展的Python应用
    霍格沃兹的测试管理班是专门面向测试与质量管理人员的一门课程,通过提升从业人员的团队管理、项目管理、绩效管理、沟通管理等方面的能力,使测试管理人员可以更好的带领团队、项目以及公司获得更快的成长。提供1v1私教指导,BAT级别的测试管理大咖量身打造职业规划。什么是路由路由......
  • python pyqt6 QComboBox 设定下拉框背景颜色
    设定QComboBox的背景颜色,边框设定,以及下拉框的背景颜色以及边框设定,selection-background-color不生效可忽略 xxx_source=QComboBox(self.xxx_frame)xxx_source.setStyleSheet("QComboBox{background-color:transparent;color:transparent;border-......
  • 【python网络编程相关】 ----操作系统相关了解
    title:【python网络编程相关】----操作系统相关了解date:2024-01-1615:54:06updated:2024-01-1616:20:00description:【python网络编程相关】----操作系统相关了解cover: https://www.cnblogs.com/YZL2333/p/10444200.htmlhttps://home.cnblogs.com/u/......
  • Python常用的内置函数
    【一】什么是内置函数?内置函数就是Python给你提供的,拿来直接用的函数,比如print,input等。第1组(5个)abs,绝对值v=abs(-10)pow,指数v1=pow(2,5)#2的5次方2**5print(v1)sum,求和v1=sum([-11,22,33,44,55])#可以被迭代-for循环print(v1)divmo......