首页 > 编程语言 >python综合实战案例-数据分析

python综合实战案例-数据分析

时间:2024-03-24 23:33:33浏览次数:22  
标签:数据分析 实战 python ------------------------------------------ api 2018 print data da

Python是进行数据分析的好工具,今天就是借助一个案例给大家进行数据分析讲解。
本例设计一个log.txt⽂件,该文件记录了某个项⽬中某个 api 的调⽤情况,采样时间为每分钟⼀次,包括调⽤次数、响应时间等信息,⼤约18万条数据。下⾯进⾏探索性数据分析。
在这里插入图片描述

一、分析api调用次数

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', **{'family':'SimHei'})
# 从log.txt导⼊数据
data = pd.read_table('log.txt', header=None,names=['id', 'api', 'count', 'res_time_sum', 'res_time_min','res_time_max', 'res_time_avg', 'interval', 'created_at'])


# 检查是否有重复值
print( data.duplicated().sum()  )   # 0

# 检查是否有空值
print( data.isnull().sum()  )
# 分析 api 和 interval 这两列的数据是否对分析有⽤
print( len(data)  ) # 得到 179496
print( len(data[data['interval'] == 60])  ) # 得到 179496
print( len(data[data['api'] == '/front-api/bill/create'])  ) # 得到 179496

# 查看api字段信息,可以发现unique=1,也就是说只有⼀个值,所以是没有意义的
print( data['api'].describe() )
# 删除api⼀列
data = data.drop('api', axis=1)
# 还发现 interval 的值全是60
print( data.interval.unique() )   # [60]

# 把 id 字段都删掉
data = data.drop(['id'], axis=1)
# 发现数据中每⼀⾏的  interval 字段的值都⼀样,所以丢弃这列
data2 = data.drop(columns=['interval'])
print( data2.head() )

# 查看维度信息
print( data2.shape )   # (179496, 6)
# 查看字段类型
print( data2.dtypes )
print( data2.info() )
print( data2.describe() )
print( "------------------------------------------" )
# 查看时间字段,会发现count=unique=179496,说明没有重复值

data2['created_at'].describe()

# 选取 2018-05-01 的数据,但是没有显⽰
print( data2[data2.created_at == '2018-05-01'] )
# 这样就可以,但是这样选取毕竟挺⿇烦的
print( data2[(data2.created_at >= '2018-05-01') & (data2.created_at < '2018-05-01')] )
# 所以,将时间序列作为索引
data2.index = data2['created_at']
# 为了能 data['2018-05-01'] 这样选取数据,我们还要将时间序列由字符串转为时间索引
data2.index = pd.to_datetime(data2['created_at'])
# 有了时间索引,后⾯的操作就⽅便多了
print( data2['2018-05-01'] )
print( "------------------------------------------" )
print( "------------------------------------------" )


# 分析 api 调⽤次数情况
# 下⾯直⽅图表⽰单位时间调⽤api的次数,最⼤值为31,所以就分31组
data['count'].hist(bins=31, rwidth=0.8)
plt.show()

在这里插入图片描述

二、分析访问高峰时段

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )

# 分析 api 调⽤次数情况,例如,在2018-5-1这⼀天中,哪些时间是访问⾼峰,哪些时间段访问⽐较少
# 如下图所⽰,从凌晨2点到11点访问少,业务⾼峰出现在下午两三点,晚上⼋九点。
data2['2018-5-1']['count'].plot()
plt.show()

在这里插入图片描述

三、分析api相应时间1

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )

data2['2018-5-1'].describe()
# 分析⼀天中 api 响应时间
data2['2018-5-1']['res_time_avg'].plot()
plt.show()

在这里插入图片描述

四、分析api响应时间2

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )

data2['2018-5-1'][['res_time_avg']].boxplot()
plt.show()

在这里插入图片描述

五、分析api响应时间3

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )

data2['2018-5-1'][['res_time_avg']].boxplot()
plt.show()

在这里插入图片描述

六、分析api相应时间4

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )

# 以20分钟为单位重新采样,可以看到在业务⾼峰时间段,最⼤响应时间和平均响应时间都有所上升
# data2['2018-5-1'].resample('20T').mean()
#  data2[['res_time_avg','res_time_max','res_time_min','res_time_sum']].plot()
data2['2018-5-1'].resample('20T').mean()
data2[['res_time_avg','res_time_max','res_time_min']].plot()
plt.show()

在这里插入图片描述

七、分析连续几天数据

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )


# 分析连续的⼏天数据,可以发现,每天的业务⾼峰时段都⽐较相似
data2['2018-5-1':'2018-5-10']['count'].plot()
plt.show()

在这里插入图片描述

八、分析周末访问量增加情况

# 相同代码省略
print( "------------------------------------------" )
print( "------------------------------------------" )

# 分析周末访问量是否有增加
data2['weekday'] = data2.index.weekday
data2.head()
# weekday从0开始,5和6表⽰星期六和星期天
data2['weekend'] = data2['weekday'].isin({5,6})
data2.head()
data2.groupby('weekend')['count'].mean()
data2.head()
#data2.groupby(['weekend', data2.index.hour])['count'].mean().plot()
#plt.show()
data2.groupby(['weekend', data2.index.hour])['count'].mean().unstack(level=0).plot()
plt.show()

在这里插入图片描述

总结

根据上面的代码分析案例,进行数据分析,首先根据之前文章讲到的数据清洗,对数据进行导入、重复值检查、空值检测、数据精简处理……
通过对数据的分析、处理,我们可以清楚可视化观察到数据的变化走向,更好的通过数据分析得到结论。
python分析数据绘制图片注意的问题我们后续再讲,感谢!

标签:数据分析,实战,python,------------------------------------------,api,2018,print,data,da
From: https://blog.csdn.net/weixin_61587867/article/details/136997178

相关文章

  • 瑞吉外卖实战学习--项目搭建
    瑞吉外卖实战学习前言1、创建springBoot项目,并引用相关依赖2、配置数据库3、通过注解检测项目是否可以启动成功4、配置前端页面的静态映射4.1前端文件放置的位置4.2由于存放的位置并不是默认的文件中,需要将这些文件静态映射4.3检测静态文件是否可以请求到5、项目基......
  • 鸿蒙HarmonyOS实战-ArkUI组件(Flex)
    ......
  • python基础一:python列表基础和一些经典使用案例
    1.写在前面好久没有更新python这一块的内容了,所以今天整理一块python的内容。今天整理的内容是python里面的列表,作为在python中非常常见的数据类型,尝试用一篇文章来整理其常用的操作,方便以后查看使用。目前可能不全,以后遇到列表相关的操作都放到这篇文章里面来。首先从列表......
  • 蟒蛇书入门学习笔记(3)Python列表
    列表列表是一种数据结构,用于储存一系列有序的数据,可以根据需要动态地增加或删除元素。列表在很多编程语言中都有内置的实现,常用的操作包括插入、删除、修改和查找元素。1.列表的表示列表可以包含字符、数字等等元素,一般来说用表示复数的名称(如letters,digits,names)命名列表,用......
  • python数据挖掘实验一:数据分析及可视化应用
    1.导入pandas包importpandasaspd2.根据给定的原始数据集创建一个DataFrame类型对象dfdata={'id':[10001,10002,10003,10004,10005,10006,10007,10008,10009,10010],'name':['LY','CE','ZS','LS','WU','......
  • Python爬虫--2
    本节笔记获取豆瓣网站内容记录文件创建时间文件→设置→编辑器→文件和代码模板中找到PythonScript在输入界面输入"#日期:${DATE}"#文件:${NAME}新建一个Python文件,显示了此文件创建时间和文件名字一.单页获取1.获取电影名字网页URL:https://movie.douban.com/top250......
  • Python 中的抽象类和接口类
    【抽象类】抽象类是一个特殊的类,只能被继承,不能被实例化。它主要用于作为其他类的基类或模板。抽象类可以包含抽象方法和具体方法。在抽象类中定义的抽象方法必须在子类中进行实现。fromabcimportabstractmethod,ABCMetaclassFruit(metaclass=ABCMeta):@abstractme......
  • Python好库
    Python好库一、有序列表fromsortedcontainersimportSortedListsl=SortedList([1,3])sl.add(-1)sl.remove(3)print(sl)print(sl.bisect_left(1))print(sl.bisect_right(3))"""SortedList([-1,1])12"""二、排列组合fromitertoolsimpor......
  • 【Python】可视化Python库的依赖关系
    这里主要用了两个库:pipdeptree和pyecharts。pipdeptree用来解析所有库的依赖关系。pyecharts用来显示依赖的网络关系。通常的方法应该是通过输入下面命令:pipdeptree--json-tree>pkg.json得到关系树文件,然后解析该文件并在pyecharts显示即可。不过我不想解析json文件了......
  • Python问题异常处理与日志结合
    我们掌握了try-except来处理程序运行中可能遇到的异常,以及使用logging来记录程序运行日志,该篇文章就结合二者来讲讲如何记录程序运行过程中的各种事件、状态信息以及遇到的异常情况,以便于追踪、诊断和解决程序运行时的问题。目录一、配置日志记录器 (logging.Logger)二、......