数据分析实例

数据分析实例

时间：2023-06-09 21:22:05浏览次数：51

标签：数据分析 plot plt 查看 finalsalaryavg da 实例数据

1、导入用于分析和可视化作图的库

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns #seaborn也很强大，可以小试一下

da=pd.read_csv('D:/datasource/mycrawldata/dataanylist.csv')
da.head()
da.columns
da.shape #查看数据的行列数,这里是(465, 7)
da.describe().T
da.dtypes #查看每列数据的类型
da.size #查看数据的总个数,这里是3255
da.info() #查看数据基本信息
da.count() #统计没列数字个数
da['benefit'].value_counts() #岗位福利这一列的分类数量统计

上述代码的后面几行代码是pandas常见的函数，用于查看数据源的基本信息，大家可以自行尝试使用。下面挑几个重要函数讲解。
da.head() 用来查看数据前前面几行数据，默认为5，同样tail()是末尾5行数据。

da.columns用于查看列名，类似SQL里的show columns from tablename;语句。

da.describe()查看数据简单统计描述，类似SQL里describe tablename;后面加T是转置，为了便于观看。实际应用时常配合groupby功能一起使用。

数据切片示例：

da['comanpy name'][3]
da['comanpy name'].size
#'中邮消费金融'
da['comanpy name'][3][:2]
#'中邮'

3、数据加工
数据加工包括去重，补缺等清洗和处理等工作，这里没有重复和缺失的内容。考虑到网站提供的薪资是一个范围，并且以K为单位。为了便于后面的统计分析，我们增加一列，把范围转化成确切的均值数字，如建信金科提供的薪资为 16k-30k，可以转化成18k。具体操作如下：

#把工资转化成均值
da['salaryavg']=list(map(lambda x:x.replace('k',''),da['salary'])) #首先出去"K"
da['finalsalaryavg']=list(map(lambda x: (int(x.split('-')[0])+int(x.split('-')[1]))/2,da['salaryavg'])) #然后用"-"做split处理，获得两个数字，求平均数作为最终平均薪资
da.describe() #由于平均薪资列为数字，用这个函数的效果就出来了，请见下图
da[da['finalsalaryavg']==3.5] #找出最低值
da.sort_values(by='finalsalaryavg',ascending=False,inplace=True) #按照工资排序

#bar柱状图
#注意Bin labels must be one fewer than the number of bin edges
labels=['{}-{}'.format(i,i+5) for i in range(0,50,5)]
da['salaryrange']=pd.cut(da['finalsalaryavg'],range(0,51,5),labels=labels) #用cut函数对工资做区间归类，
da['salaryrange'].value_counts().plot(kind='bar',rot=20,colormap='summer')
plt.xlabel('salary range');plt.ylabel('nof of jobs');plt.title('salary and number of jobs')
plt.show()

#饼图
da['salaryrange'].value_counts().plot(kind='pie',autopct='%1.2f%%',labeldistance=1)

```python
#直方图
s1=da['finalsalaryavg'].plot(kind='hist',bins=10,alpha=0.9,figsize=(10,5),grid=True,legend=True,title='Salary Distribution')

#密度分布图
da['finalsalaryavg'].plot.density()

标签：数据分析,plot,plt,查看,finalsalaryavg,da,实例,数据
From： https://www.cnblogs.com/r-zz/p/17470276.html

大数据分析python
#导库importnumpyasnpimportpandasaspd#读取数据data=pd.read_csv('logistics.csv')data.head(10)思路：直接查看不同公司的数量即可df1=data.groupby('货运公司名称').size().reset_index(name='count')#直接对货运公司的名称做统计(示例：天天速递25)df12.接通知对......
dubbo+spring+zookeeper的集成入门实例
一、启动zookeeper我用的kafka自带的zookeeper任务管理器输入bin\windows\zookeeper-server-start.batconfig\zookeeper.properties开启zookeeperCtrl+c输入Y关闭服务二、安装dubbo—admin管理控制台1、打开https://github.com/apache/dubbo-admin/tree/......
PieLove 之数据分析帝.(ZZ)(is2120)
//z2015-11-1813:11:20L.43'38920BG57IV3@XCLT3124966025.K.F2308917803[T65,L1051,R44,V2186]高息揽储->正常还本付息->老乡们奔走相告->更高的息揽储->老乡们几倍于前面的资金跟进…(循环一段时间，有长有短)…->突然告知不能还本付息->老乡们挤兑->老总站台，出补偿方案->方......
DevExpress 动态创建实例化类（xpo）
使用xpo（devexpress）时动态创建一个持久化类。这样方便访问数据库。/*使用DevExpress控件xpoXPObject持久化对象数据库访问表XPObject*///z2011-07-2722:06:55@is2120.CSDN转载请注明出处classProgram{staticvoidMain(string[]args){XpoD......
boost.array 使用实例
#include<iostream>//z包含array相关头文件。#include<boost/array.hpp>usingnamespacestd;usingnamespaceboost;//z仿函数，输出array各元素。classPrintInt{private:intsum;intcnt;public:PrintInt(intval):sum(......
emoji食用实例
\(emoji\)食用实例使用方法：1.使用系统自带的emoji，快捷键\(win+;\)或\(win+.\)当然你也可以用微软的拼音输入法点击那个笑脸，就像这样......
实例讲解Flink 流处理程序编程模型
摘要：在深入了解Flink实时数据处理程序的开发之前，先通过一个简单示例来了解使用Flink的DataStreamAPI构建有状态流应用程序的过程。本文分享自华为云社区《Flink实例：Flink流处理程序编程模型》，作者：TiAmoZhang。在深入了解Flink实时数据处理程序的开发之前，先通过一个简单......
Wpf(Storyboard)动画简单实例
Wpf(Storyboard)动画简单实例动画的三种变换方式RotateTransform：旋转变换变化值：CenterX围绕转的圆心横坐标 CenterY纵坐标 Angle旋转角度（角度正负表示方向） ScaleTransform：缩放变换变化值：ScaleX横向放大倍数 ScaleY纵向（负值时翻转） TranslateTransform......
用Spring MVC实现用户登录的完整实例
用SpringMVC实现用户登录的完整实例本例子是再Eclipse中建立一个Tomcat工程,来讲解SpringMVC的全过程,实例代码如下:<一>编写日记文件放在myMVC/WEB-INF/src下#指定日志输入文件的大小log4j.appender.stdout.MaxFileSize=500KBlog4j.appender.stdout.MaxBackupI......
Mybatis框架及原理实例分析
摘要本篇文章只是个人阅读mybatis源码总结的经验或者个人理解mybatis的基本轮廓，作为抛砖引玉的功能，希望对你有帮助，如果需要深入了解细节还需亲自去阅读源码。mybatis基本架构mybatis的源码应该算是比较容易阅读的，首先mybatis核心功能就是执行Sql语句，但在其基础上又有许多增强的地方......

相关文章

赞助商

阅读排行