首页 > 其他分享 >数据分析实例

数据分析实例

时间:2023-06-09 21:22:05浏览次数:51  
标签:数据分析 plot plt 查看 finalsalaryavg da 实例 数据

1、导入用于分析和可视化作图的库

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns #seaborn也很强大,可以小试一下

da=pd.read_csv('D:/datasource/mycrawldata/dataanylist.csv')
da.head()
da.columns
da.shape #查看数据的行列数,这里是(465, 7)
da.describe().T
da.dtypes #查看每列数据的类型
da.size #查看数据的总个数,这里是3255
da.info() #查看数据基本信息
da.count() #统计没列数字个数
da['benefit'].value_counts() #岗位福利这一列的分类数量统计

上述代码的后面几行代码是pandas常见的函数,用于查看数据源的基本信息,大家可以自行尝试使用。下面挑几个重要函数讲解。
da.head() 用来查看数据前前面几行数据,默认为5,同样tail()是末尾5行数据。

da.columns用于查看列名,类似SQL里的show columns from tablename;语句。

da.describe()查看数据简单统计描述,类似SQL里describe tablename;后面加T是转置,为了便于观看。实际应用时常配合groupby功能一起使用。

数据切片示例:

da['comanpy name'][3]
da['comanpy name'].size
#'中邮消费金融'
da['comanpy name'][3][:2]
#'中邮'

 

3、数据加工
数据加工包括去重,补缺等清洗和处理等工作,这里没有重复和缺失的内容。考虑到网站提供的薪资是一个范围,并且以K为单位。为了便于后面的统计分析,我们增加一列,把范围转化成确切的均值数字,如建信金科提供的薪资为 16k-30k,可以转化成18k。具体操作如下:

#把工资转化成均值
da['salaryavg']=list(map(lambda x:x.replace('k',''),da['salary'])) #首先出去"K"
da['finalsalaryavg']=list(map(lambda x: (int(x.split('-')[0])+int(x.split('-')[1]))/2,da['salaryavg'])) #然后用"-"做split处理,获得两个数字,求平均数作为最终平均薪资
da.describe() #由于平均薪资列为数字,用这个函数的效果就出来了,请见下图
da[da['finalsalaryavg']==3.5] #找出最低值
da.sort_values(by='finalsalaryavg',ascending=False,inplace=True) #按照工资排序

#bar柱状图
#注意Bin labels must be one fewer than the number of bin edges
labels=['{}-{}'.format(i,i+5) for i in range(0,50,5)]
da['salaryrange']=pd.cut(da['finalsalaryavg'],range(0,51,5),labels=labels) #用cut函数对工资做区间归类,
da['salaryrange'].value_counts().plot(kind='bar',rot=20,colormap='summer')
plt.xlabel('salary range');plt.ylabel('nof of jobs');plt.title('salary and number of jobs')
plt.show()

#饼图
da['salaryrange'].value_counts().plot(kind='pie',autopct='%1.2f%%',labeldistance=1)

```python
#直方图
s1=da['finalsalaryavg'].plot(kind='hist',bins=10,alpha=0.9,figsize=(10,5),grid=True,legend=True,title='Salary Distribution')

#密度分布图
da['finalsalaryavg'].plot.density()

标签:数据分析,plot,plt,查看,finalsalaryavg,da,实例,数据
From: https://www.cnblogs.com/r-zz/p/17470276.html

相关文章

  • 大数据分析python
    #导库importnumpyasnpimportpandasaspd#读取数据data=pd.read_csv('logistics.csv')data.head(10)思路:直接查看不同公司的数量即可df1=data.groupby('货运公司名称').size().reset_index(name='count')#直接对货运公司的名称做统计(示例:天天速递25)df12.接通知对......
  • dubbo+spring+zookeeper的集成入门实例
    一、启动zookeeper我用的kafka自带的zookeeper任务管理器输入bin\windows\zookeeper-server-start.batconfig\zookeeper.properties开启zookeeperCtrl+c输入Y关闭服务 二、安装dubbo—admin管理控制台1、打开https://github.com/apache/dubbo-admin/tree/......
  • PieLove 之 数据分析帝.(ZZ)(is2120)
    //z2015-11-1813:11:20L.43'38920BG57IV3@XCLT3124966025.K.F2308917803[T65,L1051,R44,V2186]高息揽储->正常还本付息->老乡们奔走相告->更高的息揽储->老乡们几倍于前面的资金跟进…(循环一段时间,有长有短)…->突然告知不能还本付息->老乡们挤兑->老总站台,出补偿方案->方......
  • DevExpress 动态创建实例化类 (xpo)
    使用xpo(devexpress)时动态创建一个持久化类。这样方便访问数据库。/*使用DevExpress控件xpoXPObject持久化对象数据库访问表XPObject*///z2011-07-2722:06:55@is2120.CSDN转载请注明出处classProgram{staticvoidMain(string[]args){XpoD......
  • boost.array 使用实例
    #include<iostream>//z包含array相关头文件。#include<boost/array.hpp>usingnamespacestd;usingnamespaceboost;//z仿函数,输出array各元素。classPrintInt{private:intsum;intcnt;public:PrintInt(intval):sum(......
  • emoji食用实例
    \(emoji\)食用实例使用方法:1.使用系统自带的emoji,快捷键\(win+;\)或\(win+.\)当然你也可以用微软的拼音输入法点击那个笑脸,就像这样......
  • 实例讲解Flink 流处理程序编程模型
    摘要:在深入了解Flink实时数据处理程序的开发之前,先通过一个简单示例来了解使用Flink的DataStreamAPI构建有状态流应用程序的过程。本文分享自华为云社区《Flink实例:Flink流处理程序编程模型》,作者:TiAmoZhang。在深入了解Flink实时数据处理程序的开发之前,先通过一个简单......
  • Wpf(Storyboard)动画简单实例
    Wpf(Storyboard)动画简单实例动画的三种变换方式RotateTransform:旋转变换变化值:CenterX围绕转的圆心横坐标      CenterY纵坐标       Angle旋转角度(角度正负表示方向) ScaleTransform:缩放变换变化值:ScaleX横向放大倍数 ScaleY纵向(负值时翻转)  TranslateTransform......
  • 用Spring MVC实现用户登录的完整实例
    用SpringMVC实现用户登录的完整实例本例子是再Eclipse中建立一个Tomcat工程,来讲解SpringMVC的全过程,实例代码如下:<一>编写日记文件放在myMVC/WEB-INF/src下#指定日志输入文件的大小log4j.appender.stdout.MaxFileSize=500KBlog4j.appender.stdout.MaxBackupI......
  • Mybatis框架及原理实例分析
    摘要本篇文章只是个人阅读mybatis源码总结的经验或者个人理解mybatis的基本轮廓,作为抛砖引玉的功能,希望对你有帮助,如果需要深入了解细节还需亲自去阅读源码。mybatis基本架构mybatis的源码应该算是比较容易阅读的,首先mybatis核心功能就是执行Sql语句,但在其基础上又有许多增强的地方......