首页 > 编程语言 >【数据挖掘&机器学习】招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图、使用线性回归算法拟合散点图处理详解

【数据挖掘&机器学习】招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图、使用线性回归算法拟合散点图处理详解

时间:2023-04-28 23:33:33浏览次数:60  
标签:plt java 招聘 散点图 np 位数 薪资

一.本次需求背景

本文主题:招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图、使用线性回归算法拟合散点图处理详解

之前的文章我们已经对爬取的数据做了清洗处理,然后又对其数据做了一个薪资数据的倾斜情况以及盒图离群点的探究。

我们这次的需求是:

使用散点图、使用线性回归算法拟合散点图处理数据 使用局部回归(Loess)曲线(增加一条光滑曲线到散布图)方法处理数据

技术要点:爬虫库(Beautifulsoup、requests-html、Scrapy)、数据预处理(python、kettle)、数据可视化(matplotlib、pyecharts、tebleau)、python-web框架(Flask)

二.职位招聘数据的分位数图、分位数-分位数图

我们这次先看一下效果图:本次任务最后的效果就是下面这俩个图:

img

img

1.这块与上面几篇都一样:

使用关键词“java”对数据进行筛选,循环筛选过程中将职位名,薪资需要的关键字放到列表里面,然后存入字典里,经过pandas的处理: 将上限和下限分别处理:

xingzhi={}
zhiwei =[]
xin1 = []
xin2 =[]
for i in range(len(data)):
    if "java" in data.iloc[i]['职位名']:
        a = re.findall("\d+.?\d*", data.iloc[i]['薪资'])
        # print(data.iloc[i]['职位名'])
        zhiwei.append(data.iloc[i]['职位名'])
        xin1.append(int(a[0]))
        xin2.append(int(a[1]))
xingzhi={"职位名":zhiwei,'最低薪资':xin1,'最高薪资':xin2}
df = pd.DataFrame(xingzhi)
java_min=xin1
java_max=xin2
​

2.开始画图:将java数据的上限和下限分别作为两个特征值,传入进行绘图工作:

这里注意一点,我们在进行绘图之前需要使用sort对数据进行一个排序操作。X轴是公司个数,Y轴是薪资,单位K:

java岗位的薪资分位数图 java职位工资下限:绿色。java职位工资上限:红色

x=range(0, df['最高薪资'].count())
y=np.sort(xin1)
y1=np.sort(xin2)
plt.scatter(x,y,marker='.', c='green',alpha=0.4,label='bulge')
plt.scatter(x,y1,marker='.',c='red',alpha=0.4, label='scratch')
plt.xlabel('公司个数')
plt.ylabel('薪资,单位K')
plt.title('java岗位的薪资分位数图\njava职位工资下限:绿色。java职位工资上限:红色')
plt.show()

3.绘图效果如下:

java岗位的薪资分位数图

img

Python岗位的薪资分位数图

img

Go岗位的薪资分位数图

img

5.分位数—分位数图: 因为java岗位的数据远远的大于Python岗位的数据,我这里的想法是将java岗位的下限和上限分别和Python岗位的下限和上限做为特征值,进行绘图工作。 下限代码如下:

分位数——分位数图

特征值:java下限薪资和python下限薪资:

ava_min=java_min[:len(python_min)]
y=np.sort(java_min)
y1=np.sort(python_min)
​
plt.scatter(y,y1)
plt.plot([y[0],y[-1]],[y1[0],y1[-1]])
plt.scatter([np.quantile(y,0.25),np.quantile(y,0.5),np.quantile(y,0.75)],[np.quantile(y1,0.25),np.quantile(y1,0.5),np.quantile(y1,0.75)])
plt.xlabel('java下限薪资:单位k')
plt.ylabel('python下限薪资:单位k')
plt.title('分位数——分位数图\n特征值:java下限薪资和python下限薪资')
plt.show()

上限代码如下::

分位数——分位数图

特征值:java上限薪资和python上限薪资

java_max=java_min[:len(python_max)]
y=np.sort(java_max)
y1=np.sort(python_max)
​
plt.scatter(y,y1)
plt.plot([y[0],y[-1]],[y1[0],y1[-1]])
plt.scatter([np.quantile(y,0.25),np.quantile(y,0.5),np.quantile(y,0.75)],[np.quantile(y1,0.25),np.quantile(y1,0.5),np.quantile(y1,0.75)])
plt.xlabel('java上限薪资:单位k')
plt.ylabel('python上限薪资:单位k')
plt.title('分位数——分位数图\n特征值:java上限薪资和python上限薪资')
plt.show()

6.分位数—分位数图效果图如下:

java薪资下限和Python薪资下限的分位数-分位数图:

img

java薪资上限和Python薪资上限的分位数-分位数图

img

三.使用散点图、使用线性回归算法拟合散点图处理数据

注意:Linear Regression

线性回归算法:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。 其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

线性回归算法模型非常简单。每个数据有n个特征,每个特征对应于其自身的权重值。权重加上偏移值的乘积就是线性回归模型。公式如下:image-20221216212908164

公式如下:

image-20221216212824232

在回归分析中,只包括一个自变量和一个因变量,它们的关系可以近似地用一条直线表示。这种回归分析称为线性回归分析。如果回归分析包括两个或多个自变量,且因变量和自变量之间的关系是线性的,则称为多元线性回归分析。

1.与上文一样,我们使用关键词“java”对数据进行筛选,循环筛选过程中将职位名,薪资需要的关键字放到列表里面,然后存入字典里,经过pandas的处理: 将上限和下限分别处理:

xingzhi={}
zhiwei = []
xin1 = []
xin2 =[]
for i in range(len(data)):
    if "java" in data.iloc[i]['职位名']:
        a = re.findall("\d+.?\d*", data.iloc[i]['薪资'])
        # print(data.iloc[i]['职位名'])
        zhiwei.append(data.iloc[i]['职位名'])
        xin1.append(int(a[0]))
        xin2.append(int(a[1]))
xingzhi={"职位名":zhiwei,'最低薪资':xin1,'最高薪资':xin2}
df = pd.DataFrame(xingzhi)
java1=xin1
java2=xin2

2.使用上面的列表数据进行绘图—散点图:

X轴:各岗位薪资下限,y轴:各岗位薪资上限

plt.scatter(java1,java2, c="red", marker='o', label='java')
plt.scatter(python1,python2, c="green", marker='+', label='python')
plt.scatter(go1,go2, c="yellow", marker='^', label='go')
plt.xlabel('各岗位薪资下限')
plt.ylabel('各岗位薪资上限')
plt.legend(loc=2)
plt.show()

以java为例,其他的俩种语言类似:

plt.scatter(java1,java2, c="red", marker='o', label='java')
plt.xlabel('Java岗位薪资下限')
plt.ylabel('Java岗位薪资上限')
plt.legend(loc=1)
plt.show()

3,效果图如下:

各岗位薪资的的下限和上限散点图:

img

java岗位薪资的的下限和上限散点图:

img

Python岗位薪资的的下限和上限散点图

img

Go岗位薪资的的下限和上限散点图

img

4.使用线性回归算法拟合散点图 使用线性回归算法进行计算,拟合值。

from sklearn import linear_model
linear=linear_model.LinearRegression()
linear.fit(np.reshape(java1,(-1, 1)),np.reshape(java2,(-1, 1)))
print("training score",linear.score(np.reshape(java1,(-1, 1)),np.reshape(java2,(-1, 1))))

5.对其拟合结果进行绘图

X轴:java岗位薪资下限 y轴:java岗位薪资上限

使用线性回归算法拟合散点图

特征值:java岗位薪资下限和java岗位薪资上限

import matplotlib.pyplot as plt
import numpy as np
plt.scatter(np.reshape(java1,(-1, 1)),np.reshape(java2,(-1, 1)),color="red")
plt.scatter(np.reshape(java1,(-1, 1)),np.reshape(java2,(-1, 1)))
plt.scatter(np.reshape(java1,(-1, 1)),np.dot(np.reshape(java1,(-1, 1)),linear.coef_)+linear.intercept_)
plt.xlabel('java岗位薪资下限')
plt.ylabel('java岗位薪资上限')
plt.title("使用线性回归算法拟合散点图\n特征值:java岗位薪资下限和java岗位薪资上限")
plt.show()

6.效果图如下:

java岗位薪资的的下限和上限的线性拟合散点图

img

Python岗位薪资的的下限和上限的线性拟合散点图:

img

Go岗位薪资的的下限和上限的线性拟合散点图

img

总结:

体会从需求出发,到设计、编码、测试、发布的整体流程,熟悉软件开发过程。熟悉和掌握数据预处理流程。能够在实际中运用数据清理、数据集成、数据变换、数据规约的技术和方法处理数据。培养快速学习和分享新知识,并在项目中使用的能力及独立解决问题的能力。

本次完成了:招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图、使用线性回归算法拟合散点图处理。

后面我们研究:使用局部回归(Loess)曲线(增加一条光滑曲线到散布图)方法处理数据以及使用分箱、回归、聚类方法 检查离群点及光滑数据;

标签:plt,java,招聘,散点图,np,位数,薪资
From: https://blog.51cto.com/u_15568258/6235812

相关文章

  • 高精度数相加乘一位数
    【问题描述】请编程实现,输入两个高精度数,输出它们的和的n倍。(1<=n<=9),注意:这两个高精度数的位数不一定相同且有可能产生进位。【输入输出描述】输入: 两行,第一行为高精度数a,第二行为高精度数b。输出: 一行,一个高精度数c,表示a与b的和的n倍。【样例......
  • java8 lambda 求list最大值、最小值、平均值、求和、中位数、属性排序(空指针异常,空值
    点击查看代码importorg.junit.Test;importjava.text.SimpleDateFormat;importjava.util.*;importjava.util.stream.Collectors;importstaticjava.util.Comparator.comparingLong;importstaticjava.util.stream.Collectors.*;/***@Author:*@Date:2018/12......
  • 贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
    原文链接:http://tecdat.cn/?p=22702最近我们被客户要求撰写关于贝叶斯分位数回归的研究报告,包括一些图形和统计输出。贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚的贝叶斯摘要还包括总结结果、......
  • 数据流的中位数
    一.数组添加线性,访问常数classMedianFinder{public:MedianFinder(){n=0;}voidaddNum(intnum){n++;nums.push_back(num);intindex=n-1;for(inti=index;i>0;i--)if(nums[i]<nums[i-1]......
  • 直播app开发搭建,EditText保留小数位数的问题
    直播app开发搭建,EditText保留小数位数的问题 packagecom.shentaiwang.jsz.savepatient.util;importandroid.text.Editable;importandroid.text.TextWatcher;importandroid.widget.EditText;/***Createdbyjszon2017/7/22.*保留小数位数*/publicclassRetainDecimal{......
  • 【前端可视化】ECharts中国地图+散点图demo
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"/><metahttp-equiv="X-UA-Compatible"content="IE=edge"/><metaname="viewport"content="w......
  • Oracle SQL 四分位 上四分位 下四分位 中位数
    OracleSQL四分位上四分位下四分位中位数平均值方差最大值最小值------------------------SQL四分位上四分位下四分位中位数----------------------SELECTPROD_ID,STAGE_ID,STEP_ID,RECIPE_ID,LOT_PRI,LOT_SIZE,PERCENTILE_CONT(0.25)WITHINGROUP(ORDE......
  • python matplotlib 散点图的拟合直线的简单示例
     #samplepointsX=[0,5,10,15,20]Y=[0,7,10,13,20]#solveforaandbdefbest_fit(X,Y):xbar=sum(X)/len(X)ybar=sum(Y)/len(Y)n=len(X)#orlen(Y)numer=sum([xi*yiforxi,yiinzip(X,Y)])-n*xbar*y......
  • 数据流的中位数
    数据流的中位数题目:对于数据流问题,需要设计一个在线系统,这个系统不断的接受一些数据,并维护这些数据的一些信息。中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。请设计一个支持以下两种操作的系统:+num——从数据流中添加一个整数\(k\)到系统中......
  • C程序,用于计算整数中的位数
    以下是一个简单的C程序,用于计算整数中的位数:cCopycode#include<stdio.h>intmain(){intnum,digit=0;printf("请输入一个整数:");scanf("%d",&num);while(num!=0){digit++;num/=10;}printf("该整......