本文爬取猎聘网近400条关于数据分析岗的数据,包含岗位名称、薪酬、地区、学历、工作经验、公司名称等,研究数据分析岗在学历、工作经验方面的要求,以及数据分析岗位的薪资情况和数据分析岗人员需求的区域分布。
使用多种文本清洗函数进行文本数据的提取,借助数据透视表分组透视功能,生成不同类型的统计图表,消除图表杂乱和美化图表,将多个图表组合构建仪表盘,可视化研究结果。
数据获取
公众号后台回复
猎聘数据
获取本文的案例数据及数据看板
研究目的
- 研究数据分析岗位的学历要求
- 研究数据分析岗位的工作经验要求
- 研究数据分析的平均薪资情况
- 研究数据分析岗位的区域分布
数据清洗
通过数据预览,发现在薪酬这一列包含大量的文本数据,仅文本数据不能做统计运算,需要借助文本清洗函数提取有用的数值,文本清洗过程如下所示。
=IFERROR(LEFT(B2,FIND("-",B2)-1),B2)
首先计算薪资的最低工资,使用LEFT、FIND函数嵌套截取薪资的最低工资,若是数据报错,使用IFERROR函数返回原数据。
=IFERROR(MID(B2,FIND("-",B2)+1,FIND("k",B2)-(FIND("-",B2)+1)),B2)
然后计算薪资的最高工资,使用MID、FIND函数嵌套截取薪资的最高工资,若是数据报错,使用IFERROR函数返回原数据。
=IFERROR(AVERAGE(VALUE(C2),VALUE(D2)),B2)
接着计算薪资的平均值,使用VALUE函数将文本转化为数值,然后使用AVERAGE函数求平均值,若是数据报错,使用IFERROR函数返回原数据。
最后薪酬数据分组,使用VLOOKUP函数模糊匹配,通过数据预览,平均薪酬最高是85,最低是4,极差是81,所以这里等额的分为9组,将每一个薪酬区间的值进行分组。
=IFERROR(VLOOKUP(E2,薪酬分组!$K$2:$L$11,2,1),E2)
使用VLOOKUP模糊匹配进行分组,最后面的参数设置为1,表示模糊匹配,薪资的数据处理后的结果如下所示,提取了最低工资、最高工资、平均薪酬、薪酬分组。
=IFERROR(MID(G2,1,FIND("-",G2)-1),G2)
除此之外,很多地区加了短杠,同样使用MID、FIND函数嵌套截取城市,若是数据报错,使用IFERROR函数返回原数据,并且根据城市对应的省份表匹配所在的城市。
数据可视化
数据清洗后,做可视化,首先是研究数据分析岗的学历要求,使用数据透视表,轴和值拖入数据透视表区域,得出透视结果,然后选取数据区域,插入一个簇状柱形图即可。
同理,研究数据分析岗的工作经验要求,轴和值拖入工作经验,然后插入一个簇状条形图,默认的簇状条形图是升序排列的,可以单击纵向的坐标轴,设置坐标轴格式,勾选逆序类别,即可降序排列。
研究数据分析岗的薪资情况,在轴和值中都拖入薪酬分组,然后选择数据区域,插入一个饼图。
最后研究数据分析岗在区域上的分布,首先要构造每个省份的经纬度,这里用X模拟经度,用Y模拟纬度。
先选择X、Y两列,按照Ctrl键再选择招聘需求人数这一列,插入一个气泡图。
单击垂直坐标轴,将最小值设置为0,最大值设置为701,同时,在单位里面,设置大为100,小为20。
同理设置水平坐标轴,最小值设置为0,最大值设置为848,在单位里面,设置大为200,小为40。
单击空白区域,设置图表样式,选择图片或纹理填充,填充事先准备好的地图层。
地图层长按保存
设置气泡的大小,选择图像中的圆点,大小表示为气泡宽度,缩放气泡大小为40。
设置数据标签,在设置数据标签格式里勾选单元格中的值,选择数据标签区域,勾选气泡大小,标签位置选择居中。
做出地图可视化结果如下:
图表美化
数据透视后的图表都会自动的添加字段按钮,如果要去除,可以右键任意一个字段按钮,点击隐藏图表上的所有字段按钮,即可去除。
将做出来的四个图像进行组合,去除一些多余的图表元素,比如坐标轴标题、网格线,添加图表标题、数据标签等,设置图表的主色彩16制颜色代码为#191A2C,设置图表的副色彩16制颜色代码为#242541,关于颜色的搭配,这里推荐一个网站RGB颜色网,用于颜色搭配。
得出结论
通过数据分析由可视化看板可以得出,数据分析岗普遍要求本科及以上,所以有一定的学历要求,在薪资方面,薪资处于4K~13K区间的较多,反映了绝大多数数据分析岗位的薪资水平,其次,在工作经验要求上更青睐工作经验在3~5年的数据分析人才,从区域分布来看,北上广一线城市对于数据分析岗的人员需求最多。