首页 > 其他分享 >R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析

时间:2023-12-19 13:02:55浏览次数:26  
标签:私营 地区 基础行业 因子 因子分析 聚类 平均工资

分析师:Huarui He

数据显示2019年全国城镇私营单位就业人员年平均工资为53604元,比上年增长8.1%,而2019年全国城镇非私营单位就业人员年平均工资为90501元,名义增长率9.8%,实际上,一直以来城镇私营单位就业人员年平均工资都要高于非私营单位,并且增长率也高与非私营单位,主要原因是非私营单位包括机关事业单位、国企、上市公司等。相对效益比较好,自然平均工资水平要高于私营企业。但是,这就会导致私营单位与非私营单位的平均工资差距持续扩大,富的越富,穷的越穷,公私单位工资分歧如果继续扩大,私营企业的竞争力将受到影响,对中国的科技创新和社会进步将构成阻碍。

我们帮助客户通过从不同行业,不同地区的私营单位就业人员平均工资的分析,给予具有针对性的政策建议,正确的引导私营企业向着快速发展的方向前进,这既是现实需要,也是共同富裕理念的需要。

 

数据准备

本文数据来自国家统计局中国统计年鉴,选自行业分城镇私营单位就业人员平均工资,相关经济指标有农、林、牧、渔业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,科学研究和技术服务业,水利、环境和公共设施管理业,居民服务、修理和其他服务业,教育,卫生和社会工作,文化、体育和娱乐业这17个经济指标。地区按省份划分,由于西藏地区数据具有较大缺失,因此选取了除台湾省以外的22个省份,4个直辖市,以及除西藏自治区以外的4个自治区,共30个地区的数据进行研究。

 

相关性分析

 

利用R软件绘制出原有变量的的相关系数饼图

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_数据

从图中可以看出相关系数矩阵中大多数变量之间的相关系数取值较大,且从热力图的颜色可以判断变量间均为正相关关系,大部分变量间相关程度较高,满足进行主成分分析的前提。

 

确定主成分个数

 

因此利用R语言中eigen()函数输出特征值,筛选出特征值大于1的主成分,从而计算贡献率与累计贡献率。

序号

特征值

贡献率%

累计贡献率%

1

13.192309813

77.6

77.6

2

1.035339791

6.1

83.7

其次,也可以通过scree()函数利用Cattell碎石检验绘制碎石图形,表明对于这组数据的描述只需要两个主成分即可。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_聚类_02

因子分析

 

利用R语言principal()函数进行主成分分析,输出如下表结果。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_聚类_03

可以看出各个变量在第一主成分的因子载荷都很大,因此需要经过因子旋转才能对因子做相关的命名与解释,以便对实际问题进行分析。

本文采用的方法是方差最大的正交旋转法,使旋转后的因子载荷阵中的每一列元素尽可能地拉开距离,即向0或1两极分化。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_数据_04

利用fa.diagram()函数将经过最大方差的因子旋转后主成分结果进行展示,如下图。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_特征值_05

由结果展示可以看出,第一公因子的主因子的这些行业都是一些现代化产业,也就是随着科学技术的高速发展和人民生活水平的日益提高逐渐发展起来的,因此可以命名为新型行业;第二公因子保证了人民的基础生活,因此可以命名为基础行业。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_特征值_06

对于第一主成分来说,因子得分最高的城市为北京市,为4.27,远高于其他地区,说明北京市的新型行业发展较为发达,起到引领作用,得分最低的是青海地区,可见新型产业并不是青海省主要发展产业。对于第二主成分来说,因子得分最高的地区为山东省,为2.98,说明山东省的基础行业发展水平较高于其他地区,而基础产业发展最不好的地区为山西省。

确定聚类个数

展示采用Ward最小方差法得出聚类结果。根据聚类树形图,可以初步设置聚类别的数目为4。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_聚类_07

为了进一步确定聚类数目,绘制层次聚类碎石图。

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_数据_08

层次聚类碎石图也表明聚类数目为4较为合适。

 

K-means聚类

 

利用R软件输出每个类别的类数目与聚类中心,得到下表。

类别

类数目

新型行业

基础行业

1

1

4.2732372

-0.2118294  

2

7

0.3510077

1.3900181

3

8

-0.6312877

0.2117078

4

4

-0.1199993

-0.8008542

各类包含的具体地区如下图

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_特征值_09

可以看出,北京作为第一类城市的代表,新型行业发展远远高于其他地区,不管是金融业,教育,房地产业还是科学研究和技术服务业、信息传输,软件和信息技术服务业等,都占据着领导地位。

第二类地区基础行业最为雄厚,有些地区属于新一线城市,具有较大的资源优势和相对好的人才质量,交通运输、仓储和邮政业,批发与零售,住宿与餐饮业,建筑业都较为发达。

第三类地区位于内陆地区,部分地域广阔,资源丰富,基础行业发展状况尚可,但新型行业发展欠缺,缺乏高新技术的支持,各地区要重视对科技的投入,完善创新机制,发挥人才优势。

第四类地区既没有资源优势也没有人才优势,因此新型行业和基础行业都处于有待发展的状态。

类别

地区

第一类地区

北京

第二类地区

天津、上海、江苏、浙江、山东、广东、重庆

第三类地区

河北、内蒙古、福建、四川、云南、青海、宁夏、新疆

第四类地区

山西、辽宁、吉林、黑龙江、安徽、江西、河南、湖北、湖南、广西、海南、贵州、陕西、甘肃

关于分析师

R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析_聚类_10

在此对Huarui He对本文所作的贡献表示诚挚感谢,她专注机器学习、SQL、数据采集领域。擅长R语言、Python、Eviews、SPSS。

标签:私营,地区,基础行业,因子,因子分析,聚类,平均工资
From: https://blog.51cto.com/u_14293657/8886958

相关文章

  • 系统聚类思想及其Python实现
    系统聚类是一种将对象或数据按照其相似性进行分组的方法。与传统聚类方法不同,系统聚类通过构建一颗层次树(或称为树状图或谱系图)来展现数据的层次结构。在系统聚类中,数据点最初被视为单独的簇,然后通过逐步合并或分裂,形成一个层次结构的聚类结果。这种层次结构可用于分析数据的不同......
  • K-means聚类思想及其Python实现
    聚类就是将一个庞杂数据集中具有相似特征的数据自动归类到一起,称为一个簇,簇内的对象越相似,聚类的效果越好。“相似”这一概念,是利用距离标准来衡量的,我们通过计算对象与对象之间的距离远近来判断它们是否属于同一类别,即是否是同一个簇。聚类是一种无监督的学习(UnsupervisedLearn......
  • 聚类建模对智能助眠灯市场营销分析
    全文链接:https://tecdat.cn/?p=34532原文出处:拓端数据部落公众号分析师:YueYu如何精准定位目标客户,准确量化客户需求来开发新的产品组合,并预测其可能的市场份额。解决方案任务/目标根据零售业务营销要求,运用多种数据源分析向客户给出产品性能组合的建议。数据源准备搜集除......
  • 深度解读DBSCAN聚类算法:技术与实战全解析
    探索DBSCAN算法的内涵与应用,本文详述其理论基础、关键参数、实战案例及最佳实践,揭示如何有效利用DBSCAN处理复杂数据集,突破传统聚类限制。关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里......
  • DISC:基于密度的跨越流数据的增量聚类
    ICDE2021|DISC:基于密度的跨越流数据的增量聚类鸣谢:RuiyuanLi(李瑞远)老师|康瑞部落(kangry.net)鉴于移动设备和物联网设备的普及,对流媒体数据的持续聚类已成为数据分析中日益重要的工具。在众多的聚类方法之中,基于密度的聚类方法由于其独特的优势而受到广泛的关注。然而......
  • K-Means聚类算法学习
    K-Means聚类算法的简介:聚类和分类算法的最大区别在于,分类的目标类别为已知(监督学习),而聚类的目标类别是未知的(无监督),即数据集无标签.K-Means算法(K_均值算法)就是无监督算法之一,与分类、序列标注等任务不同,聚类是在事先并不知道任何样本标签的情况下,通过数据之间的内在关系把......
  • SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘|附代码数据
    物流发货明细数据在现代物流业中扮演着至关重要的角色。通过对这些数据进行挖掘和分析,我们可以发现隐含在背后的供应链运营规律和商业模式,从而指导企业在物流策略、成本管理和客户服务等方面做出更加科学和有效的决策。SPSSModeler是一款功能强大、界面友好的数据挖掘和分析工具,......
  • r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化|附代码数据
    原文链接:http://tecdat.cn/?p=23825最近我们被客户要求撰写关于有限正态混合模型EM算法的研究报告,包括一些图形和统计输出。简介本文介绍了基于有限正态混合模型在r软件中的实现,用于基于模型的聚类、分类和密度估计。提供了通过EM算法对具有各种协方差结构的正态混合模型进行参......
  • 探索性因子分析流程
    探索性因子分析的步骤:接下来,通过一个案例演示因子分析(探索性因子分析)的各个步骤应该如何进行。案例:欲探究我国不同省份铁路运输能力情况,收集到部分相关数据如下:上传数据至SPSSAU系统,在【进阶方法】模块,选择【探索性因子分析】,将变量拖拽到右侧分析框,勾选“因子得分”与“综合......
  • 6个常用的聚类评价指标
    前言 在本文中,我们将探讨聚类算法的各种评估指标,何时使用它们,以及如何使用Scikit-Learn计算它们。本文转载自DeephubImba作者:RoiYehoshua仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV......