首页 > 其他分享 >R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化

R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化

时间:2024-03-13 23:44:16浏览次数:31  
标签:解释 变量 变异 农业 成分 因子分析 PCA 总产值 聚类分析

全文链接:https://tecdat.cn/?p=35360

原文出处:拓端数据部落公众号

随着农业和农村经济的快速发展,各地区之间的经济差异日益显著。为了更好地理解这种差异,并为政策制定提供科学依据,本研究帮助客户采用了聚类分析和因子分析、主成分分析3种无监督学习方法,对多个省份的农业、林业、牧业、渔业以及农村居民家庭的相关经济指标进行了深入研究。通过这两种方法的结合应用,我们期望能够更全面地了解各省份在农业和农村经济方面的特点和差异,为相关政策的制定提供有力支持。

数据

数据主要涉及到多个省份的农业、林业、牧业、渔业以及农村居民家庭的相关经济指标。具体来说,这些数据包括农业总产值、林业总产值、牧业总产值、渔业总产值,这些指标反映了不同省份在各类农业产业上的产出情况,是评估农业发展水平的重要依据。此外,数据还包含了农村居民家庭拥有生产性固定资产原值,这一指标反映了农村居民家庭在农业生产上的投资规模,可以体现其生产能力和发展水平。最后,数据中的农村居民家庭经营耕地面积则直接关联到农业生产的基础资源——土地,这一指标能够反映各省份农业生产的规模和潜力。

这些数据都是量化指标,能够直观地反映各省份在农业和农村经济方面的实际情况。通过对这些数据进行聚类分析,可以进一步挖掘各省份在农业和农村经济方面的相似性和差异性,为政策制定者提供决策依据,以便更好地推动各地区的农业和农村经济发展。

image.png

聚类分析

聚类分析是一种无监督学习方法,旨在将数据划分为多个类或簇,使得同一簇内的数据对象尽可能相似,而不同簇间的数据对象尽可能不同。在本研究中,我们采用了层次聚类方法,并利用欧氏距离作为相似度度量。

首先,我们将农业总产值、林业总产值、牧业总产值、渔业总产值、农村居民家庭拥有生产性固定资产原值以及农村居民家庭经营耕地面积这六个指标进行了合并,形成一个新的数据集a。这个数据集将用于后续的聚类分析。

   
a=cbind(农业总产值 ,林业总产值, 牧业总产值, 渔业总产值, 农村居民家庭拥有生产性固定资产原值, 农村居民家庭经营耕地面积)# 

接着,我们利用层次聚类算法对数据集a进行了聚类,并绘制了聚类树状图(由于图片链接无法直接显示,请通过提供的链接查看)。树状图展示了各个省份之间基于欧氏距离的相似关系,以及聚类过程中簇的形成和合并过程。

   
plot(hc1,hang=-2,ylab="欧氏距离",main=

image.png

然后,我们使用函数将聚类树切割成3个簇,并输出了每个省份所属的簇编号。从输出结果中可以看出,各个省份根据它们的农业、林业、牧业、渔业以及农村居民家庭的相关指标被划分到了不同的簇中。

   
cutree(hc1,3)

image.png

为了确定最佳的簇数量,我们进一步使用函数进行了聚类有效性分析。该函数基于多种聚类有效性指标,如Calinski-Harabasz指数(CH指数),在不同的簇数量下评估了聚类的质量。通过比较不同簇数量下的指标值,我们可以确定最佳的簇数量。

   
res<-complete", index = "ch")  
res$All.index

image.png

image.png

image.png

函数的输出结果显示,当簇数量为7时,CH指数达到了最大值126.6607,因此最佳的簇数量为7。此外,函数还输出了簇数量为7时的具体聚类结果,即每个省份所属的簇编号。与之前的3簇聚类结果相比,7簇聚类结果更加细致,能够更好地揭示各个省份在农业和农村经济方面的差异和联系。

综上所述,通过聚类分析,我们可以将各个省份根据其农业和农村经济指标划分为不同的簇,并揭示了它们之间的相似性和差异性。这对于进一步深入研究各个省份的农业和农村经济特点,以及制定针对性的政策措施具有重要意义。

因子分析

因子分析是一种统计方法,用于研究多个变量之间的潜在结构,通过提取少数几个因子来解释原有变量的绝大部分变异。在农业经济学的研究中,因子分析常用于识别不同农业经济指标背后的主要影响因素。

   
FA=fac 
FA

image.png

输出结果显示:

  • Uniquenesses是每个变量中无法被因子解释的部分,也可以看作是剩余变异。数值越小,说明该变量被因子解释得越好。从结果来看,牧业总产值和渔业总产值的Uniquenesses非常小,接近于0,表明这两个变量的大部分变异能够被提取的因子解释。而农业总产值、林业总产值和农村居民家庭经营耕地面积的Uniquenesses相对较高,说明这些变量中有一部分变异是因子无法解释的。
  • Loadings是因子载荷矩阵,表示每个变量与各个因子的关联程度。数值越大,说明该变量与对应因子的关联越强。从结果来看,农业总产值和牧业总产值与Factor1的关联较强,渔业总产值与Factor3的关联较强,林业总产值则与多个因子都有一定关联,但关联程度不如前两个变量高。此外,农村居民家庭拥有生产性固定资产原值与Factor2的关联最强。
  • SS loadings是每个因子的方差贡献,即该因子解释的变异量。Proportion Var是每个因子解释的变异占总变异的比例,Cumulative Var则是累积解释的变异比例。从结果来看,Factor1解释的变异量最大,达到了36.1%,Factor2和Factor3分别解释了23.3%和17.2%的变异,三个因子累积解释了76.5%的变异。
  • The degrees of freedom for the model is 0 and the fit was 0.0338表示模型的自由度以及模型拟合优度。这里的拟合优度较低,可能是因为数据中存在一定的噪音或者模型假设与实际情况存在偏差。

为了更直观地展示因子分析的结果,我们绘制了因子得分和因子载荷的散点图:

   
bi$loadings)

image.png

在这张图中,每个点代表一个省份(或样本),点的位置反映了该省份在三个因子上的得分情况。同时,图中的箭头表示各个变量的因子载荷,箭头的方向和长度反映了变量与因子的关联程度和方向。通过这张图,我们可以直观地看到不同省份在因子空间中的分布情况,以及各个变量与因子的关系。例如,农业总产值和牧业总产值与Factor1正相关,而渔业总产值与Factor3正相关。这些结果有助于我们深入理解农业经济指标之间的潜在结构和关系。

主成分分析

主成分分析(PCA)是一种用于数据降维的统计方法,它可以将原始变量转化为少数几个主成分,这些主成分保留了原始数据的大部分变异信息,同时减少了数据的复杂性。下面是对一组数据进行主成分分析的结果解释:

   
incomp(x)#  分分析  
suary(PCA)

image.png

image.png

  • Importance of components 部分显示了每个主成分的重要性。Standard deviation 是每个主成分的标准差,它反映了主成分的大小或变异程度。Proportion of Variance 表示每个主成分解释的原始数据变异的比例,而 Cumulative Proportion 则显示了累积解释的变异比例。

从结果中可以看出,第一主成分(Comp.1)的标准差最大,解释了约98.18%的变异,而后续的主成分解释的变异比例逐渐减小。到第五个主成分时,累积解释的变异比例已经非常接近100%,表明前几个主成分已经能够很好地概括原始数据的变异情况。

接下来,我们绘制了主成分的碎石图:

   
screeplot(PCA,type="lines")#

image.png

碎石图是一种可视化工具,用于展示每个主成分解释的变异比例。在图中,每个点或线段的高度代表对应主成分解释的变异比例。通过观察碎石图,我们可以直观地看到哪些主成分对数据的解释贡献较大,以及何时达到一个“拐点”,即后续主成分对变异的解释贡献开始显著下降。

在本例中,碎石图显示第一主成分解释的变异最大,随后逐渐减小。在第一主成分之后,曲线的斜率开始明显变缓,表明后续主成分对变异的解释贡献逐渐减小。这进一步支持了之前通过 summary(PCA) 得到的结论,即前几个主成分已经足够概括原始数据的变异情况。

结合 summary(PCA) 和碎石图的结果,我们可以确定保留的主成分数量,以便在后续分析中使用这些主成分代替原始变量,实现数据的降维和简化。在实际应用中,通常选择那些累积解释变异比例达到一定阈值(如85%或90%)的主成分。

主成分分析的结果主要包括了每个主成分对应的载荷系数以及这些主成分解释的变异比例。载荷系数反映了原始变量与主成分之间的相关性,而解释的变异比例则告诉我们每个主成分对原始数据变异的贡献大小。

首先,我们查看PCA$loadings的结果:

   
PCA$loadings# 

image.png

这里的Loadings部分给出了主成分与原始变量之间的相关性。例如,农业总产值与第一主成分(Comp.1)的相关性为0.847,表明第一主成分与农业总产值有较强的正相关关系。类似地,林业总产值与第五主成分(Comp.5)的相关性为-0.994,表示第五主成分与林业总产值有较强的负相关关系。

SS loadings是每个主成分载荷的平方和,反映了主成分对原始变量方差的解释程度。Proportion Var是每个主成分解释的原始数据变异的比例,而Cumulative Var则是累积解释的变异比例。

接下来,我们看手动计算得到的主成分载荷系数:

image.png

输出主成分分析(PCA)的载荷系数(loadings)。载荷系数表示原始变量与主成分之间的相关性,可以帮助我们理解每个主成分是由哪些原始变量驱动的。

   

print(-loadings(PCA),cutoff=0.001)

image.png

让我们详细解释一下输出内容:

  1. Loadings 部分

    • 这部分列出了每个原始变量(如“农业总产值”、“林业总产值”等)与每个主成分(如“Comp.1”、“Comp.2”等)之间的载荷系数。载荷系数可以是正数或负数,表示原始变量与主成分之间的正相关或负相关关系。
    • 例如,“农业总产值”与“Comp.1”的载荷系数是0.019,而与“Comp.2”的载荷系数是-0.847。这意味着“农业总产值”与第二个主成分有很强的负相关关系。
    • 注意,“农村居民家庭拥有生产性固定资产原值”在“Comp.1”上的载荷系数是-1.000,这意味着它与第一个主成分有很强的负相关关系。同时,“农村居民家庭经营耕地面积”在“Comp.6”上的载荷系数是-1.000,表示它与第六个主成分有很强的负相关关系。
  2. SS loadings 部分

    • 这部分给出了每个主成分的方差(即载荷的平方和)。在这里,每个主成分的方差都是1.000,这意味着每个主成分解释了相同数量的原始变量方差。
  3. Proportion Var 部分

    • 这部分显示了每个主成分解释的原始变量总方差的比例。由于每个主成分的方差都是1.000,并且总共有6个主成分,所以每个主成分解释的方差比例是1/6,即大约0.167(或16.7%)。
  4. Cumulative Var 部分

    • 这部分显示了累积解释的原始变量总方差的比例。从输出中可以看出,前三个主成分累积解释了50%的方差,前四个主成分累积解释了66.7%的方差,以此类推,直到所有六个主成分累积解释了100%的方差。

柱状图

对农业总产值创建一个水平柱状图(horizontal barplot)。

   
bar(pv,col=col,horiz = TRUE,xlim=c(-8000.00,5000))

image.png


Brazilian-farmers_1536x768.jpg 最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

3.主成分分析(PCA)基本原理及分析实例

4.基于R语言实现LASSO回归分析

5.使用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归,ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.r语言中的偏最小二乘pls回归算法

9.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

标签:解释,变量,变异,农业,成分,因子分析,PCA,总产值,聚类分析
From: https://www.cnblogs.com/tecdat/p/18071860

相关文章

  • R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
    全文链接:https://tecdat.cn/?p=35303原文出处:拓端数据部落公众号数据处理和分析在数据科学领域中扮演着至关重要的角色。确保数据的准确性和完整性是数据处理的首要任务。在本研究中,我们以空气质量数据为例,帮助客户进行了数据处理和分析。根据空气质量的指标(x1~x7),我们将30个城......
  • R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
    全文链接:https://tecdat.cn/?p=35263原文出处:拓端数据部落公众号本研究旨在帮助客户利用房价数据集进行数据分析,该数据集包含82个变量和2930个数据点。研究目标是通过分类算法将房价分为两个类别。在数据预处理阶段,排除了Order、PID和SalesPrice等变量,对数据进行整合和转换以适......
  • 安卓使用HttpCanary进行抓包
    IOS抓包软件Stream的安装与使用使用「Stream」进行IOS抓包同样的代码,有时候在安卓端会出现不同的问题,所以还需要进行安卓的抓包另外安卓非Root用户的抓包比较麻烦,需要安装指定版本的HttpCannary(小黄鸟)HttpCanary介绍1、观看抓包软件的結果还能抓取音频以及视频。2、可以自动式......
  • pca降维
    实际使用数据集的时候由于特征很多,会很耗时,因此需要减少特征,但是不知道特征多少合适,这个时候就要使用特征降维降维作用(1)使得数据集更容易使用(2)降低很多算法的计算开销(3)去除噪声(4)多维数据不容易画图,降低维度容易画图,使结果容易理解。优点:降低数据的复杂性,识别出最重要的多个特征......
  • R语言Kmeans聚类、PAM、DBSCAN、AGNES、FDP、PSO粒子群聚类分析iris数据结果可视化比
    全文链接:http://tecdat.cn/?p=32007原文出处:拓端数据部落公众号本文以iris数据和模拟数据为例,帮助客户了比较R语言Kmeans聚类算法、PAM聚类算法、DBSCAN聚类算法、AGNES聚类算法、FDP聚类算法、PSO粒子群聚类算法在iris数据结果可视化分析中的优缺点。结果:聚类算法的聚类结......
  • opcache导致的RCE复现
    前言RCE得搭配着文件上传的点来进行利用环境搭建用docker搭个php7的环境,作者用的php7.0dockerrun-itd--namephp7-p8083:80php:7.0-apache安装opcache拓展进入docker容器:dockerexec-it容器id/bin/bash安装opcache:cd/usr/local/bin&&docker-php-ext-configure......
  • 数学建模入门笔记(2) 聚类分析
    聚类分析​ 聚类分析(ClusterAnalysis):又称群分析,对多个样本/指标定量分类的多元分析方法,是无监督学习1聚类分析的分类​Q型聚类(QualitativeClustering):也称硬聚类,一般用于将样本聚类,每一簇之间无交集,用距离作为相似性度量,包括K-Means聚类、层次聚类、DBSCAN聚类等​ R......
  • R:PCA(第二版)
    rm(list=ls())library(vegan)library(tidyverse)library(ggalt)library(car)library(ggforce)library(ggpubr)library(patchwork)#2.定义所需的函数。pairwise.adonis1<-function(x,factors,p.adjust.m){#定义了一个名为pairwise.adonis1的函数,该函数......
  • TSNE vs PCA:比较高维数据降维的两大巨头
    1.背景介绍随着数据量的增加,高维数据的处理和可视化变得越来越困难。高维数据降维技术成为了处理和可视化高维数据的重要方法。PCA(PrincipalComponentAnalysis)和t-SNE(t-distributedStochasticNeighborEmbedding)是两种非常常用的高维数据降维方法,本文将对这两种方法进行比较和......
  • 机器学习-无监督机器学习-主成分分析PCA-23
    目录1.降维的方式2.PCA的一般步骤3.思想2最小化投影距离4.KernelizedPCA1.降维的方式对于维度灾难、数据冗余,这些在数据处理中常见的场景,我们不得不进一步处理,得到更精简更有价值的特征信息,所用的的各种方法的统称就是降维特征抽取:叫做特征映射更合适。因为它的思想即把......