近几天毕业生相继离校了
你们走了,我好继承华水的食堂
在这里,祝毕业生一路顺风
愿此去前程似锦
再相逢依旧如故
今天讲相关分析,并将得出的相关矩阵可视化。
dvdf
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。
相关系数的求解公式如图所示:
如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
(1)当相关系数为0时,X和Y两变量无关系。
(2)当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
(3)当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
0.8-1.0极强相关
0.6-0.8强相关
0.4-0.6中等程度相关
0.2-0.4弱相关
0.0-0.2极弱相关或无相关
dvdf
我们选取的变量如下图所示:
利用R软件做相关矩阵的可视化
其颜色越深,表明相关程度越大,相关性越强,以x1、x4为例,给出其相关系数为0.99,相关关系极强。
dvdf
#R程序
install.packages("ggcorrplot")
library(ggcorrplot)
#计算相关矩阵(cor()计算结果不提供p-value)
data<-read.csv("C:/Users/27342/Desktop/a.csv")
corr <-round(cor(data), 3)
head(corr[, 1:13])
#用ggcorrplot包提供的函数cor_pmat()
p.mat <-cor_pmat(data)
head(p.mat[, 1:13])
ggcorrplot(corr)#method默认为square
ggcorrplot(corr, method = "circle")#方法为circle
ggcorrplot(corr, hc.order = TRUE, outline.color = "white")#重排矩阵,使用分等级聚类
ggcorrplot(corr, hc.order = TRUE, type = "lower", outline.color = "white")#下三角形
ggcorrplot(corr, hc.order = TRUE, type = "upper", outline.color = "white")#上三角形
#更改颜色以及主题
ggcorrplot(corr, hc.order = TRUE, type = "lower", outline.color = "white",
ggtheme = ggplot2::theme_gray, colors = c("#6D9EC1", "white", "#E46726"))
#添加相关系数
ggcorrplot(corr, hc.order = TRUE, type = "lower", lab = TRUE)
标签:实战,相关系数,可视化,corr,hc,相关矩阵,white,ggcorrplot,TRUE From: https://blog.51cto.com/u_15828536/5756590