首页 > 其他分享 >12种相关系数汇总!

12种相关系数汇总!

时间:2024-01-29 18:11:46浏览次数:29  
标签:分析 kendall 12 变量 KMO 相关系数 汇总 相关

所谓相关关系是指2个或2个以上变量取值之间在某种意义下所存在的规律,其目的在于探索数据集所存在隐藏的关系网,在19世纪80年代,Galton通过研究人类身高遗传问题首次提出了相关的概念,文中指出相关关系可以定义为:一个变量变化时,另一个变量或多或少的相应的变量。这种相关关系的统计量称为相关关系。相关分析不只有我们常用的pearson相关,还有其它相关系数等等,本篇文章为大家梳理都有哪些相关系数。

一、两个变量

1、Pearson相关

Pearson相关分析的说明:

pearson 法则是一种经典的相关系数计算方法,主要用于表征线性相关性,假设2个变量服 从正态分布且标准差不为0,他的值介于-1到1之间,pearson相关系数的绝对值越接近于1,表明 2个变量的相关程度越高,即这2个变量越相似。

Pearson相关分析的计算:

其相关系数计算如下:

Pearson相关分析的操作:

以SPSSAU为例,pearson相关系数路径【通用方法】→【相关分析】

分析前选择“pearson相关系数”按钮即可,au这里有提供两个分析项放置框,第二个分析项放置框可以不放置分析项为可选项,如果将分析项放置两个框和一个框内,结果不会改变,但是结果的表现形式会些许不一致,建议根据所需进行选择即可。

Pearson相关分析系数判断:

不同的文献相关系数的判断标准不同,如果在分析中,建议以及所参考的文献等进行参考,比如上面的文献就来自于贾俊平, 何晓群, 金勇进. 统计学.第7版[M]. 中国人民大学出版社, 2018.

Pearson的一般结果:

一般结果会提供相关系数以及p值等,可以根据p值结合相关系数进行分析,若p值小于显著性水平(比如显著性水平为0.05)则拒绝原假设,该模型显著,具有相关关系。反之,接受原假设,不具有相关关系。

2、Spearman相关

spearman相关分析的说明:

Spearman 相关性分析是对两组变量的等级大小作相关性分析,从而得到一个自变量与因变量之间的关系和自变量对因变量的影响强弱。它首先将两组变量的数据按照大小顺序排列,然后用等级代替原始数据,最后计算等级之间的相关性。

spearman相关分析的计算:

设自变量 X 和 Y 的 2 个随机样本为 ( x1 ,y1 ),⋯,( xn ,yn ),将 x1 ,⋯,xn和 y1 ,⋯,yn按升序方式进行排列,则X和Y的spearman秩相关系数为:

spearman相关分析的操作:

以SPSSAU为例,pearson相关系数路径【通用方法】→【相关分析】

spearman相关分析系数判断:

Spearman相关系数范围为-1——1,小于0代表负相关,大于0代表正相关,等于0则代表不存在相关关系。相关系数绝对值越接近0,相关关系越弱;绝对值越接近1,证明相关关系越强。

spearman的一般结果:

一般结果会提供相关系数(此相关系数为spearman相关系数)以及p值等,可以根据p值结合相关系数进行分析,若p值小于显著性水平(比如显著性水平为0.05)则拒绝原假设,该模型显著,具有相关关系。反之,接受原假设,不具有相关关系。

3、Kendall等级相关

kendall相关分析的说明:

kendall相关系数也叫kendall秩相关系数,广泛用于量化不同变量间的相关程度,作为一类无参数假设检验,用于衡量两变量之间的相关性,其并不要求数据满足正态分布,对于样本容量也没有过多要求,适用性比较广。

kendall相关分析的分类:

kendall相关系数常见的有 tau-a、tau-b、tau-c,除此之外还有tub_b等等。其中tau-a未对数据中的结做校正,tau-b对数据中的结做校正,tau-c适用于两列变量尺度不相等的情况。tub_b适合两个变量为定量变量。

kendall相关分析的操作:

这里以kendall tub_b为例,操作路径【通用方法】→相关分析;

kendall相关分析系数判断:

kendall相关系数取值范围介于-1到1之间,其中绝对值越接近于1说明相关性越强,越接近于0说明相关性越弱。

kendall的一般结果:

以kendall tub_b为例,结果如下:

分析结果一般提供kendall相关系数和p值,可以根据p值结合相关系数进行分析,若p值小于显著性水平(比如显著性水平为0.05)则拒绝原假设,该模型显著,具有相关关系。反之,接受原假设,不具有相关关系。

4、Hoeffding’D相关系数

Hoeffding相关分析的说明:

Hoeffding’D是由Wassily Hoeffding在1948年提出的,用于衡量两个变量之间的相关关系。

Hoeffding相关分析的计算:

其计算公式如下:

Hoeffding相关分析系数判断:

Hoeffding’D相关系数取值范围介于-1到1之间,其中绝对值越接近于1说明相关性越强,越接近于0说明相关性越弱。

二、多个变量

1、偏相关

偏相关分析的说明:

相关分析用于研究两两变量之间的关系情况,如果有第三个变量会干扰到分析结果,也就是我们常说的控制变量,这是控制变量也需要考虑在模型内,比如研究身高与肺活量之间的关系,如果直接进行相关分析,会出现有相关关系,但真实结论很可能并不应该这样,同样身高的人肺活量很可能明显不一样,原因是体重并不一样。所以此时在分析时需要将体重考虑在内,此种情况下适合使用的为偏相关。

偏相关分析的计算:

以au为例,其原理计算与pearson相关系数的计算一致:

偏相关分析的操作:

分析路径【进阶方法】→【偏相关】;

偏相关分析系数判断:

其判断也与pearson相关系数的判断标准类似:

偏相关的一般结果:

SPSSAU分析建议如下:

SPSSAU分析建议如下:

2、散点图

散点图的说明:

散点图是一种以点的分布反映变量之间的相关情况的统计图,根据散点图中的各点分布走向和密集程度,可以大致判断变量之间的相互关系。

散点图的操作:

以SPSSAU为例,pearson相关系数路径【可视化】→【散点图】

将左侧分析项拖拽到右侧分析框内,选择相应参数,点击开始分析,其中“bins”为一种散点数据处理方式,当散点过多时可通过bins处理更清晰的查看散点数据关系情况,当散点数量>1000时,SPSSAU自动会进行bins处理(bins=100),与此同时,研究者也可自主设置bins数量。“矩阵排列图”当自变量不止一项时,勾选矩阵排列图,结果会默认提供不同自变量的散点图排列图,比如:

散点图应用场景:

  • 观测数据是否有异常值

如果数据明显偏离数据群,判定其可能为异常值(偏主观);比如:

  • 观测两个变量之间的关系(变化趋势)

其中包括正相关、负相关、不相关,比如正相关:

两个变化趋势相同。

散点图的一般结果:

一般用于相关分析之前,通过图示化查看两个变量之间的基本关系,分析上偏主观,一般还需要结合相关分析进一步分析,比如如图所示,散点整体比较杂乱,并没有什么特别趋势,所以两个变量可能不相关,具体可以查看相关分析进行查看相关系数以及p值等。

三、两组变量

1、典型相关

典型相关分析的说明:

典型相关分析简称CAA,用于研究一组X与另一组Y数据之间的相关关系情况。如果研究1个X和1个Y之间的关系情况,此时直接使用相关分析即可,但如果希望研究1组X和1组Y之间的关系情况,则需要使用典型相关分析。

典型相关分析的操作:

分析路径【进阶方法】→【典型相关】;

典型相关分析的步骤:

一般步骤分为三步:

Step1:提取出典型相关变量;

Step2:寻找典型变量与研究变量之间的关系表达式,以及典型变量与研究变量间的关系情况;

Step3:典型冗余分析。

典型相关分析系数判断:

典型相关系数介于-1-1之间,绝对值越接近于1说明相关行越强,绝对值越接近于0说明相关性越弱,分析时还是要结合p值一起分析。

典型的一般结果:

中间过程:

除此之外也提供了典型系数(Y组)。

四、整个模型

1、KMO检验

KMO值的说明:

KMO值是用来判断所选取变量在因素分析中的可接受程度,考察变量之间相关关系,KMO值应用于很多方法中,比如进行探索性因子分析,第一步需要通过KMO和巴特利特检验进行测量问卷量表进而决定是否适合进行因子分析等等。

KMO值的计算:

KMO值的计算如下:

KMO值的操作:

很多方法都有提及到KMO值,比如因子分析、主成分分析等,这里以探索性因子分析作为例子进行演示操作:

默认结果有提供KMO值检验结果。

KMO值判断标准:

kmo值的判断标准是怎么样的呢?

所以一般进行因子分析(主成分分析)需要kmo值大于0.6即可。

KMO值一般结果:

以探索性因子分析为例:

一般判断数据是否适合进行因子分析或者主成分分析,KMO 和 Bartlett 的检验是第一步,所以在KMO 和 Bartlett 的检验表格中上半部分为kmo值,下半部分为Bartlett 的检验,从表中可以看到kmo值大于0.6说明适合进行分析。

2、R方

R方的说明:

r方也被称为决定系数,是用来描述模型拟合程度的重要指标,R方测度了回归直线对观测数据的拟合程度,一般常用于回归分析中,在一元线性回归中,R2(R方)=Pearson相关系数的平方。

R方的计算:

R方的计算如下:

从图片中可以看出:

所以对于模型来讲肯定是能用回归直线解释的变差部分越大越好,也就是说明SSR占SST的比例越大,解释越多,同时也可以说明直线拟合的越好,所以我们引出一个指标R方,回归平方和占总平方和的比例,即为R方。计算公式为:

R方的操作:

以线性回归为例,操作如下:

R方判断:

R方的取值范围在【0,1】,同时根据计算公式,也可以得到,R方越接近1说明SSR占SST的占比越大,也就是说明模型拟合越好,反之,如果R方越接近1,说明SSR占SST的占比越小,被解释部分越少,模型拟合越差。

R方的一般结果:

SPSSAU线性回归结果默认有提供R方值,如下:

一个模型只有一个R方,如果在文献中看到有多个R方的结果,通常是由多次分析最后整合在一起的,如果模型仅关注于变量是否显著等,一般不需要过度关注R方值,但是如果是利用线性回归进行预测,可以关注下R方,具体以专业和研究目的为准。

3、Icc组内相关

ICC组内相关的说明:

ICC组内相关系数是一种用来检验观测值在多个观察者之间是否具有一致性,是一种常用的两阶标准化相关系数。

ICC组内相关的计算:

ICC=个体变异/总变异;

ICC组内相关的操作:

SPSSAU【实验/医学研究】→icc组内相关系数;

ICC组内相关判断:

ICC取值在0~1之间,通常情况下:

ICC <0.2则说明一致性程度较差;

0.2~0.4之间说明一致性程度一般;

0.4~0.6之间说明一致性程度中等;

0.6~0.8之间说明一致性程度较强;

0.8~1.0之间说明一致性程度很强。

ICC组内相关的一般结果:

一般会提供icc组内相关系数和95%CI等。

五、距离相关

距离相关系数用于测量两个变量之间的相关性指标,应用于多种分析方法中,比如聚类分析,一般相关系数越高,说明模型越好,常用的距离相关系数测量指标有很多,比如欧式距离,余弦距离等等。

1、欧氏距离

相关分析的计算:

�=∑�=1�(��−��)2

相关分析的操作:

以SPSS为例:

进行选择参数:

2、余弦距离

余弦距离是衡量两个向量之间相似程度的一种方法。它是通过计算两个向量之间的夹角来确定相似度的。夹角越小,余弦距离越接近1,表示两个向量越相似;夹角越大,余弦距离越接近0,表示两个向量越不相似。

余弦距离相关分析的计算:

标签:分析,kendall,12,变量,KMO,相关系数,汇总,相关
From: https://www.cnblogs.com/spssau/p/17995064

相关文章

  • (2A)ADM7172ACPZ-2.5低压差线性稳压器 (LDO),AD5684BRUZ内置SPI接口的四通道、12位DAC
    一、ADM71726.5V、2A、超低噪声、高PSRR、快速瞬态响应CMOSLDOADM7172ACPZ-2.5超低噪声、高PSRR、快速瞬变响应CMOS低压差线性调节器采用2.3V到6.5V电压提供高达500mA的输出电流。这些高输出电流LDO适用于调节6V至1.2V供电轨的高性能模拟和混合信号电路。该......
  • 123
    A给定\(n\)个区间\([a_i,b_i]\)。若将所有有交集的区间合并,最后有多少区间。按\(a_i\)排序。记录当前正在尝试合并的区间的左右端点\(l,r\)。初始\(l=a_1,r=b_1\)。枚举\(i=(2,3,\dots,b)\)。此时:如果\(r\gea_i\):合并。实现上就是\(l\)不变,\(r\g......
  • 程序员 | 开发必备12个高效AI编程助手神器
    ⛳前言根据StackOverflow公布的开发者问卷调查报告,70%的受访者今年已在使用AI工具编程。AI浪潮下在程序员领域,未来,一定不是AI取代你,而掌握AI的人将取代你,这里整理12个高效AI助手,建议大家收藏使用~......
  • .Net Core报“‘GB2312‘ is not a supported encoding name. For information on def
    1、......
  • 126邮箱imap密码在哪里查看
    在使用126邮箱时,配置IMAP服务是常见的需求。然而,许多用户往往会面临一个普遍的问题:如何找到126邮箱的IMAP密码?在本文中,我们将深入探讨这一问题,并提供解决方案。了解IMAP协议首先,让我们了解一下IMAP协议的作用。IMAP(InternetMessageAccessProtocol)是一种用于电子邮件服务的标准协......
  • QT Creator12.0.1运行普通C/C++程序时候没有控制台输出
    问题:QTCreator12.0.1运行普通C/C++程序时候没有控制台输出菜单栏选择:[编辑]->[设置],按下图依次设置。启用终端输出,还有去掉内部终端输出的选项运行后控制台窗口正常弹出......
  • 算法模板 v1.4.2.20240129
    算法模板v1.1.1.20240115:之前的历史版本已经不可寻,创建了第一份算法模板。v1.2.1.20240116:删除“编译”-“手动开栈”与“编译”-“手动开O优化”;将“编译”-“CF模板”中的第20行代码cin>>T;注释;删除“读写”及其目录下的内容;删除“图论”-“欧拉图”-“混合图”;删除“图论”-......
  • 某国际物流港项目变更问题汇总
    合同约定按照合同专用条款约定24.工程变更25.工程变更价款约定工程变更类型含盖约定支付比例为90%按照合同补充条款约定7.工程变更价款的确定8.变更价款约定了详细的变更流程,以及最后形成文件变更申请1.1工程联系单or工程变更洽商记录1.2设计单位出具的......
  • 关于Linux内核4.12之前版本中, tcp_tw_recycle开启后NAT环境总是出问题的分析
     问题出现的场景很简单,nat网关下,有几台服务器,需要访问企业内部的某个的API服务器,API服务器上rcycle设置为1(4.12内核版本之前有这个设置,之后这个属性取消了,理论上也不会出现这种问题了),就在NAT下客户端并发量比较大的情况下,出现连接不上的情况(应该是SYN后,没有收到SYNACK,连接被丢......
  • Windows Server2012安装WireShark
    一、环境说明WindowsServer2012R2版本64位;安装wireshark二、问题描述安装wireshark提示TheVisualC++Redistributableinstallerfailedwitherror23PleasemakesureyouhaveKB2999226orKB3118401installed.Unabletocontinueinstallation.三、解决方法1......