首页 > 其他分享 >因子分析法————数据降维

因子分析法————数据降维

时间:2024-07-27 21:39:48浏览次数:13  
标签:载荷 变量 平方和 分析法 降维 因子 因子分析 公共

因子分析法通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,起到了很好的降维作用

目录

一、因子分析与主成分分析的对比

1.原理对比

主成分分析的原理是把主成分分解为原始指标数据的线性组合
而因子分析则是找出原始指标数据的公共因子

2.作用区别

二、因子分析的实例

我们要对某个事物进行评价,由于评价指标太多,往往很难做出正确的评价,此时就需要对指标进行降维处理

三、因子分析的理论介绍

1.因子分析的模型

将原始指标分解为公共因子特殊因子的线性组合。然后写出其矩阵形式,我们的目标就是解出因子载荷矩阵A

2.模型假设

此处假设的目的是保证公共因子之间不相关

3.因子载荷矩阵的统计意义

(1)A的行元素平方和

A的行元素平方和hi表示原始变量z,对公因子依赖的程度

(2)A的列元素平方和

4.参数估计

参数估计就是解因子载荷矩阵A,SPSS中提供了很多中方法,其中最常用的有三种,在下图中已经用红色标出。
在应用中我们可以三个都试一下,找出最好解释的一种

5.因子旋转的方法

我们虽然解出了A,但是这个A不一定符合我们的要求,因此我们需要对其进行正交旋转,这样方便我们进行解释。
在SPSS中已经给出了各个方法

6.因子得分

因子分析是将变量表示为公共因子和特殊因子的线性组合;此外,我们可以反过来将公共因子表示为原变量的线性组合,即可得到因子得分
实现这一步骤的方法,SPSS给给出了

四、因子分析的操作步骤

操作步骤只需要按照下图设置好即可,选项的选择我们会在下方的结果分析一一介绍。
要注意,因子分析要进行两次,通过第一次得到的碎石图固定出得到因子的数目

五、结果分析

1.模型检验

(1)KMO检验和巴特利特球形检验。

KMO统计量是取值在0和1之间,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。
KMO检验标准:KMO>0.9,非常适合;0.8<KMO<0.9,适合;0.7<KMO<0.8, 一般;0.6<KMO<0.7,不太适合;KMO<0.5,不适合

(2)巴特利特球形检验

巴特利特球形检验是一种检验各个变量之间相关性程度的检验方法。一般在做因子分析之前都要进行巴特利特球形检验,用于判断变量是否适合用于做因子分析。
它的原假设是相关系数矩阵是一个单位阵(不适合做因子分析,指标之间的相关性太差,不适合降维),因此拒绝原假设即认为适合做因子分析

2.确定因子的数目

观察碎石图,选择较为陡峭的因子作为因子数

3.调整因子个数重新计算

4.公因子方差


800米(s)这个变量的公因子方差为0.9,这可以解释为我们提取的两个公共因子对100米(s)这个变量的方差贡献率为90%,即这两个公共因子能够反映出(或者说保留)100米(s)这个变量90%的信息

5.总方差解释表

(1)初始特征值

从“初始特征值”一栏中可以看出,前2个公共因子解释的累计方差达93.747%,而后面的公共因子的特征值较小,对解释原有变量的贡献越来越小,因此提取两个公共因子是合适的

(2)载荷平方和

“提取载荷平方和” 一栏是在未旋转时被提取的2个公共因子的方差贡献信息,其与“初始特征值”栏的前两行取值一样。
“旋转载荷平方和”是旋转后得到的新公共因子的方差贡献信息,每个公共因子的方差贡献率有变化,这一步骤相当于把贡献率给平均化了,便于我们解释。但最终的累计方差贡献率不变。

6.成分矩阵


旋转后的每个公共因子上的载荷分配更清晰,因而比未旋转时更容易解释各因子的意义。我们在实际应用中只用关注旋转后的因子载荷矩阵即可。
因子载荷是变量与公共因子的相关系数,当某变量在某公共因子中的载荷绝对值越大,表明该变量与该公共因子更密切,即该公共因子更能代表该变量,其最大值为1。

7.旋转后的因子载荷散点图

根据“旋转后的成分矩阵”的两列数据所作,由此图观察所得信息与从“旋转成分矩阵”所得信息一致。(如果有三个因子,那么画出来的图就是三维图)

8.因子得分

标签:载荷,变量,平方和,分析法,降维,因子,因子分析,公共
From: https://www.cnblogs.com/dlmuwxw/p/18327380

相关文章

  • 数据背后的结构——因子分析
    文章目录基本概念算法步骤1.数据标准化2.相关性矩阵构建3.提取因子4.旋转因子5.因子得分计算应用实例总结因子分析也是一种降维统计算法,它通过识别观测变量之间的潜在关系来简化复杂数据集的结构。这种降维技术不仅揭示了数据中的潜在结构,而且通过较少的因子来解......
  • 因子分析vs主成分分析
    前两篇文章介绍了因子分析与主成分分析的原理与基本步骤。初次学习时,大家可能感觉这是两个基本相同的方法,但实际上两者间还是有一定差异的。这篇文章就带大家盘点一下两个方法间的异同。目的因子分析:旨在识别观测变量背后的潜在因素或结构,这些因素是不可观测的。它通常用......
  • 【github】使用KeepassXC 解决github Enable two-factor authentication (2FA) 第二因
    下载https://github.com/keepassxreboot/keepassxc/releases/download/2.7.9/KeePassXC-2.7.9-Win64.msi代理地址https://dgithub.xyz/keepassxreboot/keepassxc/releases/download/2.7.9/KeePassXC-2.7.9-Win64.msi由于该软件不允许截图,以下操作参考官网创建数据库 Kee......
  • CNE6因子复现系列——波动率因子Volatility
    1.波动率因子Volatility  CNE6当中,波动率因子Volatility是一个一级因子,有二级因子BETA和ResidualVolatility,其下还有多个三级因子。一级因子二级因子三级因子VolatilityBETABETAResidualVolatilityhistorysigmadailystandarddeviationcumulativerange2.三级因......
  • 快速功能点分析法与NESMA的比较
    一、快速功能点分析法快速功能点分析方法是依据国际标准(ISOIEC24570:2018《软件工程NESMA功能规模测量法功能点分析应用的定义和计算指南》)要求提出的一种软件规模测量方法,并充分考虑软件组织及需求或项目特性,目前采用预估功能点分析方法和估算功能点分析方法进行业务需......
  • VINS-FUSION 优化-先验因子(边缘化)
    一、边缘化VINS中的边缘化策略,将滑出窗外的帧与滑窗内的帧的约束使用边缘化的形式保存为先验误差因子进行后续非线性优化,以保留约束信息。VINS-Fusion优化约束包括:a.视觉误差因子约束,b.IMU预积分约束,c.边缘化先验因子约束文章主要讲述边缘化先验因子约束如何产生。VINS-Fus......
  • VINS-FUSION 优化-IMU预积分因子(三)
    在VINS-FUSION优化-IMU预积分因子(一)中介绍了IMU预积分及其于优化变量的全部雅克比矩阵的推导,(二)中文章结合VINS-FUSION源码,完成优化-IMU预积分因子的使用。本文介绍预积分中方差的计算。一、引出​方差作为调节各残差项的权重,方差计算如下:Fk、Gk是离散时间下的状态传递方程......
  • 时间序列分析方法汇总对比及优缺点和适用情况(下)-- 11. 卡尔曼滤波 12. 广义自回归条件
    目录11.卡尔曼滤波(KalmanFilter)12.广义自回归条件异方差模型(GARCH)13.贝叶斯结构时间序列模型(BayesianStructuralTimeSeries,BSTS)14.动态因子模型(DynamicFactorModel,DFM)15.隐马尔科夫模型(HiddenMarkovModel,HMM)16.分段线性回归(PiecewiseLinearRegress......
  • Leetcode2427. 公因子的数目和Leetcode.728. 自除数
    Leetcode2427问题描述:给你两个正整数 a 和 b ,返回 a 和 b 的 公 因子的数目。如果 x 可以同时整除 a 和 b ,则认为 x 是 a 和 b 的一个 公因子 。示例1:输入:a=12,b=6输出:4解释:12和6的公因子是1、2、3、6。示例2:输入:a=25,b=30......
  • 【科研绘图】【多因子分组箱线图】:附Origin详细画图流程
    目录1、理解箱线图2、画图流程1、理解箱线图(1)什么是箱线图箱线图,又称箱形图、盒须图或盒式图,用于体现数据分散情况的统计图。在视觉上辅助读者直观地看到每个数据中心位置、散布范围以及异常值等信息。(2)箱线图的组成箱体:下图方框形状的位置即为箱体,箱体下侧边界......