概述
主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维和特征提取技术,用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为一组新的互相无关的变量,这些新变量称为主成分,它们按照方差递减的顺序排列,以保留尽可能多的原始数据信息。
主成分分析的基本思想可以总结如下:
寻找新的特征空间:PCA通过线性变换,寻找一组新的特征空间,使得新的特征具有以下性质:
主成分具有最大的方差,尽可能保留原始数据的信息。
不同主成分之间彼此无关,即它们是正交的(互相垂直)。
降低数据维度:保留方差较大的主成分,舍弃方差较小的主成分,从而实现数据降维。
主成分分析的步骤如下:
中心化数据:将原始数据进行中心化,使得数据的均值为零。
计算协方差矩阵:计算特征之间的协方差矩阵,描述了特征之间的线性关系。
计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
选择主成分:按照特征值的大小选择保留的主成分数量,通常选择方差较大的前几个主成分。
得到新的特征空间:将原始特征投影到选定的主成分上,得到新的特征空间。
主成分分析的应用包括降维、去除数据噪声、数据可视化、特征选择等。通过保留最重要的特征,可以在减少数据维度的同时保持对数据的关键信息进行捕获。
在实际使用中,有时会将各个变量进行标准化,此时的协方差矩阵就相当于原始数据的相关系数矩阵。所以Alink的主成分分析组件提供了两种计算选择,参数CalculationType可以设置为相关系数矩阵(CORR)或者协方差矩阵(COV),默认为相关系数矩阵,即对标准化后的数据计算其主成分。
Alink库中的实现与应用
示例
以美国50个州的7种犯罪率为例,做主成分分析。这7种犯罪分别是:"murder", "rape", "robbery", "assault", "burglary", "larceny", "auto"。从这7个变量出发来评价各州的治安和犯罪情况是很难的,而使用主成分分析可以把这些变量概括为2-3个综合变量(即主成分),便于更简便的分析这些数据。
/**
- 主成分分析
- 1.基于默认的计算方式(CORR),计算主成分