首页 > 其他分享 >[原创] 主成分分析(PCA)思路梳理

[原创] 主成分分析(PCA)思路梳理

时间:2022-09-24 00:55:22浏览次数:57  
标签:特征值 变量 方差 矩阵 协方差 成分 思路 PCA 梳理

作者:Steven Yang(steven_yang_0502@outlook.com)

读本教程前,假定你的线性代数和概率论数理统计已经学得很好了。

在一组多维度的数据中,如果找出他的各个主成分?
假如数据是二维的,也就是如图中由(x1, y1)(x2, y2)(x3, y3)...的蓝色点构成的,现在要找出他的两个主成分,显而易见。
但我们的目的是让这个问题变得一般化和机械化,所以问题转化为Fisher线性判别那样的最优化问题:

找出一个主成分,使得数据投影在向量上的点(如图)尽可能的离散,也就是方差最大。

方差最大,也就意味着产生一个独立的“维度”。

在实际应用中,我们会把数据整理为一个矩阵。
比如拿模式识别来说,一张图片的所有像素为一列或一行。
于是有协方差矩阵(仅拿3变量的例子来举例)如下,

它有个简便的计算公式,

为了方差最大,矩阵变量间的协方差为0,而且协方差矩阵是对称的,我们把协方差矩阵对角化。

对角化一个实对称的矩阵,得求出特征值和特征向量。

(注意了,求得特征值和特征变量后,只有特征值相等的变量才不是正交的。)

最后按特征值从大到小排序,按行,取前k个向量组成矩阵P。

因此,

就是降到k维后的数据。

用一般方法计算特征值和特征向量太慢,所以可以用SVD分解求得,这样效率更高。

标签:特征值,变量,方差,矩阵,协方差,成分,思路,PCA,梳理
From: https://www.cnblogs.com/stevenyang0502/p/16724790.html

相关文章