首页 > 其他分享 >详解降维-SVD角度看PCA和PCoA & 主成分分析-概率角度(Probabilistic PCA)【白板推导系列笔记】

详解降维-SVD角度看PCA和PCoA & 主成分分析-概率角度(Probabilistic PCA)【白板推导系列笔记】

时间:2022-10-15 11:31:45浏览次数:97  
标签:mathbb aligned PCoA cdot Sigma SVD mu PCA omega

前一节说明了重构特征空间找什么方向的向量,本节讲的是如何重构特征空间,即通过特征分解(SVD)

 

对于中心化的数据矩阵$HX$进行SVD

$$

HX=U \Sigma V^{T}\quad \left{\begin{aligned}&U^{T}U=\mathbb{I}\&V^{T}V=VV^{T}=\mathbb{I}\&\Sigma为对角阵\end{aligned}\right.

$$

那么我们对协方差矩阵$S$就有

$$

\begin{aligned}

S&=\frac{1}{N}X^{T}HX\

&=\frac{1}{N}X^{T}H^{T}HX\

&=\frac{1}{N}V \Sigma U^{T}\cdot U \Sigma^{T}V^{T}\

&=\frac{1}{N}V \Sigma \Sigma^{T}V^{T}

\end{aligned}

$$

因此对$S$进行SDV就可以得到$V$,即方向、主成分,然后通过$HX \cdot V$得到新的坐标

这里设

$$

\begin{aligned}

T&=HXX^{T}H\

&=U \Sigma V^{T}\cdot V \Sigma U^{T}\

&=U \Sigma^{2}U^{T}\

&两边同乘U \Sigma\

TU \Sigma&=U \Sigma^{2}U^{T}\cdot U \Sigma\

&=U \Sigma^{3}\

&=U \Sigma \cdot \Sigma^{2}

\end{aligned}

$$

对于$HX \cdot V$又有

$$

\begin{aligned}

HX&=U \Sigma V^{T}\

两边同乘V\

HX \cdot V&=U \Sigma

\end{aligned}

$$

因此对$T$进行SVD可以直接得到新的坐标$U\Sigma$。对于$T$的特征值分解也被称为主坐标分析PCoA

这里需要说明的是,由于PCA的对象是$S_{p \times p}$,而PCoA的对象是$T_{N \times N}$,因此对于小样本量的数据集我们常采用PCoA的方法

教科书对PCA的推导一般是基于最小化重建误差或者最大化可分性的,或者说是通过提取数据集的结构信息来建模一个约束最优化问题来推导的。事实上,PCA还有一种概率形式的推导,那就是概率PCA,PRML里面有对概率PCA的详细讲解,感兴趣的读者可以去阅读。需要注意的是,概率PCA不是PCA的变体,它就是PCA本身,概率PCA是从另一种角度来推导和理解PCA,它把PCA纳入了生成式的框架。

如果你只是为了对现有的数据$\left{x_{i}\right}_{i=1}^{n}$进行降维,而没有其他需求,那么简单粗暴的非生成式方法当然是更好的选择。

那么,在什么情况下,或者说什么需求下,生成式方法是更好的选择更好呢?答案就蕴含在“生成式”这个名称中:在需要生成新样本的情况下,生成式方法是更好的选择。

作者:小木曾雪菜

链接:(概率)PCA和(变分)自编码器 - 简书 (jianshu.com)

 

PPCA假设所有的样本点取自某个分布$X \in \mathbb{R}^{p}$,对应的每个点$x_{i}$,都有一个$z_{i}$与之对应,取样与某个分布$Z \in \mathbb{R}^{q}(q<p)$,满足以下条件

$$

x=\omega z +\mu+\epsilon

$$

这里,显然$\omega$是正交矩阵,即$\omega^{T}\omega=\mathbb{I}$,$\epsilon$为噪声$\epsilon \sim N(0,\sigma^{2}\mathbb{I}_{p}),\epsilon \bot z$,这里我们令$z$有高斯先验分布,即

$$

z \sim N(\mathbb{O}{q},\mathbb{I}{q})

$$

 

其中矩阵$\omega$(维度为$p \times q$)也称作因子导入矩阵(factorloading matrix),$\epsilon$维度为$p \times p$,目的是解释原始数据$x_{i}$内部的相关性,所以方差矩阵$\epsilon$可设置为对角矩阵。这个能表征全部数据特征的全局模型就称为因子分析(Factor Analysis)。对于一个特例,$\omega$是正交矩阵,满足$\omega^{T}\omega=\mathbb{I},\epsilon =\sigma^{2}\mathbb{I}$,,此时模型就是概率性主成分分析PPCA,进一步地当$\sigma^{2}\to 0$时,就是通常意义上的PCA。

作者:scott198510

链接:PCA与PPCA推导及理解_scott198510的博客-CSDN博客_ppca

 

![[附件/Pasted image 20220930114428.png]]

概率PCA模型的生成式观点的说明,数据空间为二维,潜在空间为一维。一个观测数据点$x$的生成方式为:首先从潜在变量的先验分布$p(z)$中抽取一个潜在的变量的值$\hat{z}$,然后从一个各向同性的高斯分布(用红色圆圈表示)中抽取一个$x$的值,这个各向同性的高斯分布的均值为$\omega \hat{z}+\mu$,协方差$\sigma^{2}\mathbb{I}$。苦涩椭圆画出了边缘概率分布$p(x)$的概率轮廓线

来源:《PRML Translation》-P389

作者:马春鹏

原著:《Pattern Recognition and Machine Learning》

作者:Christopher M. Bishop

 

显然我们的目的是为了计算$z|x$。根据条件我们可以计算$x|z,x$,再根据数学基础-概率-高斯分布-求联合概率分布就可以得到$z|x$

对于$x|z$

$$

\begin{aligned}

E(x|z)&=E(\omega z+\mu+\epsilon )\

&=\omega z+\mu\

\text{Var}(x|z)&=\text{Var}(\omega z+\mu+\epsilon )\

&=\sigma^{2}\mathbb{I}\

x|z &\sim N(\omega z+\mu,\sigma^{2}\mathbb{I})

\end{aligned}

$$

对于$x$

$$

\begin{aligned}

E(x)&=E(\omega z+\mu+\epsilon )\

&=E(\omega z+\mu)+E(\epsilon )\

&=\mu\

\text{Var}(x)&=\text{Var}(\omega z+\mu+\epsilon )\

&=\text{Var}(\omega z)+\text{Var}(\epsilon )\

&=\omega \cdot \mathbb{I} \cdot \omega^{T}+\sigma^{2}\mathbb{I}\

&=\omega \omega^{T}+\sigma^{2}\mathbb{I}\

x&\sim N(\mu,\omega \omega^{T}+\sigma^{2}\mathbb{I})

\end{aligned}

$$

这里再把之前数学基础-概率-高斯分布-求联合概率分布的结论大概推导一下

已知

$$

x=\begin{pmatrix}

x_{a} \ x_{b}

\end{pmatrix},x \sim N\left(\begin{bmatrix}

\mu_{a} \ \mu_{b}

\end{bmatrix},\begin{bmatrix}

\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb}

\end{bmatrix}\right)

$$

$$

\left{\begin{aligned}&x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

&\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}\

&\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}\end{aligned}\right.

$$

显然有

$$

x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})

$$

又因为$x_{b}=x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}$,有

$$

\begin{aligned}

E(x_{b}|x_{a})&=E(x_{b \cdot a})+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

&=\mu_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

&=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_{a}-\mu_{a})\

\text{Var}(x_{b}|x_{a})&=\text{Var}(x_{b\cdot a})\

&=\Sigma_{bb \cdot a}\

&=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}\

x_{b}|x_{a}& \sim N(\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_{a}-\mu_{a}),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})

\end{aligned}

$$

 

这里其实应该证明$x_{b \cdot a}\bot x_{a}$,来保证$x_{b}|x_{a}=x_{b \cdot a}|x_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}|x_{a}=x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}$成立,但由于以前的笔记证明过了,就不证了)

 

那么对于本题而言,有

$$

X=\begin{pmatrix}

x \ z

\end{pmatrix},X \sim N\left(\begin{bmatrix}

\mu \ 0

\end{bmatrix},\begin{bmatrix}

\omega \omega^{T}+\sigma^{2}\mathbb{I} & \Delta  \ \Delta ^{T} & \mathbb{I}

\end{bmatrix}\right)

$$

这里对$\Delta$,有

$$

\begin{aligned}

\text{Cov}(x,z)&=E[(x-\mu)(z-0)^{T}]\

&=E[(x-\mu)z^{T}]\

&=E[(\omega z+\epsilon )z^{T}]\

&=E(\omega z z^{T}+\epsilon z^{T})\

&由于\epsilon \bot z\

&=E(\omega z z^{T})+\underbrace{E(\epsilon  z^{T})}_{0}\

&=\omega E(\underbrace{zz^{T}}_{z的方差矩阵})\

&=\omega \mathbb{I}\

&=\omega

\end{aligned}

$$

因此条件补充为

$$

X=\begin{pmatrix}

x \ z

\end{pmatrix},X \sim N\left(\begin{bmatrix}

\mu \ 0

\end{bmatrix},\begin{bmatrix}

\omega \omega^{T}+\sigma^{2}\mathbb{I} & \omega  \ \omega^{T} & \mathbb{I}

\end{bmatrix}\right)

$$

因此有

$$

z|x \sim N(\omega^{T}(\omega \omega^{T}+\sigma^{2}\mathbb{I})^{-1}(x-\mu),\mathbb{I}-\omega^{T}(\omega \omega^{T}+\sigma^{2}\mathbb{I})^{-1}\omega)

$$

标签:mathbb,aligned,PCoA,cdot,Sigma,SVD,mu,PCA,omega
From: https://blog.51cto.com/u_15767241/5759124

相关文章

  • PCA主成分分析原理与基础知识
    笔记的主要内容是PCA(主成分分析)原理和基本知识,相关数学原理和核心概念。什么是PCA分析?主成分分析(PCA,principalcomponentanalysis)是一种数学降维方法,利用正交......
  • wireshark网络封包抓包工具导入/导出pcap文件
    1、Wireshark导入文件打开Wiresharkwiki,点击SampleCaptures,可以看到Wireshark官方上传的一些pcap文件。点击SampleCaptures后,可以看到文件后缀名有cap,pcap,pcapng,pc......
  • OpenCV模块程序测试PCA和SVM测试【8】
    本博文接上一篇博文,继续进行部分opencvPython示例代码运行效果测试本博文的测试是直接拉取opencv-master4.5.1,然后在opencv/samples/python/tutorial_code/目录下对......
  • OpenCV模块程序测试PCA和SVM测试【7】
    本博文接上一篇博文,继续进行部分opencvPython示例代码运行效果测试本博文的测试是直接拉取opencv-master4.5.1,然后在opencv/samples/python/tutorial_code/目录下对......
  • libpcap
    libpcap是unix/linux平台下的网络数据包捕获函数包,大多数网络监控软件都以它为基础。Libpcap可以在绝大多数类unix平台下工作......
  • PCA图(主成分分析图)
    主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。......
  • PCA算法介绍及源码实现
    前言PCA(主成分分析)是十大经典机器学习算法之一。PCA是Pearson在1901年提出的,后来由Hotelling在1933年加以发展提出的一种多变量的统计方法。PCA算法介绍PCA(principalc......
  • 现代功率谱估计(3):SVD-TLS,奇异值分解—总体最小二乘方法求解AR模型参数
    现代功率谱估计(3):SVD-TLS,奇异值分解—总体最小二乘方法求解AR模型参数Yuler-Walker方程及修正Yuler-Walker方程对于一个AR\((p)\)过程,其输出信号的自相关函数和AR系数有以......
  • [DM]数据预处理-PCA主成分分析2(附MATLAB代码)
    我们在进行数据分析时,往往会发现数据具有很多种属性,比如某类型饼干的口味、加工方式、保质期、价格、购买人群等等。每一种属性就代表该数据在某一维度上的数值。多维度的数......
  • Linux 网络编程—— libpcap 详解
    概述libpcap是一个网络数据包捕获函数库,功能非常强大,Linux下著名的tcpdump就是以它为基础的。libpcap主要的作用1)捕获各种数据包,列如:网络流量统计。2)过滤网络数据包,列如......