序言
在探索数据科学与机器学习的浩瀚领域中,深度学习作为一股不可小觑的力量,正以前所未有的方式重塑着我们对数据处理与知识发现的理解。在这一宏大的框架下,概率主成分分析( Probabilistic PCA, pPCA \text{Probabilistic PCA, pPCA} Probabilistic PCA, pPCA)与因子分析作为经典与现代的交汇点,不仅承载着统计学的深厚底蕴,也融合了深度学习的先进理念,成为理解复杂数据结构的重要工具。 pPCA \text{pPCA} pPCA与因子分析均旨在通过降维技术揭示数据中的隐藏结构,前者是传统 PCA \text{PCA} PCA的概率化延伸,赋予了数据点以概率分布的形式存在,后者则更侧重于从协方差结构中提取潜在的共同因子,两者虽路径不同,却殊途同归,共同为数据分析师和科学家提供了深入理解数据本质的强大武器。
概率PCA和因子分析
- 概率
PCA
\text{PCA}
PCA (
probabilistic PCA
\text{probabilistic PCA}
probabilistic PCA), 因子分析和其他线性因子模型是等式(
线性因子模型引言篇 - 公式1
,线性因子模型引言篇 - 公式2
)的特殊情况,并且仅在对观测到 x \boldsymbol{x} x 之前的噪声分布和潜变量 h \boldsymbol{h} h先验的选择上有所不同。 - 因子分析 (
factor analysis
\text{factor analysis}
factor analysis) (
Bartholomew, 1987; Basilevsky, 1994
\text{Bartholomew, 1987; Basilevsky, 1994}
Bartholomew, 1987; Basilevsky, 1994) 中,潜变量的先验是一个方差为单位矩阵的高斯分布:
h ∼ N ( h ; 0 , I ) \boldsymbol{h}\sim \mathcal{N}(\boldsymbol{h};\boldsymbol{0},\boldsymbol{I}) h∼N(h;0,I) — 公式1 \quad\textbf{---\footnotesize{公式1}} —公式1 - 同时,假定观察值 x i x_i xi 在给定 h \boldsymbol{h} h 的条件下是条件独立 ( conditionally independent \text{conditionally independent} conditionally independent) 的。具体的说,噪声可以被假设为是从对角协方差矩阵的高斯分布中抽出的, 协方差矩阵为 ψ = diag ( σ 2 ) \boldsymbol{\psi}=\text{diag}(\boldsymbol{\sigma^2}) ψ=diag(σ2),其中 σ 2 = [ σ 1 2 , σ 2 2 , … , σ n 2 ] ⊤ \boldsymbol{\sigma^2}=[\sigma_1^2,\sigma_2^2,\dots,\sigma_n^2]^\top σ2=[σ12,σ22,…,σn2]⊤ 表示一个向量,每个元素表示一个变量的方差。
- 因此, 潜变量的作用是捕获不同观测变量 x i x_i xi 之间的依赖关系。实际上,可以容易地看出 x \boldsymbol{x} x 服从多维正态分布,并满足: x ∼ N ( x ; b , W W ⊤ + ψ ) \text{x}\sim\mathcal{N}(\boldsymbol{x};\boldsymbol{b},\boldsymbol{WW}^\top+\boldsymbol{\psi}) x∼N(x;b,WW⊤+ψ) — 公式2 \quad\textbf{---\footnotesize{公式2}} —公式2
- 为了将
PCA
\text{PCA}
PCA引入到概率框架中,我们可以对因子分析模型进行轻微修改,使条件方差
σ
i
2
\sigma_i^2
σi2 等于同一个值。
- 在这种情况下, x \boldsymbol{x} x 的协方差简化为 W W ⊤ + σ 2 I \boldsymbol{WW}^\top+\boldsymbol{\sigma}^2\boldsymbol{I} WW⊤+σ2I,这里的 σ 2 \sigma^2 σ2是一个标量。
- 由此可以得到条件分布,如下: x ∼ N ( x ; b , W W ⊤ + σ 2 I ) \text{x}\sim\mathcal{N}(\boldsymbol{x};\boldsymbol{b},\boldsymbol{WW}^\top+\sigma^2\boldsymbol{I}) x∼N(x;b,WW⊤+σ2I) — 公式3 \quad\textbf{---\footnotesize{公式3}} —公式3
- 或者等价于:
x
=
W
h
+
b
+
σ
z
\text{x}=\boldsymbol{Wh}+\boldsymbol{b}+\sigma\textbf{z}
x=Wh+b+σz
—
公式4
\quad\textbf{---\footnotesize{公式4}}
—公式4
- 其中 z ∼ N ( z ; 0 , I ) \textbf{z}\sim\mathcal{N}(\boldsymbol{z};\boldsymbol{0},\boldsymbol{I}) z∼N(z;0,I)是高斯噪音。
- 之后 Tipping and Bishop (1999) \text{Tipping and Bishop (1999)} Tipping and Bishop (1999) 提出了一种迭代的 EM \text{EM} EM算法来估计参数 W \boldsymbol{W} W 和 σ 2 \sigma^2 σ2。
- 这个概率
PCA
\text{PCA}
PCA (
probabilistic PCA
\text{probabilistic PCA}
probabilistic PCA) 模型利用了这样一种观察到的现象:除了一些小且剩余的至多为
σ
2
\sigma^2
σ2 的重构误差 (
reconstruction error
\text{reconstruction error}
reconstruction error) ,数据中的大多数变化可以由潜变量
h
\boldsymbol{h}
h 描述。
- 通过 Tipping and Bishop (1999) \text{Tipping and Bishop (1999)} Tipping and Bishop (1999) 的研究可以发现,当 σ → 0 \sigma\to 0 σ→0的时候, 概率 PCA \text{PCA} PCA退化为 PCA \text{PCA} PCA。
- 在这种情况下,给定 x \boldsymbol{x} x 情况下 h \boldsymbol{h} h 的条件期望等于将 x − x \boldsymbol{x} − \boldsymbol{x} x−x 投影到 W \boldsymbol{W} W 的 d d d 列的生成空间,与 PCA \text{PCA} PCA一样。
- 当 σ → 0 \sigma\to 0 σ→0 时, 概率 PCA所定义的密度函数在 W \boldsymbol{W} W 的 d d d 维列生成空间周围非常尖锐。这导致模型会为没有在一个超空间附近聚集的数据分配非常低的概率
总结
回顾深度学习视角下的概率 PCA \text{PCA} PCA与因子分析,它们不仅是统计学习的经典应用,更是连接传统统计学与现代机器学习技术的桥梁。 pPCA \text{pPCA} pPCA通过引入概率模型,增强了 PCA \text{PCA} PCA对数据不确定性的处理能力,使其在高噪声、不完整数据环境下依然能有效工作。而因子分析,凭借其从数据中抽取隐藏因子的能力,为探索数据间的内在联系、构建预测模型提供了宝贵的视角。两者相互补充,共同丰富了我们对数据结构的认知,推动了深度学习在复杂系统建模、推荐系统、图像与信号处理等众多领域的深入应用。随着研究的不断深入,我们有理由相信, pPCA \text{pPCA} pPCA与因子分析将在未来数据科学与机器学习的舞台上绽放更加耀眼的光芒。
往期内容回顾
线性因子模型 - 引言篇
应用数学与机器学习基础 - 概率与信息论篇