目录
1.
假设不同的簇数据来自于不同的高斯分布。或者换句话说,高斯混合模型就是当成数据集是由多个高斯分布混合而成的。这是这个模型的核心思想.
一维的gauss分布:
多变量(比如d个变量)高斯分布的概率密度函数:
μ是一个n维向量, 对应着分布的均值
sigma:是一个n*n协方差矩阵
假设数据蕴含着K个簇,那么μ和sigma也同样需要为了每一个簇k进行参数估计。
这里有K个簇,所以概率密度由K个分布的线性函数来定义
是第k个分布的混合系数,落入第k个簇 是有一定概率的。
使用最大对数似然方法来进行参数估计
引入知识点----Jenson不等式关于凸函数性质的不等式
若:
则:
即:
2. GMM 算法的一般流程
初始化:
Expectation Step:
样本i落入分类k中的概率;
Maximization Step:
估计出模型的参数
反复进程 E-M
得到最终的模型-- k个gauss分布的概率密度参数 以及这些模型是如何组成的:
3. 使用模型
density estimation
GMM本质上是一个密度估计算法;也就是说,从技术的角度考虑,一个 GMM 拟合的结果并不是一个聚类模型,而是描述数据分布的生成概率模型。
clustering
数据点x属于component
的概率