SparCC(Sparse Correlations for Compositional Data)是一种专为处理组成型数据(如微生物相对丰度数据)设计的相关性计算方法。它假设大多数物种之间的关系是稀疏的,即在生态系统中,不是所有物种都直接互相作用。其核心思想是通过计算组成数据中各物种的稀疏相关矩阵,避免因组成效应(compositional effects)而带来的偏差。
SparCC 的基本原理
-
组成效应问题:
- 微生物数据中的相对丰度数据是组成型数据,总和为1,这意味着一个物种丰度的增加会导致其他物种丰度的相对减少。传统的相关性计算(如皮尔逊相关)会因为这种组成效应而引入误导性关联。
- 组成效应使得微生物物种之间的关联看起来比实际更强,导致了大量的虚假关联。
-
伪丰度(Pseudocounts):
- SparCC 首先在数据中引入一个小的伪丰度值,以减轻由于数据稀疏性(存在大量零值)带来的影响。
- 这样可以确保计算的稳定性,因为零值可能导致相关性计算的偏差。
-
计算对数比率(Log Ratios):
- SparCC 使用物种丰度的对数比率进行计算,从而将组成型数据转化为可以进行传统统计分析的数据形式。
- 对任意两个物种 XiX_iXi 和 XjX_jXj,其对数比率可以表示为 log(Xi/Xj)\log(X_i / X_j)log(Xi/Xj)。这样可以部分减轻组成效应的影响。
-
协方差估计:
- SparCC 假设物种间的关系是稀疏的,即大多数物种对的相关性为零。通过构建稀疏的协方差矩阵,SparCC 识别出那些具有显著关联的物种对。
- 为了估计协方差矩阵,SparCC 使用了一种迭代算法,通过在对数比率空间中计算物种间的稀疏相关性,最终得到原始空间的相关性估计。
-
稀疏矩阵的回归分析:
- SparCC 的算法会迭代计算多个随机伪数据集的协方差矩阵,来估计真实协方差,并过滤掉不显著的关联,最终得到一个稀疏的相关矩阵。
-
计算 p 值:
- SparCC 通过随机置换方法计算每个相关系数的 p 值,以确保结果的显著性,从而减少虚假正相关。
SparCC 的优势
- 适应组成型数据:专门设计用于相对丰度数据,避免了组成效应带来的误导性关联。
- 适合稀疏数据:稀疏矩阵假设符合微生物生态系统中大多数物种非直接相互作用的情况。
- 高效性:SparCC 通过对数比率和稀疏协方差矩阵计算,较为高效地推断出物种间真实的关联性。
SparCC 的应用限制
- 假设稀疏性:SparCC 假设网络是稀疏的,如果数据的真实关联并非稀疏(即有大量相互关联的物种对),SparCC 的表现可能不理想。
- 需要伪丰度处理:引入伪丰度可能会在一定程度上影响数据的真实性。
- 对零值敏感:尽管 SparCC 引入了伪丰度来处理稀疏性,但大量零值依然可能影响最终结果的准确性。
总结
SparCC 是一种有效的工具,专为组成型数据(如微生物相对丰度数据)设计,能够识别物种间的真实关联性。通过对数比率计算和稀疏协方差估计,SparCC 有效地缓解了组成效应的干扰,适合用于微生物共现网络的构建。
标签:SparCC,稀疏,协方差,物种,原理,数据,丰度 From: https://www.cnblogs.com/wzbzk/p/18540047