论文地址:Integrating single-cell multi-omics data through self-supervised clustering - ScienceDirect
代码地址:https://github.com/biomed-AI/scFPN
摘要
单细胞测序技术的进步使得个体细胞能够同时在多种组学层面进行测序,例如转录组学、表观基因组学和蛋白质组学。整合多组学单细胞数据提供了一种更深入、更全面的基因组机制视角。然而,由于不同组学之间的分布差异巨大,现有的整合方法大多通过领域适配或类似策略对组学进行对齐。这些方法的性能有限,可能是因为不同组学之间差异过大。在此,作者提出了一种新颖的单细胞多模态融合方法——scFPN,通过聚类策略来优化嵌入表示。
具体而言,scFPN 首先通过模态特定的变分自编码器(VAE)和特征金字塔网络(FPN)对每种组学数据进行嵌入学习。随后,学习到的分层嵌入被融合,并输入到一个双重自监督优化模块中,用于吸引相似细胞、分离不同细胞。作者在六个来自不同测序平台的最新数据集上进行了全面实验,结果表明,scFPN 在多种先进方法中表现出优越性。更重要的是,通过对去噪和原始数据的补全分析,scFPN 在标记物富集分析中展示了生物学上的可解释性。
引言
单细胞测序技术的最新进展使得多组学/模态数据(如转录组学、表观基因组学和蛋白质组学)的单细胞分辨率测序成为可能 [1]。单细胞组学数据在揭示诸如免疫细胞特征和细胞命运决定等领域的关键洞见中起到了重要作用,这些领域若仅通过单一模态数据分析可能仍难以揭示 [2]。因此,整合模态数据成为单细胞数据分析过程中最关键的任务之一。然而,由于不同模态之间的分布差异,这项任务仍然充满挑战 [3]。例如,单细胞 ATAC 测序(scATAC-Seq)与单细胞 RNA 测序(scRNA-Seq)之间的配对组学数据存在差异:scATAC-Seq 是离散数据,包含数十万个开放染色质区域;而 scRNA-Seq 是连续数据,涉及数千个基因。这些问题阻碍了数据整合及其在诸如细胞聚类等下游分析中的应用。
为了解决这一问题,多种分析方法被设计用于整合单细胞模态数据。例如,统计学方法 [4-6] 通过在低维空间对潜在结构进行对齐来实现模态数据整合。例如,LIGER [6] 使用整合非负矩阵分解来学习低维空间并构建共享的因子邻域图以实现联合聚类;类似地,scAI [5] 通过统一的矩阵分解模型迭代分组表观基因组数据,以解决单细胞表观基因组稀疏性问题;MOFA+ [4] 采用计算效率高的变分推断来重构低维数据表示。然而,这些基于广义线性模型的方法由于无法有效捕获单细胞数据中的复杂结构而受到限制。最近,一种基于机器学习的方法 Seurat 先将染色质可及性转换为转录组,然后通过加权最近邻(WNN)和监督主成分分析(sPCA)执行多模态整合 [7]。尽管这些基于统计或机器学习的方法在许多情况下取得了成功,但它们在对齐模态数据之前执行线性降维,未能捕获单细胞数据中固有的复杂非线性关系。
近年来,深度生成模型在整合模态数据方面的应用日益受到关注,能够有效建模高维单细胞测序数据。其中一个强大的模型是表现力强的变分自编码器(VAE) [8],它由一对神经网络组成:一个将数据编码到潜在空间,另一个对其进行解码以重构数据分布。例如,Cobolt [9] 使用对称多模态 VAE 模型和专家乘积(PoE)[10] 来整合单细胞模态数据集;scMVAE [11] 进一步探讨了三种联合学习策略以融合模态嵌入;scMM [12] 通过专家混合(MoE)[13] 改进模态数据融合方式;scMVP [14] 引入了非对称深度生成模型,有效处理联合测序协议中常见的更高稀疏性;MultiVI [15] 提出了一个从潜在表示生成的概率框架,可以学习配对和非配对数据的联合表示;StabMap [16] 则通过利用非重叠特征改进了映射过程,推断共享特征的拼接数据拓扑,并通过最短路径将所有细胞投影到参考坐标;MIDAS [17] 是一个通过自监督模态对齐和潜在解耦实现维度降维、数据补全和批次效应校正的深度概率框架。然而,上述方法通常只在最终瓶颈空间对模态数据进行对齐,而未考虑不同模态分层嵌入之间的交互。
事实上,每种模态数据的分层特征可以通过特征金字塔网络(FPN)[18] 实现交互。FPN 使用自上而下的架构和横向连接,在多个尺度上构建高层语义特征图。该设计作为通用特征提取器在多种应用中表现出色。受 FPN 模型的启发,作者提出了一种单细胞多模态融合方法 scFPN,通过开发特征金字塔网络高效整合分层特征以学习联合表示。scFPN 首先通过模态特定的变分自编码器(VAE)对每种模态数据进行嵌入。然后,scFPN 高效地融合每个网络层的跨组学分层特征,并通过特征金字塔网络形成联合表示。为进一步优化联合表示,作者引入了一个双重自监督优化模块(SOM)[19],用于吸引相似细胞并分离不同细胞。最终,变分自编码器和 SOM 模块同时进行优化。
作者在六个来自不同测序平台的最新数据集上进行了全面实验,结果证明 scFPN 优于多种先进方法。此外,通过对原始数据的去噪和补全分析,scFPN 在标记物富集分析中表现出生物学可解释性。
模型
scRNA-seq 数据(
标签:clustering,模态,multi,Integrating,组学,测序,scFPN,单细胞,数据 From: https://blog.csdn.net/dundunmm/article/details/145074536