首页 > 其他分享 >【论文阅读】Integrating single-cell multi-omics data through self-supervised clustering

【论文阅读】Integrating single-cell multi-omics data through self-supervised clustering

时间:2025-01-11 14:30:26浏览次数:3  
标签:clustering 模态 multi Integrating 组学 测序 scFPN 单细胞 数据

论文地址:Integrating single-cell multi-omics data through self-supervised clustering - ScienceDirect

代码地址:https://github.com/biomed-AI/scFPN


摘要

单细胞测序技术的进步使得个体细胞能够同时在多种组学层面进行测序,例如转录组学、表观基因组学和蛋白质组学。整合多组学单细胞数据提供了一种更深入、更全面的基因组机制视角。然而,由于不同组学之间的分布差异巨大,现有的整合方法大多通过领域适配或类似策略对组学进行对齐。这些方法的性能有限,可能是因为不同组学之间差异过大。在此,作者提出了一种新颖的单细胞多模态融合方法——scFPN,通过聚类策略来优化嵌入表示。

具体而言,scFPN 首先通过模态特定的变分自编码器(VAE)和特征金字塔网络(FPN)对每种组学数据进行嵌入学习。随后,学习到的分层嵌入被融合,并输入到一个双重自监督优化模块中,用于吸引相似细胞、分离不同细胞。作者在六个来自不同测序平台的最新数据集上进行了全面实验,结果表明,scFPN 在多种先进方法中表现出优越性。更重要的是,通过对去噪和原始数据的补全分析,scFPN 在标记物富集分析中展示了生物学上的可解释性。

引言

单细胞测序技术的最新进展使得多组学/模态数据(如转录组学、表观基因组学和蛋白质组学)的单细胞分辨率测序成为可能 [1]。单细胞组学数据在揭示诸如免疫细胞特征和细胞命运决定等领域的关键洞见中起到了重要作用,这些领域若仅通过单一模态数据分析可能仍难以揭示 [2]。因此,整合模态数据成为单细胞数据分析过程中最关键的任务之一。然而,由于不同模态之间的分布差异,这项任务仍然充满挑战 [3]。例如,单细胞 ATAC 测序(scATAC-Seq)与单细胞 RNA 测序(scRNA-Seq)之间的配对组学数据存在差异:scATAC-Seq 是离散数据,包含数十万个开放染色质区域;而 scRNA-Seq 是连续数据,涉及数千个基因。这些问题阻碍了数据整合及其在诸如细胞聚类等下游分析中的应用。

为了解决这一问题,多种分析方法被设计用于整合单细胞模态数据。例如,统计学方法 [4-6] 通过在低维空间对潜在结构进行对齐来实现模态数据整合。例如,LIGER [6] 使用整合非负矩阵分解来学习低维空间并构建共享的因子邻域图以实现联合聚类;类似地,scAI [5] 通过统一的矩阵分解模型迭代分组表观基因组数据,以解决单细胞表观基因组稀疏性问题;MOFA+ [4] 采用计算效率高的变分推断来重构低维数据表示。然而,这些基于广义线性模型的方法由于无法有效捕获单细胞数据中的复杂结构而受到限制。最近,一种基于机器学习的方法 Seurat 先将染色质可及性转换为转录组,然后通过加权最近邻(WNN)和监督主成分分析(sPCA)执行多模态整合 [7]。尽管这些基于统计或机器学习的方法在许多情况下取得了成功,但它们在对齐模态数据之前执行线性降维,未能捕获单细胞数据中固有的复杂非线性关系。

近年来,深度生成模型在整合模态数据方面的应用日益受到关注,能够有效建模高维单细胞测序数据。其中一个强大的模型是表现力强的变分自编码器(VAE) [8],它由一对神经网络组成:一个将数据编码到潜在空间,另一个对其进行解码以重构数据分布。例如,Cobolt [9] 使用对称多模态 VAE 模型和专家乘积(PoE)[10] 来整合单细胞模态数据集;scMVAE [11] 进一步探讨了三种联合学习策略以融合模态嵌入;scMM [12] 通过专家混合(MoE)[13] 改进模态数据融合方式;scMVP [14] 引入了非对称深度生成模型,有效处理联合测序协议中常见的更高稀疏性;MultiVI [15] 提出了一个从潜在表示生成的概率框架,可以学习配对和非配对数据的联合表示;StabMap [16] 则通过利用非重叠特征改进了映射过程,推断共享特征的拼接数据拓扑,并通过最短路径将所有细胞投影到参考坐标;MIDAS [17] 是一个通过自监督模态对齐和潜在解耦实现维度降维、数据补全和批次效应校正的深度概率框架。然而,上述方法通常只在最终瓶颈空间对模态数据进行对齐,而未考虑不同模态分层嵌入之间的交互。

事实上,每种模态数据的分层特征可以通过特征金字塔网络(FPN)[18] 实现交互。FPN 使用自上而下的架构和横向连接,在多个尺度上构建高层语义特征图。该设计作为通用特征提取器在多种应用中表现出色。受 FPN 模型的启发,作者提出了一种单细胞多模态融合方法 scFPN,通过开发特征金字塔网络高效整合分层特征以学习联合表示。scFPN 首先通过模态特定的变分自编码器(VAE)对每种模态数据进行嵌入。然后,scFPN 高效地融合每个网络层的跨组学分层特征,并通过特征金字塔网络形成联合表示。为进一步优化联合表示,作者引入了一个双重自监督优化模块(SOM)[19],用于吸引相似细胞并分离不同细胞。最终,变分自编码器和 SOM 模块同时进行优化。

作者在六个来自不同测序平台的最新数据集上进行了全面实验,结果证明 scFPN 优于多种先进方法。此外,通过对原始数据的去噪和补全分析,scFPN 在标记物富集分析中表现出生物学可解释性。

模型

scRNA-seq 数据(

标签:clustering,模态,multi,Integrating,组学,测序,scFPN,单细胞,数据
From: https://blog.csdn.net/dundunmm/article/details/145074536

相关文章

  • Cross-modal Information Flow in Multimodal Large Language Models
    本文是LLM系列文章,针对《Cross-modalInformationFlowinMultimodalLargeLanguageModels》的翻译。多模态大型语言模型中的跨模态信息流摘要1引言2相关工作3MLLM中的信息流跟踪4实验设置5不同模态对最终预测的贡献6语言和视觉信息如何集成的?7最终答......
  • pytorch各种乘法,mm, matmul, dot, @, *, mul, multiply
    torch.mm线代的矩阵乘法,要求输入都是矩阵torch.matmul注意:torch.mm和torch.matmul不等价根据输入不同执行不同的操作:输入都是二维矩阵,矩阵乘法,等同于torch.mm输入都是一维向量,计算向量内积,等同于torch.dot第一个参数是向量,第二个是矩阵,则将第一个参数变成(1,n)的矩......
  • Design and Implementation of a 2:1 Multiplexer Using Verilog HDL and Python Simu
    AbstractThemultiplexerisafundamentalbuildingblockindigitalcircuits,widelyusedindataselectionandsignalroutingapplications.Thispaperfocusesonthedesignandimplementationofa2:1multiplexerusingVerilogHDL,detailingitslogicg......
  • YOLOv8模型改进 第二十七讲 添加Cascade Multi-Receptive Fields(CMRF)模块
        近年来,轻量级医疗图像分割模型受关注,但现有模型因减少参数和计算复杂度而特征表示不足,难以超越现有最佳模型。基于多感受野的现代特征提取模块虽能提升性能,但会增加成本,不利于资源有限环境下的临床应用。在此背景下,为解决轻量级与高性能的矛盾,作者提出了CascadeM......
  • 基于Multisim四路抢答器电路的设计(含仿真和报告)
    【全套资料.zip】四路抢答器电路设计Multisim仿真设计数字电子技术文章目录功能一、Multisim仿真源文件资料下载【Multisim仿真+报告+讲解视频.zip】功能(1)4名选手编号为:1,2,3,4。各有一个抢答按钮和数码管,按钮和数码管的编号都与选手的编号对应,也分别为1,2,3,4。(2)......
  • multi_io 一连接一线程
    每连接一个客户端,就创建一个线程所谓c10k问题,指的是:服务器如何支持10k个并发连接,也就是concurrent10000connection(这也是c10k这个名字的由来)。//函数类型*client_thread//intclientfd=*(int*)argvoid*client_thread(void*arg){intclientfd=*(int*)arg;......
  • java 使用HttpClient发送post请求,参数包括MultipartFile、Map以及File转MockMultipart
        遇到使用java调用其他系统的http接口时,发送的参数中有文件,不太好处理,如下总结了发送带文件的的http方法,发送的文件还需要先将File转成MockMultipartFile否则接收会报错。关键的代码和依赖如下所示。一、依赖<dependency><groupId>org.apache.httpcomponents</......
  • AWS开源Multi-Agent-Orchestrator:多智能体编排框架,管理AI智能体,处理复杂对话
    近期,AWS推出了一款名为Multi-AgentOrchestrator的全新开发工具,其设计目的在于简化开发人员对复杂AI交互的管理流程。这款工具具备高效的请求分配机制,能够精确地将用户请求路由至最合适的AI代理,并且能实时追踪对话状态,从而满足从基础聊天机器人到高级AI系统的多样化需......
  • 论文阅读:Towards Faster Deep Graph Clustering via Efficient Graph Auto-Encoder
    论文地址:TowardsFasterDeepGraphClusteringviaEfficientGraphAuto-Encoder|ACMTransactionsonKnowledgeDiscoveryfromData代码地址: https://github.com/Marigoldwu/FastDGC摘要深度图聚类(DeepGraphClustering,DGC)近年来已成为图数据聚类的一个有前途......
  • 论文研读-ClusteringGA研读与实现
    论文研读-ClusteringGA研读与实现此为课题组2024级研究生何诺飘同学近期学习内容汇报更多内容请关注许志伟课题组官方中文主页:https://JaywayXu.github.io/zh-cn/1.前言ClusteringGA算法的整体流程与NSGAII相似,主要包括初始种群的产生、聚类、交叉、变异、非支配排序、选择......