Xu, Y., Zang, Z., Xia, J. et al. Structure-preserving visualization for single-cell RNA-Seq profiles using deep manifold transformation with batch-correction. Commun Biol 6, 369 (2023).
论文地址:https://doi.org/10.1038/s42003-023-04662-z
代码地址:https://github.com/Westlake-AI/DV
摘要
降维与可视化在生物数据分析中起着重要作用,例如单细胞RNA测序(scRNA-seq)数据的解释分析。理想的可视化方法不仅能够适用于多种应用场景(如细胞聚类和轨迹推断),还需要满足多种技术需求,特别是保留数据固有结构和处理批次效应的能力。然而,现有方法无法在统一框架内同时满足这些要求。
在本文中,我们提出了一种通用的可视化方法——深度可视化(Deep Visualization, DV)。该方法具备保留数据固有结构和处理批次效应的能力,适用于不同领域的多种数据集和数据规模。DV将给定数据集嵌入到二维或三维的可视化空间中,根据指定任务类型选择欧几里得度量或双曲度量,分别适用于静态(某一时间点)或动态(一系列时间点)scRNA-seq数据。
具体而言,DV通过学习一个结构图来描述数据样本之间的关系,在端到端的方式下将数据转化为可视化空间,同时保留数据的几何结构并校正批次效应。我们在人类患者或动物发育的复杂组织的九个数据集上进行实验,结果表明,DV在发现复杂的细胞关系、揭示时间轨迹以及解决复杂批次因素方面表现出竞争力。此外,我们还进行了初步尝试,预训练DV模型用于新输入数据的可视化。
引言
随着能够在单细胞分辨率下探测基因组级分子信息的技术(如单细胞RNA测序(scRNA-seq)和质谱细胞术)的出现,为细胞分化的全面分析及细胞之间关系的研究提供了重要的见解。尽管scRNA-seq数据具有高维特性,但其内在维度通常较低,因为许多基因是共表达的,并且基于液滴的scRNA-seq数据非常稀疏(典型细胞剖面中超过90%的基因计数为零)。因此,降维和可视化方法在解释scRNA-seq数据集方面发挥着重要作用,例如提取有效信息、直观理解数据分布,以及解释细胞之间的关系。
本文主要解决以下应用场景:
1. 几何结构保留和数据可视化:开发一种机器学习方法,在降维空间中保留scRNA-seq数据的几何结构,并将其用于细胞聚类和轨迹推断任务。
- 静态场景(单一时间点):聚焦于探索不同细胞类型之间的关系,目标是学习一个低维嵌入空间,使同类细胞彼此靠近,不同类型的细胞分离开。
- 动态场景(多个时间点序列):揭示细胞的时间轨迹,表征未成熟细胞向特定类型成熟细胞的过渡过程。
2. 批次校正:构建低维表示,消除细胞生物内容中的技术变异。
3. 新数据嵌入:探索构建“批次不变”模型,用于嵌入受多种因素影响的新数据;并尝试构建预训练模型,以处理异构新数据。
相比之下,当前方法缺乏灵活性,通常对不同应用场景采用统一假设,无法在统一框架内满足上述需求。
传统的线性/非线性降维方法(如局部几何结构保留和全局几何结构保留)在过去几十年中快速发展。例如,局部方法包括局部线性嵌入(LLE)、拉普拉斯特征映射(LE)和随机邻域嵌入(SNE);全局方法包括主成分分析(PCA)、等距映射(ISOMAP)和扩散图(DM)。然而,这些方法往往单独考虑局部或全局结构的保留,难以挖掘生物数据的潜在信息。此外,基于流形学习的t-SNE和UMAP方法在捕捉生物数据复杂局部与全局几何结构方面表现优异,但也存在局限性,例如对技术噪声不鲁棒、难以处理新数据点以及缺乏批次校正能力。
近年来,深度神经网络(DNN)被用于非线性降维和可视化,尤其在处理大规模数据、整合不同因素和提升模型扩展性方面表现出色。相关研究主要有两类方向:
1. 深度流形学习方法(如参数化UMAP、深度流形变换(DMT)、统一降维神经网络(UDRN)等),注重保留数据的几何结构。
2. 深度重构学习方法(如变分自编码器),注重重构输入数据分布,但往往忽略输入数据的固有几何结构。
这些方法虽然有所改进,但仍面临三个主要问题:
1. 高失真嵌入问题:大多数方法假设嵌入空间为欧几里得空间,难以建模动态scRNA-seq数据的层次性与分支轨迹。
2. 缺乏端到端处理能力:现有方法通常需要多个独立步骤,难以一体化实现批次校正、降维和可视化。
3. 灵活性不足:不同场景下缺乏针对性假设,难以处理异构新数据。
为解决上述问题,我们提出了一种通用的可视化模型--深度可视化(Deep Visualization, DV)。具体而言,DV通过基于局部尺度收缩学习结构图,更准确地描述细胞之间的关系;在二维或三维嵌入空间中转化数据,同时保留数据几何结构并通过先验批次效应图进行端到端批次校正。
- 对于静态数据,DV在欧几里得空间中最小化结构图与可视化图之间的失真(DV_Eu)。
- 对于动态数据,DV采用超曲率空间的Poincaré或Lorentz模型嵌入,便于表示和推断层次化、分支化的发育轨迹,并在Poincaré圆盘中可视化。
我们在9个来自人类、小鼠及模型生物的多样化数据集上进行了验证,结果表明DV在处理复杂组织和发育过程中的静态和动态scRNA-seq数据(含多级复杂批次效应)方面表现优越。DV还支持对同质与异质新数据的预训练可视化嵌入模型。总体而言,DV为单细胞基因组学研究提供了一种统一的增强表示、复杂批次校正、可视化和解释工具。
结论
为了实现静态和动态 scRNA-seq 数据的可视化,DV 将数据嵌入到 DNN(深度神经网络)末端的二维或三维欧几里得或双曲潜在空间中(图1a),具体取决于数据流形的曲率特性。欧几里得空间的零曲率因其平坦性和直观的类别边界而被大多数可视化方法(如 t-SNE、UMAP、PHATE 和 IVIS)采用,这种方式对于探索静态数据中不同细胞类型之间的关系通常已足够。而负曲率的双曲嵌入则被提出用于从层次化的文本和图结构数据中学习潜在表示,我们认为这对于动态数据来说十分适用,以揭示时间轨迹。因为在这类数据中,树的叶子节点数量随着深度的指数增长与圆周长度和面积随半径在双曲空间中的指数增长类似。相较于欧几里得空间中的线性和平方增长,在双曲空间中,圆周长度和圆盘面积随着半径呈指数增长。
DV 模型假设良好的嵌入应尽可能保留 scRNA-seq 数据的几何结构。根据流形假设,观察到的数据是高维欧几里得空间中均匀采样的低维流形。在实践中,基于液滴的 scRNA-seq 数据通常存在大量零值或接近零的值。对于这样高维稀疏数据,难以直接通过向量相似性(如欧几里得距离)定义细胞间的关系。因此,DV 基于局部尺度收缩,在每个细胞及其对应的增强细胞之间学习可靠的结构图,用以更准确地描述细胞之间的关系。具体来说,DV 通过以下四个主要步骤来估计潜在的流形结构(图1a):
1. 构建结构图 \(G_{\text{structure}}\):基于结构模块学习的结构嵌入,为细胞及其对应的增强细胞构建一个完全连接的无向结构图,其中每个节点对应一个细胞,每条边的权重为两个连接细胞的结构嵌入之间的欧几里得距离。此步骤旨在估计潜在拓扑流形的局部几何特性。
2. 学习低维嵌入并构建可视化图 \(G_{\text{visualization}}\):DV 为每个细胞学习低维欧几里得或双曲嵌入,并基于可视化模块学习的可视化嵌入,为细胞及其对应的增强细胞构建完全连接的无向可视化图。具体而言:
- 对于欧几里得潜在空间,DV 学习二维嵌入,并采用欧几里得距离描述嵌入之间的关系。
- 对于双曲潜在空间,DV 使用 Poincaré 或 Lorentz 模型学习二维或三维嵌入,并采用双曲距离描述嵌入之间的关系。
3. 将距离转换为相似性:DV 基于学生 t-分布将 \(G_{\text{structure}}\) 和 \(G_{\text{visualization}}\) 的边权重从距离转换为相似性,以突出相似的节点对,弱化不相似的节点对。这一过程在流形学习方法(如 t-SNE 和 UMAP)中被广泛使用,用于从特征空间的相似性近似未知流形的结构。
4. 几何结构保持与批次校正:为保留 scRNA-seq 数据的几何结构,DV 使用几何结构保持损失函数训练 DNN,该损失函数最小化 \(G_{\text{structure}}\) 和 \(G_{\text{visualization}}\) 之间的分布差异。同时,为了使 DV 能够兼具批次校正能力,DV 将手动设计的先验批次效应图 \(G_{\text{batch}}\) 集成到训练过程中被学习的 \(G_{\text{visualization}}\) 中,以学习去除批次效应的 \(G_{\text{visualization}}\)。
作为一种通过小批量随机梯度下降训练的深度学习模型,DV 特别适合处理具有复杂多级批次效应的大规模 scRNA-seq 数据,并促进新兴应用。完整的技术细节见“方法”部分。
DV在可视化大规模数据集时,能够在非常低维空间中保留scRNA-seq数据的结构
将DV应用于scRNA-seq数据,我们系统性地评估了DV嵌入在少维(2维或3维)潜在空间中的可视化表现,并比较了DV(在欧几里得或双曲空间中嵌入细胞)与PCA、t-SNE、UMAP、IVIS、PHATE、Poin_maps和基于双曲空间的scPhere(scPhere_wn)在几何结构保留性能(Qglobal和Qlocal评分)上的表现。这些评分解释了scRNA-seq数据集构成了一个光滑流形,而一个好的降维方法应保留该流形上的局部和全局距离。
按照scPhere的研究方法,我们将DV应用于七个来自人类和小鼠的scRNA-seq数据集,数据规模从数千个细胞的小型数据集到包含数十万个细胞的大型数据集,细胞类型数量从少量(两个)到几十种不等。“小型”数据集包括:
1. 一个血细胞数据集(10个红细胞和2293个CD14+单核细胞);
2. 3314个人类肺细胞;
3. 1378个小鼠白色脂肪组织基质细胞;
4. 1755个人类脾脏自然杀伤细胞(跨四个亚型)。
“大型”数据集包括:
1. 包含45个细胞子集的35,699个视网膜神经节细胞(RGC);
2. 横跨59个人类组织102个子集的599,926个细胞(HCL);
3. 沿时间轴收集的86,024个秀丽隐杆线虫(C. elegans)胚胎细胞。
DV在“小型”数据集上表现出比基线方法更强的竞争力(补充图1和图2)。值得注意的是,即使在这些数据集中存在离散的细胞类型,基于双曲空间的DV_Poin和DV_Lor在某些数据集上比基于欧几里得空间的DV_Eu表现更好。例如,在人类肺细胞数据中,所有方法都混淆了周细胞和APC,除了DV_Lor。PHATE和Poin_maps因设计用于发展轨迹分析,在仅有离散细胞类型的场景下容易连接错误的细胞;PCA由于缺乏非线性能力,难以有效捕捉复杂数据结构;基于变分自动编码器的scPhere_wn在聚集同类细胞和分离不同细胞上表现不足。
在包含更多细胞和簇的大型数据集(如小鼠RGC细胞和人类HCL细胞)中,DV展现了显著优势。尽管t-SNE、UMAP和Poin_maps能够区分个体细胞类型,DV_Eu、DV_Poin和DV_Lor在局部和全局结构保留上表现优异。特别是在RGC细胞中,基于Poincaré球模型的DV_Poin比其他方法更好地保留了细胞的分层全局结构。
在分析动态细胞(如从干细胞到成熟细胞的发育轨迹)时,DV在可视化细胞分化和关系解释方面也展现了显著优势。例如,在秀丽隐杆线虫细胞中,DV_Poin和DV_Lor可以在双曲潜在空间中存储更大的分层结构,将发育过程的根细胞放置在Poincaré圆盘的中心,并随着距离变化展示细胞的发育时间。
总的来说,DV通过利用双曲潜在空间(Lorentz或Poincaré模型)克服了基线方法中常见的“细胞拥挤”和“细胞混杂”问题,适用于区分度分析和动态轨迹研究,同时在时间和血统上保留了生物学解释性。
讨论
我们提出了DV模型,用于将静态和动态的单细胞RNA测序(scRNA-seq)数据嵌入到低维欧几里得空间和双曲空间中,以增强单细胞研究中细胞的探索性数据分析和可视化,特别是在具有复杂多层批次因素的情况下。DV模型能够提供更易解释的表示,避免了“细胞拥挤”和“细胞混杂”的问题。当在双曲空间中嵌入动态细胞时,有助于研究细胞的发育轨迹。在这种情况下,DV_Poin和DV_Lor模型可以自动将根细胞放置在庞加莱圆盘的中心附近(到中心的距离可用作伪时间的自然定义)。它们还可以将细胞划分为多个区域,以便分别分析每种主要细胞类型的分化过程(指定类型的细胞在庞加莱圆盘中会随着距离和角度的变化连续进展)。
DV的主要优势在于同时实现了scRNA-seq数据的几何结构保持和多层复杂批次效应的纠正,这使得细胞类型能够从患者、疾病和位置变量中解耦。这一点优于其他深度神经网络(DNN)方法,这些方法无法结合几何结构保持和批次校正能力。为验证这一点,我们评估了三个主要组件的有效性(补充图17),包括可视化模块、结构模块和批次校正模块。我们可以根据生物数据的固有特性以多种方式利用这些能力,以满足不同任务的需求:
1. 在没有批次效应的数据集中直接可视化静态或动态细胞;
2. 在具有多层复杂批次效应的数据集中,考虑单一因素或多因素组合可视化静态或动态细胞;
3. 调查哪些细胞类型最受某一因素影响;
4. 生成通用参考模型,将新的同质或异质数据映射到现有嵌入中并注释细胞类型。
DV在处理复杂批次因素方面的能力优于以往的批次校正方法,这些方法通常只能处理单一批次向量。在我们针对30名IBD患者(三种疾病状态)的细胞基准测试中,DV的性能优于最先进的批次校正方法,如Harmony、scVI和scPhere。未来,我们可以利用有监督的信息来构建更可靠的先验批次效应图。此外,作为一个参数化模型,DV可以自然地将新的同质或异质测试数据与仅基于训练数据学习的潜在空间共同嵌入。
DV特别适合分析大规模的scRNA-seq数据集:其运行时间与输入细胞数量线性扩展(补充图16)。在处理大量输入细胞时,它缓解了“细胞拥挤”和“细胞混杂”问题,并且比基线方法更好地保留了数据的局部和分层的全局几何结构,尽管其运行时间略长于其他方法。最后,通过学习一个以基因表达或主成分为输入的“批次无关”模型来学习潜在嵌入,DV形成了一个参考,可以用来可视化和注释未来研究中新测定的细胞。这一优势优于非参数方法(如t-SNE、UMAP、PHATE和Poin_maps),这些方法无法嵌入新数据,特别是在存在批次效应的情况下。
DV收敛迅速且对超参数具有鲁棒性。对于使用不同潜在空间(例如欧几里得空间或双曲空间)的DV模型,其训练非常稳定且快速收敛。DV在100个训练轮次内完成拟合,其形态与300轮次的结果一致(补充图10a–j,k–t)。此外,我们根据建议的典型值范围调整超参数,可以观察到超参数的影响有限(补充图11a–f,g–m)。即使可视化结果发生变化,也不会影响动态scRNA-seq数据集中的潜在生物学意义(补充图12a–g,h–n)。
DV还可以通过多种方式扩展。当部分细胞具有类型注释或细胞类型标记基因时,我们可以引入半监督学习来注释细胞类型。鉴于空间转录组学、单细胞ATAC-seq及其他互补测量的快速发展,DV可以扩展用于多模态数据的整合分析。DV还可以使用双曲神经网络学习离散的分层树,从而更好地解释发育轨迹。鉴于其范围、灵活性和可扩展性,我们预计DV将成为大规模单细胞和空间基因组学研究中的重要工具。
这里没有详细的写模型的具体步骤,后续会补充完整的。。。
标签:visualization,嵌入,manifold,seq,preserving,细胞,可视化,DV,数据 From: https://blog.csdn.net/dundunmm/article/details/143949477