Ding, J., Regev, A. Deep generative model embedding of single-cell RNA-Seq profiles on hyperspheres and hyperbolic spaces. Nat Commun 12, 2554 (2021).
论文地址:https://doi.org/10.1038/s41467-021-22851-4
代码地址:https://github.com/klarman-cell-observatory/scPhere
在超球面和双曲空间上的深度生成模型
摘要
单细胞RNA测序(scRNA-seq)对于研究生物系统具有重要价值。降维是解释scRNA-seq数据中细胞之间关系的关键步骤。然而,现有的降维方法常常受到多种技术和生物变异的影响,导致潜在空间中心的细胞“拥挤”,或无法充分捕捉时间关系。在此,我们引入了scPhere,一种可扩展的深度生成模型,将细胞嵌入到低维的超球面或双曲空间中,以准确表示scRNA-seq数据。scPhere解决了多层次、复杂的批次因素,支持大数据集的交互式可视化,缓解了细胞拥挤现象,并揭示了时间轨迹。我们在来自人类患者或动物发育的复杂组织的九个大型数据集中展示了scPhere的应用。结果显示,scPhere通过生成批次不变的嵌入来映射新个体的数据,识别受生物变异影响的细胞类型,推断细胞在预定义生物样本中的空间位置,并突出显示复杂的细胞关系,从而促进了对scRNA-seq数据的解读。
引言
单细胞基因组学,尤其是单细胞RNA测序(scRNA-seq),为全面分析细胞之间的关系,包括其不同类型、状态、生理过渡、分化轨迹和空间位置,开辟了道路。尽管scRNA-seq数据集具有高维特性,但由于许多基因是共表达的,且一些变量(如细胞类型、基因程序或检测到的转录本数量)可以解释数据集中很大一部分变异,其内在维度通常较低。因此,降维和随后的可视化或下游分析已成为单细胞基因组学中探索性数据分析的关键策略。近年来,深度学习模型,特别是(变分)自编码器,在可视化或下游分析(如聚类)之前用于降维,利用其建模大规模高维数据的能力以及在模型框架中灵活整合不同因素(尤其是批次效应)的特点。此外,这些模型能够提供一种端到端的单一分析流程,而传统上需要多个独立步骤和方法,如批次校正、降维和可视化。
然而,标准的变分自编码器(VAE)在建模和分析scRNA-seq数据时存在一些缺陷。首先,它们假设低维潜在变量为多维正态先验,这会将所有细胞的低维表示集中到潜在空间的中心,即使是包含不同细胞类型的数据也如此。尤其当模型训练足够长时间时,后验分布逐渐逼近先验分布,这种“细胞拥挤”问题同样困扰诸如t-SNE等通用数据可视化工具,当处理包含数十万细胞的大型数据集时尤为明显。其次,对于非常稀疏的基于液滴的scRNA-seq数据(典型细胞谱系中超过90%的基因计数为零),使用余弦距离来衡量两个细胞之间的距离存在挑战。余弦距离是将两个细胞向量标准化为单位ℓ2范数后的欧几里得距离,因此细胞位于维度为D-1的单位超球面上,其中D是测量基因的数量。将超球面上分布的数据嵌入到欧几里得空间会引入显著的失真,常用降维工具和标准的变分自编码器都无法有效处理。此外,欧几里得几何并非表示分层、分支发育轨迹的最佳选择。第三,目前在scRNA-seq数据中应用VAE时,通常只能处理单个批次向量,而生物相关数据集通常具有多个技术(如重复实验或研究)和生物学(如患者、组织位置、疾病状态)因素。现有批次校正方法(包括VAE和其他方法)难以有效处理这些复杂的多层次因素,但应对这些因素对跨研究整合、解释复杂组织中各种因素对细胞的影响及构建大规模组织图谱至关重要。
在此,我们提出了基于深度生成模型的细胞嵌入到超球面或双曲空间的替代方法,以更好地捕捉其内在特性,应对复杂批次效应,生成参考模型并进行多样化分析。对于一般scRNA-seq数据,我们通过将细胞嵌入到低维超球面来最小化失真,而非低维欧几里得空间,并使用超球面上的von Mises-Fisher (vMF)分布作为潜在变量的后验分布。由于先验是在单位超球面上的均匀分布,均匀分布在超球面上没有中心点,因此不再强制点在潜在空间中心聚集。对于表示和推断分层、分支发育轨迹,我们将细胞嵌入到洛伦兹模型的双曲空间,并在庞加莱圆盘中可视化嵌入。通过对来自人类和模式生物的九个不同数据集进行测试,我们展示了scPhere在现有关键用例和新兴应用中的卓越表现,包括处理具有复杂多层次批次效应的大型scRNA-seq数据集、可视化复杂组织和发育过程中的细胞谱系、构建批次不变的参考模型以映射新数据、识别受特定生物因素影响的细胞以及将细胞映射到空间位置。总体而言,我们的模型为单细胞基因组学研究提供了增强的表示能力、复杂批次校正、参考生成、可视化和解释工具。
结论
将scRNA-seq数据映射到超球面或双曲潜在空间
我们开发了scPhere(发音为“sphere”),这是一种深度学习方法,用于处理scRNA-seq计数数据和多个已知混杂因素的信息(如批次、条件),并将细胞嵌入到超球面或双曲潜在空间中(图1a,“方法”)。我们认为,scPhere可以更适当地嵌入细胞,因为它们不受限于聚集在中心。在预期具有大量分支结构的情况下,双曲空间尤其合适,因为双曲空间的体积随着半径呈指数增长,足以嵌入具有随深度指数增加节点数的树结构。对于3D可视化,scPhere将细胞置于球体的表面(而非内部),因此只需旋转球体即可观察到所有细胞,避免了探索3D嵌入内部的常见问题。scPhere包使用快速的R包rgl渲染所有3D图,用Web图形库文件进行交互式可视化,这些文件可以在浏览器中打开进行探索。或者,可以基于各种投影方法(如最近的Equal Earth地图投影方法)将3D坐标转换为2D。
具体而言,scPhere接受一个scRNA-seq数据集\( D = \{(x_i, y_i)\}_{i=1}^N \)作为输入,包含N个细胞,其中\( x_i \)是细胞i中D个基因的UMI计数向量,\( y_i \)是指明\( x_i \)所测量的批次的分类向量,并将\( x_i \)的UMI计数分布建模为受低维随机向量\( z_i \)和\( y_i \)控制(图1a,“方法”)。注意,\( y_i \)可以解释多级混杂因素,例如患者、疾病状态和实验室协议。scPhere模型假设低维随机向量\( z_i \)服从一个先验分布,整个模型的联合分布分解为\( p(y_i|\theta_i)p(z_i|\theta_i)p(x_i|y_i, z_i, \theta_i) \),其中\( p(y_i|\theta_i) \)是分类概率质量函数(在本例中为常数,因为\( y_i \)是已知的)。对于超球面潜在空间,scPhere使用超球面上的均匀先验作为\( p(z_i|\theta_i) \);对于双曲潜在空间,使用双曲空间中的包裹正态分布作为先验。对于观察到的原始UMI计数输入,我们假设负二项分布:\( p(x_i|y_i, z_i, \theta_i) = \prod_{j=1}^D \text{NB}(x_{i,j}|\mu_{y_i, z_i}, \sigma_{y_i, z_i}) \),参数由神经网络指定。推断问题是计算后验分布\( p(z_i|y_i, x_i, \theta_i) \),对于超球面潜在空间假设为von Mises–Fisher分布,对于双曲潜在空间为包裹正态分布。由于后验分布的计算不可行,scPhere模型使用变分分布\( q(z_i|y_i, x_i, \phi_i) \)来近似后验(图1a,“方法”)。在使用超球面潜在空间时,首先对\( x_i \)进行对数变换并缩放为单位ℓ2范数以进行推断,否则仅进行对数变换而不缩放。变分分布的参数\( \phi_i \)是\( x_i \)和\( y_i \)的(连续)函数,由参数为\( \phi \)的神经网络进行参数化。作为一种通过小批量随机梯度下降训练的深度学习模型,scPhere特别适合处理具有复杂多级批次效应的大型scRNA-seq数据集,并推动新兴应用(图1b)。详细信息见“方法”部分。
ScPhere 能够在可视化多个细胞类型和层次结构的大型数据集中有效避免细胞拥挤
应用 ScPhere 处理单细胞 RNA 测序(scRNA-seq)数据,证明了其球面潜变量有助于解决细胞在原点聚集的问题,并且在数据探索中提供了卓越的可视化效果,同时易于解释细胞的潜变量后验均值。
为了验证这一点,我们将 ScPhere 应用于人类和小鼠的六个 scRNA-seq 数据集,这些数据集包含从几千到数十万不等的细胞,来源于一个或多个组织,预期细胞类型从少量(两种)到多种(几十种)不等。我们将使用球形潜在空间的 ScPhere 可视化与其采用欧几里得嵌入的变分自编码器(VAE)版本,以及常用于 scRNA-seq 数据的三种主要通用数据可视化工具(t-SNE、UMAP 和 PHATE)进行了比较。小型数据集包括:(1) 一个包含10个红细胞谱系和2293个CD14+单核细胞的数据集;(2) 3314个人肺细胞;(3) 1378个小鼠白色脂肪组织基质细胞;(4) 1755个分为四种亚型的人类脾脏自然杀伤细胞。大型数据集包括:(1) 45个细胞子集中的35,699个小鼠视网膜神经节细胞;(2) 涵盖59个人体组织中102个子集的599,926个细胞的《人类细胞图谱》。
在“较小”数据集中应用具有球形潜在空间的 ScPhere 能轻松区分细胞子集,并且细胞的后验均值通常不会重叠,帮助实现细胞的清晰可辨。在每种情况下,相同类型的细胞在球面上彼此接近,但总体上可以通过肉眼轻易区分开来。相反,使用标准多元正态先验时,潜在变量的后验均值集中在原点,导致拥挤现象。欧几里得空间中,细胞越靠近中心,密度越高,这个问题在 2D 和 3D 中都存在,即便旋转 3D 空间也无法避免。特别是,类似的细胞类型在欧几里得空间中非常接近,稀有细胞类型则成为“异常值”。尽管这些数据集中存在离散细胞类型,ScPhere 的双曲潜在空间也表现良好。总体上,t-SNE、UMAP 和 PHATE 在处理没有批次效应的小型数据集时效果也不错,尽管存在一些小问题,例如 UMAP 将小鼠脂肪双峰与巨噬细胞混合等。
ScPhere 在较大规模的数据集和集群应用中优势尤其显著:小鼠视网膜神经节细胞和《人类细胞图谱》。ScPhere(无论是球形或双曲潜在空间)与 t-SNE 和 UMAP 都能很好地区分单个细胞类型,但 ScPhere 在保留数据的层次全局结构方面表现最佳。例如,视网膜神经节细胞中的 Cartpt-RGC 集群在 ScPhere 嵌入中聚集在一起,但在 t-SNE 和 UMAP 嵌入中分散在不同位置。《人类细胞图谱》中大多数 102 个细胞集群在 ScPhere 嵌入中根据其六个主要细胞组进行组织,但在 t-SNE 和 UMAP 表示中较为分散。ScPhere 在 k-NN 准确性上表现优于其他方法,并且随着数据集规模的增大,t-SNE 和 UMAP 的“拥挤”问题愈加显著,而 ScPhere 因其采用小批量训练,能够高效处理大规模数据。相比之下,嵌入欧几里得空间时效果不如球面潜在空间,且 PHATE 在大规模离散细胞类型数据集上表现不佳。
ScPhere能够有效建模复杂的多层批次效应和其他变量
在实际生物数据集中,单细胞特征通常受到多种因素的影响,包括独立实验中的技术批次效应和不同实验室协议,以及生物因素,如个体间变异、性别、疾病或组织位置。然而,大多数批次校正方法只能处理一个批次变量(在实际中通常是技术批次),在应对当前数据集日益复杂的情况下可能不够理想。ScPhere则可以学习具有多个变量的数据模型。
为了评估其批次校正能力,我们将ScPhere应用于一个先前研究的包含301,749个细胞的数据集,该数据集来自18名溃疡性结肠炎(UC)患者(这是一种主要的炎症性肠病)和12名健康个体的结肠粘膜复杂实验设计。除了每位个体患者的活检为一个批次外,还有许多其他因素:个体健康状态或UC患者的不同状态,细胞分别从每个活检的上皮和固有层中收集,每位健康个体有两个重复活检,而UC患者有一对发炎和未发炎的活检(对少数UC患者,还有重复的发炎和/或未发炎活检)。此外,样本在相隔一年多的两个时间段收集(在原研究中分析为训练和测试数据)。这些因素对细胞特征和数据整合能力产生了显著影响,需要在原研究中进行大量专门和迭代步骤以针对特定数据集进行优化。
我们使用默认参数以单次端到端过程应用ScPhere,进行生物学评估并与三种主流批次校正方法——Harmony、LIGER和Seurat3 CCA进行了性能对比(后两者只能处理一个批次变量,我们选择患者作为批次变量,因为这是常规做法)。使用患者来源作为批次向量分析细胞,不仅重现了初始研究中的主要细胞群,还提供了更精细的细胞关系可视化。例如,在基质和神经胶质细胞中,内皮细胞和微血管细胞相互接近,位于毛细血管后小静脉旁。相比之下,在UMAP图中,内皮和微血管细胞难以区分。
在基质细胞中,细胞的排列反映了它们沿隐窝-绒毛轴的分布,例如从RSPO3+WNT2B+细胞(支持干细胞生态位)到WNT2B+细胞,再到WNT5B+细胞。尤其是UC患者独有的炎症性成纤维细胞可见,并在“隐窝-绒毛轴”范围内分布。ScPhere在该复杂数据集上的批次校正优于Harmony、Seurat3 CCA和LIGER,根据基质、上皮和免疫细胞的分类准确性评估,其表现更佳。
ScPhere能够同时校正多个混杂因素,这在许多其他批次校正方法中并不容易实现。使用患者来源和疾病状态(健康、未发炎、发炎)作为批次向量,ScPhere将炎症成纤维细胞大致与WNT2B+成纤维细胞合并。在分析上皮细胞时,添加解剖区域为批次向量的一部分,细胞按类型聚类,如干细胞与TA2细胞分开,而解剖区域在某些球体区域中组织为两条平行路径。
ScPhere在处理包含大量细胞、细胞类型、多个批次效应和复杂结构的大数据集时表现出色,超过了使用Harmony批次校正加t-SNE或UMAP可视化方法的组合。
ScPhere在极低维度空间中依然保持了scRNA-seq数据的结构
我们系统评估了将scPhere嵌入低维潜在空间的表现,将其k-NN分类准确性与标准正态先验及后验(将细胞嵌入欧几里得潜在空间)进行了比较,同时也与t-SNE、UMAP和PHATE作了比较(每次留出一个患者的细胞进行测试)。我们使用了UC数据集,并对每个主要细胞群体分别进行了测试,标签来自原始研究。对于t-SNE、UMAP和PHATE,我们使用了经过Harmony批次校正的20D或50D主成分(PCs)(因为Harmony可以校正多层次批次效应,并且在此数据集上表现等同或优于LIGER或Seurat3 CCA;参见补充图6–9)。
与欧几里得潜在空间相比,scPhere在仅使用两个维度时表现显著更好,在所有k值上(FDR < 0.05,双尾配对t检验),表明超球面潜在空间引入的变形更少,有利于数据可视化。如预期,k-NN分类准确性随着潜在维度数量的增加而提高。总体而言,scPhere在k-NN准确性或多项逻辑回归分类准确性方面表现得和t-SNE与UMAP一样好,在多层次批次效应情况下表现尤为出色。使用超球面维度为M的潜在空间的scPhere系统性地优于使用欧几里得潜在空间维度为M或M + 1的scPhere(M > 3)。尽管在五个潜在维度下所有方法的k-NN准确性均有所提高,但进一步增加潜在维度并未带来显著改进,甚至在某些情况下准确性反而下降。值得注意的是,即使使用50D潜在空间,Harmony的k-NN准确性也低于scPhere的5D潜在空间,表明scPhere在处理具有多批次效应的scRNA-seq数据时能够捕捉结构。我们在基质细胞和免疫细胞中,以及使用多项逻辑回归替代k-NN准确性时也观察到类似结果。
ScPhere的解码器可以为每个输入细胞输出UMI计数向量,用于表达值的插补和去噪,可通过从负二项分布采样或使用均值来实现。例如,当使用UC数据集中CD8+ T细胞的原始UMI计数数据时,CD8A和CD8B的皮尔逊相关系数仅为0.27,但解码器输出的相关系数为0.81。CD8+ T细胞中未表达的CD4基因在原始数据和解码器输出中均为低表达,表明解码器输出未引入假阳性。
利用scPhere模型查询不同生物因素影响的细胞
接下来,我们使用scPhere校正多层次批次效应的能力,确定受特定生物因素(如疾病)影响最大的细胞类型。我们进行了两种分析。第一种方法基于scPhere生成去噪输出的能力,我们在学习潜在嵌入时提供了疾病(健康、未发炎或发炎)和患者的批次向量,并为来自发炎组织的细胞生成去噪输出,分别使用原始批次向量和将“发炎”批次向量人工设置为“健康”来生成输出。应用于基质和胶质细胞(在5维超球面上),炎性成纤维细胞被发现主要受炎症影响,表现为两个去噪输出之间的低相关性。在第二种方法中,我们使用来自健康和未发炎组织的细胞训练k-NN分类器,以预测发炎组织的细胞类型(在5D超球面潜在空间中)。具有低真阳性率(TPR)的细胞类型更可能受疾病(炎症)影响。确实,炎性成纤维细胞与其他细胞类型相比的TPR非常低(约20%),大多数被错误分类为WNT2B+成纤维细胞,约10%被分类为WNT5B+成纤维细胞,帮助评估其可能的起源。如果仅考虑在患者是唯一批次向量的scPhere分析中被正确分类的高置信细胞,结果一致。
批次不变的 scPhere 构建了用于未见数据注释的图谱
作为参数模型,我们可以训练 scPhere 将未见(测试)数据与仅从训练数据学习的潜在空间共同嵌入。为了验证这一点,我们首先进行了一次十折交叉验证分析,将结肠成纤维细胞和胶质细胞分为十个大致相等的子样本,保留一个子样本作为样本外评估数据,其余九个子样本作为训练数据,用于选择可变基因并学习不同的 scPhere 模型以在 5D 超球体上嵌入细胞。然后,我们在训练数据的 5D 表示上训练 k-NN 分类器,并使用 k-NN 分类器对样本外评估数据的 5D 表示进行分类。我们重复此过程十次,每个子样本作为样本外验证数据使用一次。k-NN 分类器的中位准确率为 0.834-0.853(k = 5 或 65,分别见补充图 11d)。相比之下,当我们重复此过程但使用所有成纤维细胞和胶质细胞的预计算 5D 表示时,准确率相似(0.847-0.860,最低双尾 Wilcoxon 符号秩检验 FDR = 0.036,对于两个 k 的情况,FDR > 0.05,补充图 11d)。
接下来,我们使用 scPhere 将未见患者的细胞进行映射,这是整合多项研究的关键用例。我们训练了一个“批次不变”的 scPhere 模型(“方法”),输入为细胞的基因表达向量(未使用批次向量,批次向量仅在 scPhere 的解码器部分使用,以保留其批次校正功能),并将其映射到 5D 超球体潜在空间。作为测试案例,我们对 UC 数据集中 18 名患者的训练数据(如原始研究44 所示)学习了一个批次不变的 scPhere 模型,并用于映射 12 名患者的测试数据。测试数据和训练数据之间存在多个技术差异(收集时间相差近 2 年,所有测试细胞库使用 10× Chromium v2 化学技术,18 名训练患者中有 15 名使用 10× Chromium v1;所有测试数据使用 NextSeq 测序,但 18 名训练患者中有 3 名使用 HiSeq)。然后,我们在训练数据的 5D 表示上训练 k-NN 分类器(k = 25)(使用原始研究33 的标签)并将其应用于测试数据的 5D 表示。scPhere 对测试数据的映射非常成功(图 4d-f),准确率与将该过程应用于所有细胞的表示(所有 30 名患者)时相似。具体来说,批次不变 scPhere 的准确率分别为 0.79、0.83 和 0.82,而训练于完整数据集的模型分别为 0.80、0.87 和 0.80(图 4g)。
在 scPhere 嵌入后对细胞进行聚类
为了展示 scPhere 对聚类分析的影响,我们使用 Louvain 算法45,46 对细胞嵌入的表面进行聚类(5D 超球体)。结果与分类分析一致(图 3d-f),纠正了区域、疾病和患者的影响后,一些具有非常相似分子特征但偏好不同区域或疾病的免疫细胞被合并到一个簇中。罕见的细胞类型在低维空间中也很明显,包括在原始分析中被忽略的细胞,如血小板的小簇等。UMAP、PHATE 和具有正态潜变量的 scPhere(均为 5D)在某些情况下表现不如 scPhere,这通过生物学检查以及标准化互信息(NMI)和调整兰德指数(ARI)进行了验证。
推断细胞的空间位置通过在球面上嵌入细胞
scPhere 模型灵活且可扩展到其他应用,包括在具有适当结构的组织中推断细胞的空间位置。为此,我们专注于 50% 原肠胚期的斑马鱼胚胎细胞,这些细胞分布在半球(或由于细胞分布的对称性,为四分之一球)表面,并沿背腹轴(从右到左)和边缘-动物轴(从下到上)存在基因表达梯度(图 5a),以及其他点状或盐和胡椒模式的表达分布。
为了将细胞映射到四分之一球,我们强制 3D 坐标的两个分量为正数,并增强了 scPhere 目标函数以结合标记基因的信息(图 1b,“方法”),从而鼓励表达给定标记基因的细胞映射到四分之一球中该基因标注表达的区域(在 8 × 8 网格上)。具体来说,对于表达标记基因并映射到四分之一球的细胞,此修改过程会计算其位置与网格上标注的表达图之间的距离,并最小化最小距离。在 mini-batch 训练中,我们计算所有标记基因的最小距离之和。最终目标函数是原始 scPhere 目标函数加上所有细胞的最小距离总和的平均值和 mini-batch 训练中所有距离的总和。重要的是,即使这些标记本身不是单细胞分辨率测量的,scPhere 也仅将其用作弱监督,并直接在球面上连续映射细胞,而不是分箱。
此简单修改使得 scPhere 能够成功地进行细胞空间映射。我们使用仅 1406 个斑马鱼胚胎细胞和 11 个标记基因进行了 scPhere 训练(图 5a,“方法”),这些标记基因分布在腹侧、动物腹侧、背侧、动物背侧和边缘区域(但不包括动物区域)在四分之一球的 8 × 8 网格上。腹侧标记基因 cdx4、背侧标记基因 gsc 和边缘标记基因 osr1 在预期区域内表达(图 5b),即使没有使用任何动物标记基因进行训练,动物标记基因 sox3 也在预期区域表达(图 5b)。
将细胞映射到四分之一球后,我们计算了空间基因表达模式(图 5c),结果与预期模式一致(图 5a)。然后,我们使用训练好的 scPhere 模型映射了来自另外三个批次的 3820 个细胞(图 5d),获得了稳定的空间模式(图 5b)。最后,通过映射的细胞,我们能够正确预测训练中未包含的基因的模式,包括“盐和胡椒”模式和随机稀疏模式的“凋亡样”细胞(补充图 14)。值得注意的是,该映射方法可通过将平面上分布的细胞转换为复杂形状扩展到非球形结构(见“讨论”)。
将细胞嵌入双曲空间以发现和解释发育轨迹
当细胞显示出发育轨迹,例如从成体干细胞到分化细胞时,scPhere 可以将其嵌入洛伦兹模型的双曲空间,并可选择将洛伦兹模型中的坐标转换为庞加莱圆盘以进行二维可视化。此外,如果将发育过程中预期的根细胞定位在庞加莱圆盘的中心,那么每个细胞与中心的距离可以被视为伪时间。对于特定的细胞类型,可以在庞加莱圆盘中看到细胞以连
续的距离和角度前进。我们还可以在训练过程中鼓励将已知的根细胞映射到洛伦兹模型的原点。
首先将其应用于结肠上皮细胞时,我们在庞加莱圆盘(图 6a)中清晰地识别出从肠道干细胞到终末分化细胞的发育顺序,干细胞位于圆盘中心以便于直观解释,或在洛伦兹模型中(补充图 15a);两个主要的细胞发育轨迹清晰可见(图 6a,不同类型细胞的中位坐标连接的箭头),M 细胞和 Best+ 吸收细胞彼此靠近。使用洛伦兹模型中细胞的 5D 表征作为输入的 PHATE 可视化重现了 2D 表征的结果(补充图 15b)。相比之下,当在欧几里得空间中嵌入细胞时,发育轨迹不太明显(图 6b),或使用 PHATE 多维缩放在欧几里得空间中嵌入的 5D 表征时,两个主要发育分支的细胞彼此靠近(补充图 15c)。t-SNE、UMAP 和 PHATE 的二维可视化效果合理(补充图 15d–f),尽管 t-SNE 存在一些小的虚假聚类,UMAP 中的循环增殖祖细胞在干细胞和分泌性祖细胞之间呈现中间状态(可以直接分化),PHATE 中某些细胞类型融合(如 M 细胞和 TA2 细胞、绒毛和肠内分泌细胞)。
接下来,我们分析了 86,024 个秀丽隐杆线虫的胚胎细胞,这些细胞在每个胚胎第一次分裂后的时间序列上从 <100 分钟到 >650 分钟采集,发现细胞在潜在空间中按时间和谱系整齐排序,从庞加莱圆盘中心的清晰可辨的根细胞(100–130 分钟时的细胞,<100 分钟的细胞大多是未受精的生殖细胞,“方法”)到圆盘边缘附近的 >650 分钟的细胞(图 6c, d 和补充图 16)或洛伦兹模型中的远离原点(补充图 17a, b)。在同一细胞类型中,细胞按胚胎时间在庞加莱圆盘(图 6d)或洛伦兹模型(补充图 17a, b)中排序。沿发育轨迹首次出现后,同类型的细胞随着胚胎时间的推移前进,形成占据一定角度范围的连续轨迹。例如,体壁肌肉细胞(BWM,该数据集中最丰富的细胞类型,补充图 16)首次出现在胚胎时间 130–170 分钟,在庞加莱圆盘的左下方可分离的位置(图 6e),然后在时间上连续前进到圆盘的右下方,但以与胚胎时间对齐的方式(即从 170–210 到 >650),并按谱系(即从第一排和第二排 BWM(MS 谱系)到前方(MS 到 D 谱系),再到后方 BWM(C 谱系))。此外,不同的细胞类型(如有纤毛的嗅觉神经元、非嗅觉神经元、表皮、G2 和 W 母细胞、缝合细胞、体壁肌肉)在略微不同的胚胎时间点出现,起点位于同一区域附近,随着胚胎时间推进,以类似方式形成连续轨迹,但角度和/或距离中心范围不同(图 6d,箭头)。因此,细胞到原点的距离与胚胎时间呈相关关系(皮尔逊相关系数=0.55,补充图 17d)。对于一些较稀有、在发育轨迹中出现相对较晚的细胞类型,如体腔细胞(出现在 270–330 分钟),其与原点的距离可能与胚胎时间呈负相关,重新调整其嵌入可以帮助“局部”解释其轨迹。
这些模式在 UMAP、t-SNE 或 PHATE 中较难辨别(图 6e, f,输入为通过 Harmony 校正的 50 个主成分;补充图 18a, b 和 19),其中连续时间点的细胞被压缩,早期出现的细胞在嵌入中相互较远,时间进程未在同一方向上。此外,当我们通过比较 k 近邻时间点分类准确性(十折交叉验证分析)来量化时间连续性时,scPhere(2D)的准确性高于 t-SNE、UMAP 和 PHATE(2D,补充图 18c)。因此,具有双曲潜在空间的 scPhere 模型学习了平滑(按时间)且可解释的细胞轨迹,有助于表示发育及其他时间过程。
讨论
我们介绍了 scPhere,一种深度生成模型,用于将单个细胞嵌入到超球面或超几何空间中,以增强单细胞研究中的数据探索性分析和可视化,尤其适用于具有复杂多层次批次因素的情况。scPhere 提供了更容易解释的表示,并避免了遮挡问题,正如我们在多个系统中的演示所展示的那样;当将细胞嵌入到超几何空间时,它有助于研究发育轨迹。在这种情况下,除了提供比最先进的方法更具吸引力的可视化外,通过将根细胞置于 Poincaré 磁盘的中心,我们推导出了细胞类型随距离和角度在 Poincaré 磁盘中连续发展的模式。
scPhere 的一个主要优势是能够有效处理多层次复杂的批次效应,我们展示了它如何解开细胞类型与患者、疾病和位置变量之间的关系。我们可以通过几种方式利用这一能力:在控制一个或多个因素的同时,进行细胞可视化和聚类,并检查它们的任何组合因素的影响;研究哪些细胞类型受到某个因素(如疾病状态或位置)的影响最大;或者生成批次不变的参考嵌入,将来自新个体、样本或条件的额外数据映射到这些嵌入中。在本研究中,我们将负二项分布的离散参数作为细胞计数向量的函数进行了参数化。我们可以将离散参数设定为固定值,并为某些任务直接优化它们(而不是作为细胞计数向量的函数)。scPhere 处理复杂批次因素的能力使其在批次修正方法(如 SAUCIE、scVI、LIGER、Seurat3 CCA、fastMNN、Scanorama 和 Conos 等)中具有优势,这些方法只能处理单一批次向量。事实上,在我们对 IBD 细胞进行基准测试时,包含 30 名患者、三种疾病状态和两种空间位置,scPhere 的表现优于最先进的批次修正方法,如 Harmony、Seurat3 CCA 和 LIGER。未来,我们可以利用监督信息进一步估计来自批次的细胞对齐的不确定性。此外,作为一种参数化模型,scPhere 可以自然地将未见过的(测试)数据嵌入到仅通过训练数据学习的潜在空间中,并成功去噪表达数据。
scPhere 对于分析大型 scRNA-seq 数据集特别有用:它高效,因为它的计算随着输入细胞数量的增加而线性增长;即使在大量输入细胞的情况下,它也不会遭遇“细胞拥挤”问题;并且比竞争方法更好地保留了数据中的层次结构和全局结构。最后,通过学习一个“批次不变”的编码器,该编码器以基因表达作为输入,学习潜在的嵌入,形成一个参考,来标注未来研究中新的剖析细胞。这是相比于 t-SNE、UMAP 和 Poincaré 地图等非参数方法的另一个主要优势,因为这些方法没有自然的方式来嵌入新数据,尤其是在批次效应存在的情况下,且存在可扩展性问题。这些特性使得 scPhere 非常适合用于构建综合参考图的挑战,例如在人类细胞图谱和人类肿瘤图谱网络等健康研究中。
scPhere 模型对超参数具有鲁棒性。在本研究中,我们对九个数据集(细胞数量从约 1000 到超过 30万不等)进行了相同的 scPhere 分析,而一些先前的研究显示,经典变分自编码器对超参数比较敏感。scPhere 的鲁棒性可能来自于负二项分布在建模 UMI 计数时的稳健性,或者来自于使用非欧几里得潜在空间来帮助解决潜在空间中的细胞拥挤问题。
我们展示了 scPhere 的一个关键扩展,即将其修改为空间映射细胞。作为我们的第一个例子,我们将斑马鱼胚胎细胞映射到四分之一球面上,以推断组织中细胞的空间位置,因为在这个发育阶段,球面是一个合适的模型。我们提供的唯一额外输入是一些标志基因的空间表达模式(按区间划分)。生成的模型保持了 scPhere 的可扩展性和参数化特性,允许映射新细胞。重要的是,这种方法可以很容易地扩展到其他具有复杂非球形形状的组织(如小鼠海马),通过将分布在平面上的细胞变换为这些复杂形状,使用如归一化流等方法。我们对空间映射的处理方法与其他方法不同,因为我们使用物理空间的全局形状作为约束,而大多数方法根本不考虑这一点,而那些考虑这一点的方法(如 novoSPARC)仅仅纳入了连续性假设,这无法捕捉许多空间模式。
scPhere 可以通过多种方式扩展。当可用某些分析细胞的细胞类型注释或细胞类型标志基因时,我们可以加入半监督学习来注释细胞类型。尽管 scPhere 显示出有希望的去噪效果,但还需要进一步研究它在推测 scRNA-seq 数据中缺失计数和去除环境 RNA 污染方面的能力。随着空间转录组学、单细胞 ATAC-seq 和其他补充测量技术的快速发展,scPhere 可以扩展用于多模态数据的集成分析。我们还可以学习离散的层次树来更好地解释发育轨迹,使用更复杂的拓扑潜在空间(如采用扩散变分自编码器的圆环形拓扑)甚至使用混合曲率变分自编码器来学习最佳潜在空间。未来的研究还可以扩展 scPhere 以建模干扰数据。此外,目前处理分布在超几何空间中的数据的工具(如高效的 k-NN 搜索工具)还不多,未来的研究可以解决这一空白。考虑到其广泛性、灵活性和可扩展性,我们预见到 scPhere 将成为大规模单细胞和空间基因组学研究中的一个宝贵工具。
论文中的模型图和实验图都很漂亮!
标签:hyperspheres,scPhere,Seq,hyperbolic,批次,细胞,嵌入,空间,数据 From: https://blog.csdn.net/dundunmm/article/details/143861960