单细胞测序 Trajectory analysis 轨迹推断
细胞多样性不能通过离散的分类系统(例如细胞聚类)充分描述。观察到的细胞异质性发展的生物进程是一个连续过程(Tanay&Regev,2017)。因此,为了捕获细胞身份之间的过渡状态、不同的分化分支或生物学功能的渐进式非同步变化,我们需要动态的基因表达模型。这类方法称为轨迹推断(trajectory inference,TI)。
轨迹推断方法将单细胞数据视为连续过程的一个个快照。这一过程通过最小化相邻细胞之间的转录改变构建细胞空间的转换路径。这些路径上的细胞排序由伪时间变量 (pseudotime variable)描述。虽然此变量是基于距离根细胞的转录距离计算的,但通常被解释为发育时间的代名词(Moignard et al.,2015; Haghverdi et al.,2016; Fischer et al.,2018; Griffiths et al.,2018)。
自Monocle(Trapnell et al. 2014)和Wanderlust(Bendall et al. 2014)建立了TI (trajectory inference)领域以来,可用的TI方法数量激增。当前可用的TI方法的差别在于构建的发育轨迹模型拓扑结构复杂性不同,从简单的线性轨迹或二分支轨迹到复杂树形轨迹、多分支轨迹或组合多种拓扑结构轨迹。在最近对TI方法进行的全面比较中(Saelens et al.,2018)发现没有一种单独的方法可以在所有类型的轨迹分析中都表现最优 (NBT|45种单细胞轨迹推断方法比较,110个实际数据集和229个合成数据集)。相反,应根据预期轨迹的复杂性选择TI(轨迹分析)方法,研究比较表明Slingshot(Street et al.,2018)在简单轨迹分析如从线性轨迹到二分支和多分轨迹表现最佳。如果预期数据对应更复杂的轨迹,作者建议使用PAGA(Wolf et al.,2019)。如果知道精确的轨迹模型,则可以选择使用更特定的方法来提高性能(Saelenset al.,2018)。通常,应使用多种方法来确定评估推断出的轨迹,以避免方法偏差。
在典型的分析流程中,轨迹推断(TI)方法应用于降维后的数据。如果使用的TI工具自带了降维功能,则基于校正后的数据进行分析。由于通常在细胞内同时发生多种生物学过程,因此消除其他生物过程的影响对鉴定预期轨迹可能很有用。例如,T细胞在成熟过程中可能会经历细胞周期转换(Buettner et al.,2015)。此外,由于几种性能最好的TI方法依赖于聚类后的数据,因此TI通常在聚类之后执行。轨迹中的细胞簇可能表示稳态或亚稳态细胞。随后,可以将RNA velocities (RNA速度,或RNA表达动力学)叠加到轨迹上确认发育方向(La Manno et al.,2018)。(注:新生转录本成熟过程中需要进行剪接操作。对于一个稳定表达的基因,总会在细胞中找到存在一定比例的未剪接的非成熟RNA形式,用于补充老的转录本的降解。如果一个基因刚被激活,短时间内将会有高比例的未成熟转录本。相反,当一个基因被抑制时,转录过程会早于转录本降解过程而被抑制,未成熟转录本的比例会降低。因此对于细胞中每个基因,未剪接的mRNA相对于剪接的mRNA的比例(RNA velocity)可以推断瞬时表达动力学,进一步推演组织内发生的细胞转变。https://www.nature.com/articles/d41586-018-05882-8)
推断的轨迹不一定要完全对应生物发育过程。首先,推断的轨迹仅表示转录相似性。很少有TI方法在其模型中包括不确定性评估(Griffiths et al., 2018)。因此,需要更多的信息来验证是否确实捕获了生物过程。这些信息可以来源于干扰实验、推断的调控基因动力学以及RNA velocity数据的支持等。
陷阱和建议:
建议使用Saelens et al.(2018)的综述(NBT|45种单细胞轨迹推断方法比较,110个实际数据集和229个合成数据集)作为指南 。
推断的轨迹不需要完全对应生物过程,应该收集更多的证据来解释轨迹。
https://www.embopress.org/doi/full/10.15252/msb.20188746
http://blog.sciencenet.cn/blog-118204-1220240.html