单细胞转录组已在生物学研究中广泛应用,但仅靠此技术无法全面反映细胞核内的染色质状态及其调控机制。为此,单细胞ATAC测序技术应运而生,它能在单细胞水平上揭示染色质的可及性,提供基因调控元件活性的重要信息。将单细胞ATAC与单细胞转录组相结合,能综合解读基因表达调控,解析细胞分化的动态过程,鉴定新的细胞亚群和功能状态,研究疾病相关基因变异的影响,并提高数据分析的准确性。这种多组学的整合分析在免疫学、发育生物学、神经科学及肿瘤研究等领域展现出强大的应用潜力,为我们深入理解生命活动提供了全新的视角和工具。
今天,我们将介绍单细胞ATAC和单细胞转录组联合分析的主要内容和优势。
1. 细胞注释更精准、更全面
单细胞转录组测序通过分析基因表达水平来识别和注释不同的细胞亚群,而单细胞ATAC测序则通过检测染色质的开放状态来揭示基因调控元件及其活性,进而辅助细胞亚群的注释。联合这两种技术,能够综合利用基因表达和染色质开放性两方面的信息,实现更精准和全面的细胞亚群注释。
下图展示了利用Seurat联合分析的步骤和方法。图A和图B展示了比较参考集和查询集的数据分布,采用了典型相关分析(Canonical Correlation Analysis)和L2范数。图C展示了如何识别参考集和查询集之间的“锚点”(anchors),这些锚点用于对齐两个数据集。图D显示了高得分和低得分的对应关系,其中高得分表示锚点在局部邻域内的一致性,而低得分表示不一致性。图E则展示了不同细胞类型在参考集和查询集中的分布。整体而言,这些图表展示了如何通过联合分析对齐和比较不同数据集,从而揭示它们的相似性和差异性。
图1 单细胞转录组和单细胞ATAC的“锚点”联合
2. 基因表达和染色质可及性相互印证
通过计算单细胞ATAC-seq和单细胞转录组(scRNA-seq)数据的相关性,利用Pearson相关性系数来评估每个样本中两组学数据的相关性强弱。scATAC-seq数据用于量化每个细胞中基因的开放性,方法是通过测量基因及其上游2kb内的peak丰度。基因开放性越高,表明该基因越有可能受到转录因子的调控或与RNA聚合酶结合。进一步分析,我们计算了每个样本的平均基因开放性(来自scATAC-seq)和平均基因表达量(来自scRNA-seq),并进行了相关性分析。结果显示,散点图中数据点呈现出明显的正相关趋势,大多数数据点集中在图的中心区域,且一个轴的值增加时另一个轴的值也趋于于增加。这种分布模式表明基因的平均表达量和平均开放性之间存在较强的正相关关系。
图2 皮尔逊系数计算单细胞转录组和单细胞ATAC的相关性
开放染色质区域与基因表达之间存在正相关关系,这是因为开放染色质区域更容易被转录因子和其他调控蛋白接触,从而促进基因的表达。染色质的开放性为转录、DNA修复和复制等过程提供支架,并在细胞分化、重编程和疾病发育等生理过程伴随着动态的染色质开放性变化。远端和近端染色质开放区域都有可能调控下游的基因表达,这些开放区域可能包含增强子或其他调控元件,它们通过染色质的三维结构与基因相互作用,影响基因的表达。基因组开放性变化的区域可能与特定的转录因子结合,这些转录因子通过识别DNA上的特定序列并结合到开放染色质区域,调控基因表达。
图3 染色质开放性和基因表达的关系
3. 探究染色质可及性对基因表达的调控机制
我们以一个经典的10xGenomics官方的案例来说明。
LEF1的全局可视化展示了7273个PBMC核在1Mb窗口内的开放染色质峰(图4),这些峰与LEF1基因表达正相关(蓝色弧)或负相关(红色弧)。LEF1的表达水平和开放染色质峰通过细胞类型进行颜色编码。LEF1的细胞类型特异性表达与位于LEF1启动子附近的连接开放染色质区域相关,这些区域在T细胞中特异性富集(蓝框)。LEF1低表达的细胞,如单核细胞和髓系树突状细胞,每个细胞在几百个碱基外都有一个开放的染色质区域,可能是抑制性的(红框)。
图4 LEF1染色质开放和基因表达关系
4. 探究转录调控的动态发生机制
通过分析染色质开放区域(peaks),我们能够识别并筛选出核心基因,包括核心转录因子和靶基因,这些转录因子能够结合到染色质开放区域,并调控下游的靶基因,从而形成调控网络。此外,利用UMAP图可视化核心基因及其关联的peaks,如果转录因子、peaks和靶基因在UMAP图上分布一致,表明它们可能存在调控关系,便于后续实验验证。最终,基于核心基因间的调控关系,我们可以构建网络图来直观展示这些关系,从而更清晰地理解基因调控网络的结构和功能。
图5 核心转录因子和靶基因的调控关系
5. 拟时序分析
拟时序分析是一种集成转录组学和表观基因组学数据的先进生物信息学技术,用于追踪细胞在发育、分化和疾病进程中的动态变化。该分析始于单细胞数据的质量控制、标准化和降维,确保数据的准确性和可比性。随后,应用Monocle、Slingshot或ArchR等算法,根据基因表达变化对细胞进行排序,构建细胞状态变化的轨迹,并识别细胞分化的分支点。通过功能富集分析,研究者可以探究在拟时序过程中表达显著变化的基因,了解它们在细胞分化或发育中的作用。
利用UMAP图、热图、气泡图和折线图等可视化工具,研究者直观展示细胞转录组特征、基因表达水平、功能分析结果及基因表达变化。AUCell工具进一步对亚群的regulons进行打分,通过非线性拟合每个细胞与拟时间轴的打分,深入分析regulons的表达模式,挑选出表达变化显著的regulons进行发育调控研究。这种方法不仅帮助研究者追踪发育过程中regulons的动态变化,而且为理解细胞分化、重编程和疾病发展提供了新的视角。如下图展示的是人类精原细胞的分化过程。
图6 拟时序分析
6. SCENIC+分析
SCENIC+是一种用于推断单细胞水平上增强子驱动基因调控网络(eGRNs)的计算框架。它整合了区域可访问性、转录因子(TF)、目标基因表达和顺反子(cistromes),以推断eGRNs,其中TFs与其目标区域相连,这些区域又与其目标基因相连。SCENIC+的工作流程包括以下几个步骤:
① 使用pycisTopic对单细胞染色质可及性(scATAC-seq)数据进行分析,推断主题和差异可访问区域(DARs),并通过pycisTarget转化为直接结合区域的顺反子,识别显著富集调节器结合基序的模块。
② SCENIC+通过比较不同主题模型的运行时间,评估Collapsed Gibbs Sampling或WarpLDA与pycisTopic和MALLET的参数优化效果。
③ SCENIC+还通过计算基于STARR-seq信号的前10%排名的恢复曲线下面积(AUC),评估了Signac、pycisTopic和ArchR识别的DARs,以及pycisTopic识别的细胞系特异性主题区域的增强子恢复能力。
④ SCENIC+的基序数据库构建流程包括从29个基序集合中收集34,524个独特基序,并通过两步策略进行聚类。使用隐马尔可夫模型(HMMs)对输入区域进行评分,其中每个基序簇的基序都用作隐藏状态。
⑤ SCENIC+基序集合中,根据直接证据或同源性注释的TF数量,以及从309个ENCODE ChIP-seq数据集中使用不同数据库和基序富集方法(如Homer、pycisTarget和DEM)恢复TF的能力,展示了SCENIC+在转录因子预测方面的性能。
图7 SCENIC+分析流程
单细胞转录组和单细胞ATAC测序的联合分析提供了一种全面的方法来研究细胞异质性和基因调控。通过整合基因表达和染色质开放性的数据,可以更精准地注释细胞亚群,并探索二者之间的正相关关系,这种相关性揭示了染色质开放区域如何促进转录因子的结合和基因表达。利用UMAP图和网络图,研究者可以可视化核心转录因子和靶基因之间的调控关系,从而深入理解基因调控网络的结构和功能。此外,拟时序分析允许研究者在发育过程中追踪regulons的动态变化,而SCENIC+分析则进一步推断单细胞水平上的增强子驱动基因调控网络。SCENIC+通过pycisTopic和pycisTarget等工具,整合区域可访问性、转录因子和目标基因表达,以及顺反子信息,构建了一个强大的框架来研究基因调控。通过这种方法,研究者能够识别和预测转录因子与其靶基因之间的相互作用,为理解细胞分化、重编程和疾病发展提供了新的视角。
如果您计划开展单细胞的科研项目,欢迎联系我们~
关于我们
武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,是一家专业提供表观组学科研服务、单细胞与空间组学测序分析和高通量测序分析的新型生物科技服务企业。公司先后引入ChIP、WGBS、ATAC-seq、DNBSEQ-T7、10x Genomics、SeekOne® DD、DNBelabC-TaiM4和Stereo-seq等实验平台,不断提升公司的科研服务能力。
运营至今合作的科研客户超2000家,涵盖国内知名科研院所、高校以及相关生物企业,科研成果曾多次在Science、Cancer Cell、Nature Communications、J HEMATOL ONCOL、Plant Cell 等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。
标签:表达,调控,染色质,ATAC,基因,转录,单细胞 From: https://blog.csdn.net/Igenebook/article/details/144446166