RNA-seq 详细教程：分析流程介绍（1）

标签：教程读数每个 seq RNA 测序片段 cDNA

学习目标

了解从 RNA 提取到获取基因表达矩阵，既RNA-seq 分析的整个流程。

1. workflow

进行差异表达基因分析的前提是，获取代表基因表达水平的矩阵。因此在进行分析前，必须知道基因表达矩阵是如何产生的。

在本教程中，将会简要的介绍从原始测序读数到基因表达计数矩阵过程中，所采取的不同步骤。下图是整个分析过程的流程图。

RNA-seq workflow

2. RNA提取与文库制备

在对 RNA 进行测序前，必须从细胞环境中提取和分离出 RNA 制备成 cDNA 文库。下面将介绍涉及的许多步骤，其中还包括了质量检查，以确保获取高质量的 RNA。

2.1. RNA富集

一旦使用 DNAse 处理（去除 DNA 序列）后，样本就会经历 mRNA 的富集（polyA 富集）或 rRNA 的去除。

通常，核糖体 RNA代表细胞中存在的大部分 RNA，而 mRNA （信使RNA）代表一小部分，在人类中约为 2%。因此，如果我们想要研究蛋白编码基因，就必须富集 mRNA 或去除 rRNA。对于差异基因表达分析，最好对 Poly(A)+ 进行富集，除非目标是获取有关长链非编码 RNA 的信息，在这种情况下建议去除核糖体 RNA 。

RNA 质量检查

在开始 cDNA 文库制备之前，必须检查提取的 RNA 的完整性。传统上，通过查看核糖体 RNA 条带，通过凝胶电泳评估 RNA 的完整性；但这种方法既费时又不精确。已有的生物分析仪系统可以快速评估 RNA 完整性并计算 RNA 完整性值 (RIN)，这有助于 RNA 质量的解释和重复。从本质上讲，RIN 提供了一种方法，可以以标准化的方式相互比较来自不同样本的 RNA 质量。

2.2. 碎片化

将剩余的 RNA 分子片段化（打断）。这是通过化学、酶促（例如 RNA 酶）或物理过程（例如机械剪切）完成的。然后对这些片段进行大小选择，仅保留 Illumina 测序仪最佳处理范围内的那些片段，即 150 到 300 bp 之间。

片段质量检查

在进行片段选择后，应评估片段大小分布，确保它的分布是单峰的。

2.3. 反转录

可以通过创建 strand library 来保存有关片段源自哪条链的信息。最常用的方法是在第二条 cDNA 链的合成过程中加入 deoxy-UTP。一旦生成双链 cDNA 片段，序列接头就会连接到末端。（也可以在此步后进行片段大小选择）

2.4. PCR扩增

如果起始材料的量很低或要将 cDNA 分子的数量增加到足以进行测序的量，通常会对文库进行 PCR 扩增。尽可能少的进行扩增循环以，避免 PCR 扩展产生的技术影响。

Zeng and Mortavi, 2012

3. 测序

cDNA 文库的测序将生成 reads （读数）。读数对应于文库中每个 cDNA 片段末端的核苷酸序列。可以选择对 cDNA 片段的单端（单端读取）或片段的两端（双端读取）进行测序。

Sequencing

SE ：单端数据 > 只有 Read1
PE：双端数据 > Read1 + Read2
- 结果可以是2个单独的 Fastq 文件，或者一个文件（包含两者）。

通常，单端测序就足够了，除非预期读数将匹配基因组上的多个位置（例如具有许多旁系同源基因的生物）、正在执行组装或用于可变剪切分析。请注意，双端通常要贵 2 倍。

3.1. 边合成边测序

Illumina 测序技术采用边合成边测序的方法。要更深入地探索边合成边测序，请观看Youtube channel。

Sequencing-by-synthesis

下面对此步骤进行了简要说明：

Cluster growth（成簇扩增）

cDNA 文库中的 DNA 片段变性并与流通池杂交。然后每个片段被克隆扩增，形成一个双链 DNA 簇。此步骤以确保测序信号足够强，能明确检测每个片段的每个碱基。

Number of clusters ~= Number of reads

Sequencing（测序）

片段末端的测序是基于带有可逆终止子元素的荧光团标记的 dNTP。在每个测序循环中，一个碱基被整合到每个簇中并激发荧光。

Image acquisition（图像采集）

每个 dNTP 都有一个独特的信号，由相机捕获。

Base calling

然后，Base calling 程序将通过评估在许多测序周期中捕获的图像，为每个片段生成碱基序列，即读数。还将记录它的质量信息。

Number of sequencing cycles = Length of reads

4. 质控

从测序仪获得的原始读数存储为 FASTQ 文件。FASTQ 文件格式是下一代测序技术生成的序列读取的文件格式。

每个 FASTQ 文件都是一个文本文件，表示样本的序列读数。每个读取由 4 行表示，如下所示：

@HWI-ST330:304:H045HADXX:1:1101:1111:61397
CACTTGTAAGGGCAGGCCCCCTTCACCCTCCCGCTCCTGGGGGANNNNNNNNNNANNNCGAGGCCCTGGGGTAGAGGGNNNNNNNNNNNNNNGATCTTGG
+
@?@DDDDDDHHH?GH:?FCBGGB@C?DBEGIIIIAEF;FCGGI#########################################################

行	意义
1	始终以“@”开头，是有关读取的信息
2	实际的DNA序列
3	始终以“+”开头，有时与第 1 行中的信息相同
4	有一串代表质量分数的字符；必须具有与第 2 行相同的字符长度

FastQC 是常用的软件，它提供了一种对原始序列数据进行质量控制检查的简单方法。

主要功能包括：

提供快速概览，告诉您哪些区域可能存在问题
汇总图形和表格以快速评估您的数据
将结果导出为基于 HTML 的报告

5. 定量

一旦我们探索了原始读数的质量，就可以继续在转录水平上量化表达。此步骤的目标是确定每个读数来自哪个转录本以及与每个转录本相关的读数总数。

已发现对于分析中的此步骤最准确的工具称为轻量级比对工具，其中包括：

以上工具的工作方式都略有不同。然而，共同点是它们避免了读取的碱基到碱基基因组比对（base-to-base genomic alignment of the reads）。基因组比对是由旧的比对工具（如 STAR 和 HISAT2）执行的一个步骤。与这些工具相比，轻量级比对工具不仅可以更快地提供量化估计（通常快 20 倍以上），而且还有了准确性的提高。

本教程将使用从 Salmon 获得的表达估计值（通常称为“伪计数”）作为差异基因表达分析的起点。

Salmon

6. 比对后质控

如上所述，差异基因表达分析将使用 Salmon 生成的转录本/基因伪计数。然而，要对测序数据进行一些基本的质量检查，将读数与整个基因组进行比对非常重要。STAR 或 HiSAT2 都能够执行此步骤并生成可用于 QC 的 BAM 文件。

Qualimap 工具在它们映射到的基因组区域的上下文中探索对齐读取的特征，从而提供数据质量的整体视图（作为 HTML 文件）。 Qualimap 评估的各种质量指标包括：

DNA 或 rRNA 污染
5’-3’ 偏差
覆盖偏差

7. 质控整合

在整个工作流程中，我们对数据执行了各种质量检查步骤。您需要对数据集中的每个样本执行此操作，确保这些指标在给定实验的样本中保持一致。应标记离群样本以供进一步调查或移除。

手动跟踪这些指标并浏览每个样本的多个 HTML 报告（FastQC、Qualimap）和日志文件（Salmon、STAR）既乏味又容易出错。MultiQC ，可聚合来自多个工具的结果并生成带有图表的单个 HTML 报告，以可视化和比较样品之间的各种 QC 指标。如有必要，对 QC指标的评估可能会导致在继续下一步之前移除样本。

一旦对所有样本执行了 QC，就可以开始使用 DESeq2 进行差异基因表达分析。

count_data

欢迎Star -> 学习目录

国内链接 -> 学习目录

本文由mdnice多平台发布

标签：教程,读数,每个,seq,RNA,测序,片段,cDNA
From： https://www.cnblogs.com/swindler/p/16924705.html