RNA-Seq 比对工具性能比较
参考文章:
https://yanzhongsino.github.io/2021/11/19/omics_transcriptome.RNA-seq/
比对 (align) 介绍
序列比对 又称为 align
RNA-Seq 分析中的策略从文件类型来看如下:
graph LR FASTQ文件----->SAM文件----->BAM文件FASTQ
文件到 SAM
文件这一步就需要比对软件 [STAR
、Tophat2
、HISAT2
] 来实现,目的是 把RNA-seq reads比对到合适的参考序列上.
如果用基因组作为参考序列可以检测到新的转录本,但可能需要耗费更多的计算资源;如果用转录组作为参考则无法找出新的转录本,但速度更快。如果研究物种没有可靠的参考序列,可以重头组装对转录本进行鉴定。这点在本文中不做过多介绍。接下来对RNA的 3 种比对策略进行介绍。
RNA-Seq的 3 种比对策略
STAR
优势在于 快,可以快速 mapping;
缺点在于需要内存大,可能达到 30Gb 左右的 RAM。
采用的算法为:Suffix Tree
。可以高效地处理长读,并具有高精度和高敏感性。
Tophat2
现代实验室不常用,其速度较慢,常与Cufflinks
连用。
采用的算法为:Bowtie2
即 BWT
HISAT2
作为Tophat2
升级版,其主要提升了速度,且低内存消耗。HISAT2在运行速度方面,比STAR快大约2.5倍。对SNP的信息进行了考虑 -- it can better handler known SNPs。
缺点在于没有STAR
准确率高。
采用的算法为:改进的BWT
方法,并引入了名为hierarchical indexing的概念。这种分层索引策略允许 HISAT2
首先在大的基因组区域中进行比对,然后在局部区域中进行细化比对,这大大提高了比对速度和效率。
附上发展的时间线:
Year | Software Name |
---|---|
2009 | Tophat |
2012 | STAR |
2013 | Tophat2 |
2015 | HISAT |
2019 | HISAT2 |