基因测序技术 基因测序技术 基因测序技术的发展前景非常可观,目前为止共出现了三代测序技术,第一代测序技术以Sanger为主;第二代测序是以Illumina为代表的一系列技术;第三代是以Pacific Biosciences[4]公司和 Nanopore[5]公司的单分子测序为代表的测序技术。如今测序技术朝着更快更好的方向发展,速度越来越快,同时价格也越来越低,基本实现了人类基因组的“千元测序”。 第一代Sanger测序技术是基于双脱氧核苷酸末端终止法实现的。该方法利用ddNTP(双脱氧核苷三磷酸)在DNA合成反应中不能形成磷酸二酯键的特点来中断反应的继续进行。实验设计四个DNA合成反应体系,在每个反应中加入一定比例放射性标记的某种ddNTP,得到长度各异的多条DNA链。然后采用凝胶电泳法使序列有规律排列,再根据电泳带的位置由凝胶自显影确定DNA序列。该方法的准确性很高,所以被称为“黄金测序”,生成的序列常作为参考基因组。但Sanger测序价格昂贵,且通量极低,一次只能测得单条DNA链,所以研究者们努力寻找着通量更高和价格更加低廉的下一代测序技术,因此,第二代测序技术应运而生。 第二代测序技术(也称为下一代测序)主要包括:Illumina公司的Hiseq和Miseq测序技术,ABI公司的SOLID,Roche公司的454 技术等。第二代测序技术的主要原理是边合成边测序,在准备测序文库时打断序列,并利用扩增提高单次测序的通量。因此,第二代测序技术具有读段长度短、测序通量高的特点。第二代测序技术在速度上完胜第一代,Sanger 测序花费30年完成的人类基因组计划,第二代 SOLID技术完成仅花费了约一周的时间,所以第二代测序速度更快。 但受第二代测序读段长度较短的制约,所以常被应用于重测序研究而非从头测序中。而且,由于PCR(聚合酶链反应:Polymerase Chain Reaction)扩增的影响,导致第二代技术测序不均匀,读段的GC(鸟嘌呤和胞嘧啶)偏向性问题严重[6]。第二代测序的内在缺陷制约了该技术在从头组装等领域的应用,然而,第三代测序技术的产生在一定程度上解决了这些问题。 第三代测序技术,也称为单分子实时测序,主要包括 PacBio和Nanopore。PacBio主要原理是边合成边测序,如图1.2[7],由零膜波导孔作为反应容器,并将聚合酶固定在容器底部。在DNA模板被聚合酶捕获后,不同荧光标记的dNTP进入到零模波导孔与DNA模板结合,荧光基团脱落并激发出不同波长的光,被高灵敏度的相机捕获。 根据光进入的先后顺序和持续时间长短可以推断出碱基的种类和数量,进而确定模板序列碱基组成[8][9]。Nanopore是基于电信号测序的,不同碱基在通过纳米孔时会引起不同的电信号变化,通过检测电信号变化测定DNA序列。单分子测序技术不需要扩增,读长相对较长,可以测得较小物种的全基因组,也可测得大部分物种的完整转录组。然而,单分子测序通量较低,且读段错误率较高。 相比第二代测序技术,第三代测序技术在读长上具有明显的优势。第三代PacBio测序技术读段平均长度为3kbp,最高可以达到10 kbp。但 PacBio读段也有明显的缺陷,PacBio测序的碱基召回的错误率高达13%~18%[10][11],相比第二代测序1%的错误率也有了大幅度提高[12]。在测序过程中,PacBio共生成了三种类型的错误:插入,删除, 替换(错配),前两种错误占比达到了10%以上,造成这种错误分布的原因是由于其本身的测序原理所导致的。 删除错误出现的原因是:碱基加入过快,超过了数据记录的速度,导致碱基信号缺失;插入错误主要发生在同聚物较多的位置区域,由于同源核苷酸在合并到模板 DNA 序列之前分离,导致信号重复发出;替换错误发生的原因是四种颜料光谱的错误分配。相对错配来说, 插入和删除错误占主导地位,减少错误碱基的一个方案是应用环形一致序列技术。然而,该方法生成的读段较短且通量较低,因此,很少在实际中应用。为了充分利用 PacBio读段较长的优势,拟采取纠错的方式解决其高错误率问题, 因此,各种纠错算法不断涌现出来。 |