本人的生物水平只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.
1. 一个典型的生物信息分析
我们在做生物信息分析时,常常是有一个目的,比如分析为什么某朵花是红色的.假设我们在做转录组数据分析,流程一般如下图所示:
得到数据后,我们会进行标准分析,得到一些信息比如基因表达信息、突变信息等,这个过程的计算量很大,需要在服务器上分析.完成标准分析后,得到的信息就比较小.比如转录组学可以得到一个表达矩阵,每个值代表每个基因的表达水平高低.得到矩阵后,又可以继续分析,比如富集分析,这一步我们称为数据挖掘(这一步可以在个人笔记本上).
2. 方向
前面是生信的基本内容,后续我们可以在不同方向发展自己的技能.比如本人就是机器学习算法方向(.)
3. 测序技术发展时间线
测序的reads长度一直往高方向发展.(reads:给与一个基因片段,用测序仪一次测序X个碱基,称为reads长度.)
3.1 主流测序仪
目前市场主流的测序仪主要为4台.左边主要是二代测序仪,右边是三代测序仪(第4个有时候被称为4代测序仪).
4. illumina测序
4.1 原理
核心原理是边合成边测序.当我们想测序一条DNA序列,会使用类似PCR的方法.如果我们知道正在合成的DNA序列的碱基,那么需要测序的DNA序列可以推断出来.
我们用荧光标记正在合成的碱基,不同的碱基发出不同的颜色,每合成一个碱基就暂停一下(核酸以磷酸二酯键相连,可以不让他们相连,使用阻断基团),观察颜色,就知道在合成什么碱基了.
但是也有光线太弱不易观察的问题,解决方法是使用桥式PCR,将一个DNA片段扩展大量DNA片段,这样光线信号就会变强.
4.2 过程
先看右边的图.假如我们要测右边的三个DNA片段,首先我们要把这3个基因片段种植到\(flowcell\)(可以理解为基因芯片)上,使用的方法是在DNA片段上接上接头序列.注意一下这个flowcell上有两种DNA引物,这两种引物与接下来要使用的DNA接头序列相互互补.
有两种接头序列,一种是P5序列,一直称之为P7序列.这是为了让我们将DNA fragment种植到芯片上.种植到芯片上就会形成一个"桥".以红色的片段为例,再利用PCR进行合成,会形成双链DNA片段,合成后桥又会打开,从原来的一个DNA片段变成两个DNA片段.这两个片段再弯腰进行合成,不断重复会形成一个cluster.这个cluster的DNA片段有的是头朝上有的是脚朝上,我们要同时测序就必须保证cluster内的DNA片段一致,所以用化学方法将不同的DNA片段去掉.此时进行同时测序,利用荧光识别DNA序列.
上面讲得很简略,建议看这个Click非常详细.
这里必须要声明一下,DNA分子存储在染色体上,而DNA分子是很长的.我们这样测序最多左边测一下,右边测一下,这样就会显得很浪费,因此我们需要用超声波将DNA分子打断,形成一个个片段,然后进行长度选择,用合适的片段进行测序.除此之外,选择打断的另一个原因是如果DNA片段太长,形成桥状的时候会引申到其他cluster去,此时就会扰乱其他cluster的荧光识别.
请注意,我们选择长度必须要选择差不多的.假如我们选择一个长的DNA片段和一个短的DNA片段,当进行桥式PCR时,短的DNA片段就会比长的多得多.此时测序就会有一个偏向性,当长的DNA片段测一次后,短的DNA片段可能已经测很多次了.此外,我们送去测序的DNA片段有数量要求,如果片段不够就会需要使用PCR扩增,如果长度相差大又会带来一个偏向性.长短是可以进行人为干涉的,但是如果某个DNA片段GC碱基含量高,合成也会较慢,相同时间PCR扩增就没有那么多,这种因素是难以避免的.