基于长读的基因组重复序列查找技术研究
郭睿
深圳大学
摘要:基因组中出现两次或者两次以上基本相同的序列称为重复序列。重复序列信息可以用来可以分析物种的进化,减少基因比对歧义,降低序列拼接数据缺失。与标准重复序列库对比,基于短读序列数据的重复序列查找技术得到的结果并不完整,平均长度较短。长读数据平均长度较长,比短读数据具有更多的信息,可以包含更长、更完整的重复序列。本研究利用长读数据查找重复序列,得到了更长、信息更全的重复序列。研究基于长读数据的重复序列查找技术,主要创新如下:1)提出基于长读数据的查找重复序列技术,得到比基于短读方法更长更完整的重复序列。该方法首先通过比较序列索引的MHAP方法,计算长读数据之间的重叠信息。然后构造重叠网络,其中网络顶点与边分别代表长读信息和重叠长度。之后再利用模块度最优化方法聚类网络节点,得到具有重叠多的读数基团。最后通过分析读数重叠长度的变化,得到基团中代表性读数长度,将其对应的重复序列作为基团代表性重复序列。2)提出RepPeak重复序列查找技术,通过改进RepLong,解决网络基团分辨率的问题,结果具有更好的解释性。该方法先以已有序列或通过Canu拼接长读数据得到的序列作为参考序列。之后分析长读数据与参考序列的比对结果,计算每一个参考序列位点的深度变化,得到深度变化大的位置。再对深度变化位置进行合并和去除操作,从参考序列中抽取对应的序列,即得到重复序列。利用基于长读数据的重复序列查找技术分析果蝇和人类基因数据,可以得到比基于短读技术更长的重复序列,包含了更完整的标准重复序列库信息,弥补了短读数据片段化,包含信息不完全的问题。充分利用了长读读长的优势,不需要拼接读数就可以得到更完整的重复序列。 还原 关键词:重复序列检测;长读测序技术;网络基团查找;RepLong;RepPeak;
- 专辑:
基础科学
- 专题:
生物学
- 分类号:
Q811.4
李炎然; 朱泽轩;
学科专业:计算机科学与技术
硕士电子期刊出版信息:年期:2019年第07期网络出版时间:2019-06-16——2019-07-15
标签:基于,长读,重复,基因组,读数据,查找,序列 From: https://www.cnblogs.com/wangprince2017/p/17445129.html