基于学习的第三代测序一致性序列生成
王水介
哈尔滨工业大学
摘要:继人类基因组计划开展以来,基因测序已经广泛影响了生命科学的研究方式,各模式物种基因组在全球实验室不断被测定分析。近年来随着基因组测序数据通量的提升和成本的下降,这已成为生物医学领域的常规手段。目前以太平洋生物科技公司以及牛津纳米孔技术公司长读长测序为代表的第三代测序技术可以产生足够长度的测序片段,极大推动了基因组组装、变异检测等分析领域的发展。然而第三代测序序列具有极高的错误率(~15%),影响了分析结果的精度,局限了其在医学研究和临床诊断中的应用。因此科学家致力于开发出更高效的分析方法,以打破这种限制。基因组组装是从大量随机测序获得的短片段重建出几M甚至上百M基因组长序列的过程,最终目标是生成完整、准确的一致性序列。第三代测序技术的应用极大提高了基因组一致性序列的完整性,但测序的高错误率却限制了其准确性。尤其是在组装重复序列以及单倍型时,获得高质量且准确的一致性序列仍存在挑战。生成一致性序列的关键在于获得准确的多序列比对结果,考虑到第三代测序序列长读长、高错误率及高通量的特点,需要资源密集型的序列纠错以及一致性序列生成的步骤来获得高质量的组装结果。本研究提出了包含深度学习和强化学习方法的多序列比对及一致性序列生成模型,不仅可以提升比对的结果,同时也能得到准确率更高的基因一致性序列,本论文主要进行了以下三项研究工作:(1)提出基于强化学习的方法对基因数据的比对进行调整,采用异步的优势演员评论家算法进行比对策略的学习。目前主流的多序列比对方法仍存在较大不足,因此希望通过有效的策略进行比对决策使其结果得到提升。(2)提出好奇心奖励,解决多序列比对问题中累计回报较少的问题,对结果进行进一步的调整,使其不仅在评价指标上有更好的结果,而且更加接近生物学实际意义、即更符合基因序列的结构特征。(3)引入深度学习的方法提取多序列比对结果的结构特征,结合不同通量序列数据的特点,生成准确率更高的一致性序列。针对低乘数的数据依然可以保持优秀的准确率,并且无需读取测序时的质量值,也不用一次读取超长序列,可以更加灵活地处理小的数据块。 还原 关键词:- 专辑:
基础科学
- 专题:
生物学
- DOI:
10.27061/d.cnki.ghgdu.2020.004031
- 分类号:
Q811.4
刘贤明;
学科专业:计算机科学与技术
硕士电子期刊出版信息:年期:2021年第02期网络出版时间:2021-01-16——2021-02-15
标签:第三代,测序,基因组,学习,序列,一致性 From: https://www.cnblogs.com/wangprince2017/p/17445142.html