首页 > 其他分享 >面向第三代测序数据的序列比对方法研究

面向第三代测序数据的序列比对方法研究

时间:2023-05-31 09:45:39浏览次数:53  
标签:第三代 方法 测序 基因组 序列 数据

面向第三代测序数据的序列比对方法研究

高岩

哈尔滨工业大学

摘要:随着第三代测序技术的不断发展,第三代测序数据在基因组组装、结构变异检测、全长转录本识别等领域得到了广泛的应用。序列比对作为第三代测序数据分析工作流程中最基础、最关键的步骤,一直都是当今生物信息学领域最重要的计算机科学问题之一。面对日益增长的海量测序数据,现有第三代测序数据比对工具在比对速度、准确性和敏感性等方面已经无法满足各类分析工作的比对需求,成为了阻碍基因组科学领域进一步发展的主要因素。本文全面总结了现有比对方法和工具的基本思想和主要策略,以全面提升第三代测序数据序列比对的速度、准确性和敏感性等方面为目标,根据序列长度长、错误率高以及包含大型结构变异等数据特点,针对性地开发了多个第三代测序数据序列比对方法,有效解决了现有工作流程中的多个计算瓶颈问题。论文的主要研究内容如下:(1)针对现有比对工具无法有效处理三代测序片段中的结构变异事件的问题,研究基于长近似匹配和骨架修剪的拆分比对方法LAMSA。该方法采用长种子近似匹配的选种策略,可以有效解决传统短种子策略难以处理的基因组重复区域问题,并通过树修剪的方式生成反映各类结构变异事件的比对骨架,进而实现结构变异断点附近的精确拆分比对。该方法能够快速、准确地将第三代测序数据比对到参考基因组上,并且对于测序片段中的结构变异断点具有精确识别能力,可以为下游基因组结构变异相关分析工作提供精准的测序片段比对结果。(2)针对现有图参考基因组比对工具无法有效处理第三代测序数据的问题,研究基于局部单体型索引的图参考基因组比对方法Hi Pan。该方法结合现有图参考基因组构建模式,通过设计基于群体单体型信息的局部单体型路径索引构建方法,实现对于图参考基因组节点内以及节点间序列的高效查询,进而完成测序片段在图参考基因组上的序列比对。该方法能够实现图参考基因组及其索引的高效构建,并且可以将第三代测序数据快速、准确地比对到图参考基因组上,能够为后续变异检测等相关工作提供测序片段在图参考基因组上的精确比对信息。(3)针对现有第三代测序数据局部多序列比对耗时巨大的问题,研究基于单指令多数据的并行带状偏序比对方法ab POA。该方法通过偏序比对的方式来完成多序列比对任务,借鉴在两两序列比对工具中广泛应用的比对带加速策略,将其推广到了序列与图的偏序比对过程当中,并设计基于单指令多数据的并行算法,实现动态规划过程运行速度的进一步提升。该方法能够显著减少偏序比对过程的运行时间,同时提供精确的偏序比对结果,可以为基于测序片段多序列比对的基因组局部精确重构提供速度和准确性支撑。(4)针对现有工具无法有效处理新型串联重复三代测序数据的问题,研究基于种子和链接的串联重复比对方法Tide Hunter。该方法针对新型测序片段中含有原始模板序列多个串联拷贝的数据特点,借鉴传统序列比对方法中‘‘种子和扩展’’的策略思想,将其扩展到串联重复比对这一新型问题中,实现对于串联重复单元的快速检测。该方法能够显著提高对于该新型数据的串联重复比对速度和敏感度,高效检测出其中的重复单元,并准确重构出原始的模板序列,可以为常规三代测序数据比对工作流程提供高质量、低错误率的测序片段。本文围绕第三代测序数据序列比对这一研究课题,从不同层面研究了序列比对工作中的多个重点、难点问题。通过开发多个第三代测序数据比对方法,在运行速度、比对准确性和敏感性等方面实现了对于现有工具的全面提升。其中,前三个方法组成了一套常规三代测序数据序列比对的解决方案,第四个方法针对新型数据实现了对于该解决方案的补充。这些方法切实解决了现有序列比对工作流程中的序列拆分比对、图参考基因组比对和局部多序列比对等多个计算瓶颈问题,为今后的大规模基因组前沿科学研究提供了基础性技术支撑,具有很高的实用价值和理论意义。 还原 关键词:

第三代测序数据;序列比对;基因组变异;图基因组;多序列比对;

  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.27061/d.cnki.ghgdu.2020.004779

  • 分类号:

    Q811.4

导师:

王亚东;

学科专业:

计算机应用技术

博士电子期刊出版信息:

年期:2022年第02期网络出版时间:2022-01-16——2022-02-15

标签:第三代,方法,测序,基因组,序列,数据
From: https://www.cnblogs.com/wangprince2017/p/17445150.html

相关文章

  • 权限控制,美化admin,签发token逻辑,放在序列化类中写
    1权限控制#ACL(访问控制列表)的权限控制:(针对互联网用户的产品) 用户表idnamepassword1zhangsan123权限表iduser_id权限11评论权限21发抖音权限张三:[评论权限,发抖音权限]#R......
  • Excel原位填充快速下拉填充序列至1000行
    使用原位填充ctrl+enter1.在A1单元格中输入12.选中A2单元格,在上方名称框中填入A2:A1000,回车,此时即选中了A2:A10003.在编辑栏中填入=A1+1,按ctrl+enter,即可得到递增数据1,2,3,4,…10004.也可在编辑栏中填入=row(),按ctrl+enter*,得到递增数据1,2,3,4,…1000参考:https://blog.csd......
  • hadoop序列化相关问题
    什么时候需要使用序列化?需要在不同服务器传递内存数据时,用序列化。序列化后的所有属性需要再反序列化,那么有先后顺序反序列化吗?有的,比如序列化的属性有abc则反序列化的属性必须是cabc数据切片一般为数据块的倍数,为什么?一般一个数据切片对应启动一个maptask任务,可以保证......
  • upc 6597: Don't Be a Subsequence (字符串的最短不匹配子序列 dp)
    6597:Don'tBeaSubsequence时间限制:1Sec  内存限制:128MB提交:237  解决:45[提交][状态][讨论版][命题人:admin] 题目描述AsubsequenceofastringSisastringthatcanbeobtainedbydeletingzeroormorecharactersfromSwithoutchangingtheor......
  • 剑指 Offer 57 - II. 和为s的连续正数序列
    题目描述:输入一个正整数target,输出所有和为target的连续正整数序列(至少含有两个数)。序列内的数字由小到大排列,不同序列按照首个数字从小到大排列。 方法:滑动窗口(双指针) classSolution{publicint[][]findContinuousSequence(inttarget){inti=1,j......
  • LeetCode 周赛 347(2023/05/28)二维空间上的 LIS 最长递增子序列问题
    本文已收录到AndroidFamily,技术和职场问题,请关注公众号[彭旭锐]提问。往期回顾:LeetCode单周赛第346场·仅68人AK的最短路问题周赛347概览T1. 移除字符串中的尾随零(Easy)标签:模拟、字符串T2.对角线上不同值的数量差(Easy)标签:前后缀分解T3.使所有字符......
  • 基于ARIMA、SVM、随机森林销售的时间序列预测|附代码数据
    原文链接  http://tecdat.cn/?p=1130最近我们被客户要求撰写关于时间序列预测的研究报告,包括一些图形和统计输出。如今DT(数据技术)时代,数据变得越来越重要,其核心应用“预测”也成为互联网行业以及产业变革的重要力量。对于零售行业来说,预测几乎是商业智能(BI)研究的终极问题,单纯......
  • C++文件流结构体序列化,并查集,LRU缓存
    c语言中的文件操作中用fprintf将数据写入到文件中,用fscanf将文件读入内存中,而c++中也有ostream和istream作为键盘流输入,屏幕流输出,对于文件也有ofstream/istream来进行相关的操作.如图:图中表示将一个结构体的的数据输入到文件中,并从文件中读取数据,并用得到的数据初始化一......
  • hdu:序列划分(构造二分)
    ProblemDescription给定\(n\)个正整数\(a_1,a_2,\dots,a_n\),将这个序列从左到右划分成\(m\)段,使得每段至少有一个数。你需要让数字之和最大的那一段的数字和尽可能得小。Input第一行包含一个正整数T(1≤T≤10),表示测试数据的组数。每组数据第一行包含两个正整数n,m(1≤m≤......
  • 字符串strip方法:只要头尾包含有指定字符序列中的字符就删除
    mystr='\n\tthisisacat\n\r'mystr=mystr.strip()#默认去掉两头的空格、换行符\n,制表符\t、回车符\rprint(mystr)#只要头尾包含有指定字符序列中的字符就删除mystr='1213HelloWord2331'mystr=mystr.strip('123')#strip会把‘123’三个元素中的随便......