首页 > 其他分享 >基于第三代测序数据的基因组结构变异检测方法研究

基于第三代测序数据的基因组结构变异检测方法研究

时间:2023-05-31 09:47:37浏览次数:47  
标签:第三代 变异 检测 测序 基因组 序列 结构

基于第三代测序数据的基因组结构变异检测方法研究

姜涛

哈尔滨工业大学

摘要:随着测序技术的不断成熟和广泛应用,以测序技术为驱动的基因组、转录组等多组学的研究得到了跨越式发展,推动了基因组科学、遗传学、临床医学等多学科的变革。基因组变异检测作为基因组研究中最为核心和关键的环节,对于基因组注释、与疾病和表型的关联分析、临床诊断等具有重要的意义。然而,由于基因组存在大量复杂的结构变异,现有的检测技术和方法在变异检测的准确性、敏感性、全面性以及性能上已无法满足当前基因组前沿研究的需求,在日益增长的海量测序数据面前面临着巨大的挑战。本文全面总结了基因组结构变异识别和检测的基本方法与途径,重点分析了现阶段结构变异检测面临的难点与问题。本文以提升结构变异检测精度和计算性能等方面作为切入点,针对性的开展一系列相关的研究与实践,开发了多款基因组结构变异检测方法以及工具,有效地解决当前基因组研究中多个瓶颈问题。本文的主要研究内容如下:(1)针对大规模高相似性的移动元件变异难以准确、敏感检测这一问题,本文研究了一种基于片段重比对的基因组移动元件变异检测方法r METL。该方法采用创新性的序列重比对方法,将测序片段的异常比对序列部分与已知移动元件进行重新比对,使复杂多样的局部比对信息转换为具有高度一致性的移动元件变异证据信息。在国际权威测序数据集上的实验结果表明,r METL能有效提升移动元件变异检测的敏感性,并保持较高的检测准确性。这一方法有助于移动元件变异的精准发现,挖掘更多与疾病和表型的关联,是一款重要的前沿科研工具。(2)针对现有结构变异检测工具无法检测参考基因组之外的DNA序列这一问题,本文研究了一种基于局部序列拼接与聚类的基因组新序列插入变异检测方法r CANID。该方法以新序列插入变异形态为出发点,结合局部拼接手段,通过对异常比对片段和未比对片段的双重聚类和拼接,分别重构靠近插入边界和远离插入边界的两类新序列插入变异局部序列,并通过启发式算法连接和合并两类局部序列从而检测完整的新序列插入变异。在国际权威测序数据集上的实验结果表明,r CNAID算法较之现有结构变异检测算法,能有效提升新序列插入变异的检测敏感性,有利于发现样本所特有的DNA序列,对一些罕见疾病的发现和治疗具有重要的生物学意义。(3)针对当前结构变异检测技术的识别率和敏感性仍然处于较低水平的现状,本文研究了一种基于多特征融合的基因组结构变异检测方法cute SV。该方法采用创新性的多重特征融合聚类方法,将异常测序片段中的多重变异信号聚类,利用多种基因组空间结构信息对结构变异进行进一步整合,在显著提升变异检测的识别率和敏感性的同时,兼顾发现复杂变异的能力。在国际权威测序数据集上的实验结果表明,cute SV是目前领域内结构变异检测综合性能最好,计算性能最优的一款工具。该工具将为相关的基因组工程分析带来全新的支持。(4)针对现阶段结构变异检测的计算瓶颈问题,本文研究了一种基于测序片段过滤的基因组结构变异检测工作流加速方法r MFilter。该方法首创区域哈希表索引和区域种子命中快速统计方法,通过对测序片段的准确、快速分类,在数据分析源头极大地减少输入数据量,从根本上降低结构变异检测工作流的计算代价。在国际权威测序数据集上的实验结果表明,r MFilter与主流结构变异检测工作流组合使用,使基于第三代测序数据的结构变异检测速度整体提升一倍以上,并取得了与原始工作流相同的变异检测结果。该工具可以有效提升结构变异检测分析速度,为大规模基因组分析任务带来曙光。本文以基因组结构变异检测为重点,以全面提升基因组结构变异检测的准确性、敏感性、多样性和计算性能为目的,充分发挥第三代测序数据的优势。通过开发多种类型结构变异检测方法和工具,切实解决现阶段基因组研究中的瓶颈问题,全面有效地推动以基因组结构变异为导向的相关研究的发展,为基因组前沿科学研究提供了新的研究思路、技术手段与理论支撑,具有很高的实际意义。 还原 关键词:

第三代测序技术;结构变异检测;局部序列拼接;序列重比对;变异检测加速;

  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.27061/d.cnki.ghgdu.2019.005212

  • 分类号:

    Q811.4

导师:

王亚东;

学科专业:

计算机应用技术

博士电子期刊出版信息:

年期:2021年第01期网络出版时间:2020-12-16——2021-01-15

标签:第三代,变异,检测,测序,基因组,序列,结构
From: https://www.cnblogs.com/wangprince2017/p/17445138.html

相关文章

  • 基于学习的第三代测序一致性序列生成
    基于学习的第三代测序一致性序列生成王水介哈尔滨工业大学摘要:继人类基因组计划开展以来,基因测序已经广泛影响了生命科学的研究方式,各模式物种基因组在全球实验室不断被测定分析。近年来随着基因组测序数据通量的提升和成本的下降,这已成为生物医学领域的常规手段。目前以......
  • 第三代DNA测序数据压缩方法研究
    第三代DNA测序数据压缩方法研究崔浩翔深圳大学摘要:第三代测序技术自问世以来在临床分子诊断中扮演着越来越重要的角色,尤其在基因组测序、甲基化研究、突变鉴定(SNP检测)等方面。测序技术的不断发展使得测序成本逐年下降,测序数据量急剧增加,如何存储和传输庞大的测序数据是......
  • 基于第三代测序技术的基因组SNP和Indel变异检测关键算法研究
    基于第三代测序技术的基因组SNP和Indel变异检测关键算法研究廖小青哈尔滨工业大学摘要:随着生活水平的提升,人们对于自身的好奇促使人们对基因进行研究。其中,变异是人类疾病的一个重要诱因,对变异进行研究可以推动基础生物学和医学的发展。相比于大区域基因组的结构变异,SNP......
  • 基于第三代测序数据的结构变异检测方法研究
    基于第三代测序数据的结构变异检测方法研究白若飞北京化工大学摘要:第三代测序技术的飞速发展使人们能够通过少量较长的读段推测个体的完整染色体序列,同时推动了基因变异检测的发展。结构变异的准确检测对人类遗传多样性和临床疾病的研究至关重要。传统研究结构变异的方法是......
  • 面向第三代测序数据的序列比对方法研究
    面向第三代测序数据的序列比对方法研究高岩哈尔滨工业大学摘要:随着第三代测序技术的不断发展,第三代测序数据在基因组组装、结构变异检测、全长转录本识别等领域得到了广泛的应用。序列比对作为第三代测序数据分析工作流程中最基础、最关键的步骤,一直都是当今生物信息学领......
  • 易基因:全基因组DNA甲基化分析揭示DNMT1在斑马鱼模型听觉系统发育中的作用 | 胚胎发育
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。听力障碍通常与内耳发育不全或损伤有关,是影响生活质量的严重健康问题。因此研究听觉器官发生过程中的关键基因对于探索听力损伤的潜在策略至关重要。斑马鱼模型在理解内耳发育不良和相关疾病的分子遗传学原理方面得到......
  • 姜雨:从牛羊基因组选择到分子设计育种
     https://mp.weixin.qq.com/s/l6BgFt6-aw1aBIprNR4A_Q 作者:Bioinfarmer,若要及时了解动态信息,请关注同名微信公众号:Bioinfarmer。......
  • windows系统下校验测序数据MD5?
    本地上传测序文件到Linux系统,做md5时发现有少数文件失败。$catmd5.check84305_FDSW190448400-1a_1.fq.gz:OK84305_FDSW190448400-1a_2.fq.gz:FAILEDmd5sum:WARNING:1computedchecksumdidNOTmatch可能是上传有误,也可能是本地测序文件本身不完整。但是文件太大,在没......
  • DNA测序中的reads mapping方向的信息
    在DNA测序中,readsmapping方向指的是描绘short-reads(短序列)对于参考基因组的比对方向,即将短读序列与参考基因组进行比对时匹配的方向。这个方向信息通常被编码为“+”或“-”,其中“+”表示reads的5'端与正向链的3'端相对应,“-”表示reads的5'端与负向链的3'端相对应。具体来说,在......
  • 全新 – Amazon EC2 R6a 实例由第三代 AMD EPYC 处理器提供支持,适用于内存密集型工作
    我们在Amazonre:Invent2021上推出了通用型AmazonEC2 M6a实例,并于今年2月推出了计算密集型 C6a实例。这些实例由运行频率高达3.6GHz的第三代AMDEPYC处理器提供支持,与上一代实例相比,性价比提高多达35%。如今,我们正在扩展产品组合,添加内存优化型 AmazonEC2R6a......