首页 > 其他分享 >第三代DNA测序数据压缩方法研究

第三代DNA测序数据压缩方法研究

时间:2023-05-31 09:46:54浏览次数:42  
标签:压缩工具 第三代 测序 DNA 数据 数据压缩

第三代DNA测序数据压缩方法研究

崔浩翔

深圳大学

摘要:第三代测序技术自问世以来在临床分子诊断中扮演着越来越重要的角色,尤其在基因组测序、甲基化研究、突变鉴定(SNP检测)等方面。测序技术的不断发展使得测序成本逐年下降,测序数据量急剧增加,如何存储和传输庞大的测序数据是当前亟需解决的问题。数据压缩技术可以有效减少测序数据的存储空间并减少传输时间。通用压缩工具未能很好的利用DNA测序数据的数据特性,对测序数据的压缩比存在一定的局限。而目前DNA测序数据的专用压缩工具大多是针对第二代测序数据开发,在面对第三代测序数据的长读长、不固定读长、错误率高等特点时,绝大多数压缩工具均无法正常工作。所以设计专门针对第三代DNA测序数据的压缩工具变得十分重要。本文介绍了当前DNA测序数据压缩的研究背景及现状,并提出两个针对第三代DNA测序数据的压缩方法,主要工作内容如下:(1)提出基于最小哈希和局部敏感哈希技术的第三代DNA测序碱基数据压缩算法min Base Zip,算法使用杰卡德系数评估序列之间的相似性,对整个碱基序列建立特征矩阵,通过最小哈希和局部敏感哈希快速筛选出相似序列并分组,最后对各个组内序列使用基于上下文特性的gzip工具进行压缩。在来自多个测序平台的开源数据集上进行实验,和多个测序数据专用压缩工具及通用压缩工具进行对比,结果表明min Base Zip能够利用类内部的数据冗余性,提升压缩比。(2)在上述碱基数据聚类的基础上,进一步提出基于组装的fastq完整数据压缩方法min Compress,算法将fastq文件分为三个部分进行压缩,碱基部分使用wtdbg2组装工具对每个分类文件进行组装获得基因组,并将每个分类文件和获得的基因组使用基于参考基因组压缩方法LWFQzip2进行压缩;元数据和质量分数分别采用增量编码和游程限制编码进行压缩。在来自多个测序平台的长读测序数据上进行实验,和多种针对fastq文件的压缩工具进行对比,实验结果表明min Compress能在合理的时间和空间成本下获得更好的压缩比。本研究针对第三代DNA测序数据提出的压缩方法,能够帮助缓解第三代DNA测序数据所带来的存储和传输压力,并为后续相关研究提供了一定的借鉴。 还原 关键词:

单分子测序技术;局部敏感哈希;参考基因组;数据压缩;minhash;

  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.27321/d.cnki.gszdu.2020.000661

  • 分类号:

    Q811.4

导师:

朱泽轩;

学科专业:

计算机技术(专业学位)

硕士电子期刊出版信息:

年期:2021年第10期网络出版时间:2021-09-16——2021-10-15

标签:压缩工具,第三代,测序,DNA,数据,数据压缩
From: https://www.cnblogs.com/wangprince2017/p/17445140.html

相关文章

  • 基于第三代测序技术的基因组SNP和Indel变异检测关键算法研究
    基于第三代测序技术的基因组SNP和Indel变异检测关键算法研究廖小青哈尔滨工业大学摘要:随着生活水平的提升,人们对于自身的好奇促使人们对基因进行研究。其中,变异是人类疾病的一个重要诱因,对变异进行研究可以推动基础生物学和医学的发展。相比于大区域基因组的结构变异,SNP......
  • 基于第三代测序数据的结构变异检测方法研究
    基于第三代测序数据的结构变异检测方法研究白若飞北京化工大学摘要:第三代测序技术的飞速发展使人们能够通过少量较长的读段推测个体的完整染色体序列,同时推动了基因变异检测的发展。结构变异的准确检测对人类遗传多样性和临床疾病的研究至关重要。传统研究结构变异的方法是......
  • 面向第三代测序数据的序列比对方法研究
    面向第三代测序数据的序列比对方法研究高岩哈尔滨工业大学摘要:随着第三代测序技术的不断发展,第三代测序数据在基因组组装、结构变异检测、全长转录本识别等领域得到了广泛的应用。序列比对作为第三代测序数据分析工作流程中最基础、最关键的步骤,一直都是当今生物信息学领......
  • 非对称纳米通道的整流特性研究及其在DNA检测中的应用
    非对称纳米通道的整流特性研究及其在DNA检测中的应用石晓雨西北大学摘要:纳米通道单分子检测技术具有方法简单、无需标签、实时监测的优点,在生物、化学领域受到广泛关注。与生物纳米通道相比,固态纳米通道孔径尺寸和形状可调,在各种条件(pH值、温度、浓度等)下均具有出色的......
  • 跟我一起探索 HTTP-HTTP 协议中的数据压缩
    数据压缩是提高Web站点性能的一种重要手段。对于有些文件来说,高达70%的压缩比率可以大大减低对于带宽的需求。随着时间的推移,压缩算法的效率也越来越高,同时也有新的压缩算法被发明出来,应用在客户端与服务器端。在实际应用时,web开发者不需要亲手实现压缩机制,浏览器及服务器都已......
  • 易基因:全基因组DNA甲基化分析揭示DNMT1在斑马鱼模型听觉系统发育中的作用 | 胚胎发育
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。听力障碍通常与内耳发育不全或损伤有关,是影响生活质量的严重健康问题。因此研究听觉器官发生过程中的关键基因对于探索听力损伤的潜在策略至关重要。斑马鱼模型在理解内耳发育不良和相关疾病的分子遗传学原理方面得到......
  • windows系统下校验测序数据MD5?
    本地上传测序文件到Linux系统,做md5时发现有少数文件失败。$catmd5.check84305_FDSW190448400-1a_1.fq.gz:OK84305_FDSW190448400-1a_2.fq.gz:FAILEDmd5sum:WARNING:1computedchecksumdidNOTmatch可能是上传有误,也可能是本地测序文件本身不完整。但是文件太大,在没......
  • 易基因:DNA甲基化和转录组分析揭示野生草莓干旱胁迫分子调控机制|植物抗逆
    大家好,这里专注表观组学十余年,领跑多组学科研服务的易基因。干旱胁迫是对农业生产产生不利影响的关键环境因素。为此,植物发展出各种响应机制(干旱逃逸、避免、耐受和回复),以通过进化增强抗旱性,这些适应机制从分子到植物水平都所不同。黄毛草莓(Fragarianilgerrensis)是一种具有良好......
  • DNA测序中的reads mapping方向的信息
    在DNA测序中,readsmapping方向指的是描绘short-reads(短序列)对于参考基因组的比对方向,即将短读序列与参考基因组进行比对时匹配的方向。这个方向信息通常被编码为“+”或“-”,其中“+”表示reads的5'端与正向链的3'端相对应,“-”表示reads的5'端与负向链的3'端相对应。具体来说,在......
  • 高通量测序分析工具Bedtools使用介绍
    Bedtools是处理基因组信息分析的强大工具集合,其主要功能如下:bedtools:flexibletoolsforgenomearithmeticandDNAsequenceanalysis.usage:bedtools<subcommand>[options]Thebedtoolssub-commandsinclude:[Genomearithmetic]intersectFindove......