首页 > 其他分享 >基于第三代测序数据的结构变异检测方法研究

基于第三代测序数据的结构变异检测方法研究

时间:2023-05-31 09:46:26浏览次数:47  
标签:第三代 变异 检测 测序 图像 序列

基于第三代测序数据的结构变异检测方法研究

白若飞

北京化工大学

摘要:第三代测序技术的飞速发展使人们能够通过少量较长的读段推测个体的完整染色体序列,同时推动了基因变异检测的发展。结构变异的准确检测对人类遗传多样性和临床疾病的研究至关重要。传统研究结构变异的方法是将手工提取的变异特征进行参数统计来判别结构变异位置和类型。用于结构变异检测的基因序列表达信息孤立的文本信息,且变异特征需要手工提取,受人为因素影响较大,检测结果存在片面性和局限性。具体体现为准确度和敏感度不尽如人意。因此,本课题基于第三代测序数据提出一种以序列比对图像为输入的检测结构变异的深度学习方法,用以提高结构变异检测的精准性,主要工作归纳为以下三个方面:(1)将基因序列映射为序列比对图像的研究。解析基因序列和基准变异数据,研究基因序列映射到序列比对图像过程中至关重要的映射区域选择、图像坐标设计、变异特征提取计算以及色彩模式表达等问题。基因序列表达的文本信息相互孤立、晦涩难懂且存在一定误差,以序列比对图像的形式呈现在整个结构变异检测过程中,既能形象具体地展现原始比对信息,又能清晰呈现变异区域不同于其他区域的特征,更能为后续的深度学习图像分类模型提供高效可依赖的输入。(2)将序列比对图像输入卷积神经网络(Convolutional Neural Network,CNN)的图像分类模型进行结构变异判别研究。本课题采用自行搭建的模型进行训练,将各个候选变异区域的基因序列以序列比对图像的形式输入卷积神经网络的图像分类模型,利用训练好的模型进行结构变异判别。同时,采用交叉熵损失函数对模型进行性能优化;使用CUDA加速模型训练过程,解决了整个检测流程的时间瓶颈问题。(3)对本文提出的检测方法CnnSV3进行测试,并与现有流行的sniffles、SVIM和pbsv等第三代测序数据结构变异检测方法做比较,验证本文方法的先进性。实验分别对不同数据覆盖深度和不同缺失变异长度的仿真测序数据以及不同数据覆盖深度和不同个体的真实测序数据进行。同时,采用间接的实验方法,通过孟德尔遗传定律和数据下采样进行检测性能的测试与评估,解决了第三代测序数据基准变异数据可信度差的问题。实验结果表明,本文方法对仿真和真实数据均能检测更长的缺失变异,可准确检测的最长结构变异碱基数量达2亿多个,检测结果的准确度和敏感度都很高,尤其是对低覆盖深度数据效果更加明显。此外,针对同一个体,比较第二代、第三代测序数据的检测结果。实验结果表明,基于第三代测序数据检测到的缺失结构变异中,有大于11500个缺失变异是第二代测序数据无法检测的。 还原 关键词:

第三代测序技术;结构变异检测;序列比对图像;深度学习;

基金资助:

北京市自然科学基金;

  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.26939/d.cnki.gbhgu.2020.000649

  • 分类号:

    Q811.4

导师:

高敬阳; 赵地;

学科专业:

计算机技术(专业学位)

硕士电子期刊出版信息:

年期:2021年第02期网络出版时间:2021-01-16——2021-02-15

标签:第三代,变异,检测,测序,图像,序列
From: https://www.cnblogs.com/wangprince2017/p/17445147.html

相关文章

  • 面向第三代测序数据的序列比对方法研究
    面向第三代测序数据的序列比对方法研究高岩哈尔滨工业大学摘要:随着第三代测序技术的不断发展,第三代测序数据在基因组组装、结构变异检测、全长转录本识别等领域得到了广泛的应用。序列比对作为第三代测序数据分析工作流程中最基础、最关键的步骤,一直都是当今生物信息学领......
  • 01.GATK人种系变异最佳实践SnakeMake流程:WorkFlow简介
    <~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>学习的第一个GATK找变异流程,人的种系变异的短序列变异,包括SNP和INDEL。写了一个SnakeMake分析流程,从fastq文件到最后的vep注释后的VCF文件,关于VCF的介绍可以参考上一篇推文基因序列变异信息VCF(VariantCallFormat)流程代......
  • windows系统下校验测序数据MD5?
    本地上传测序文件到Linux系统,做md5时发现有少数文件失败。$catmd5.check84305_FDSW190448400-1a_1.fq.gz:OK84305_FDSW190448400-1a_2.fq.gz:FAILEDmd5sum:WARNING:1computedchecksumdidNOTmatch可能是上传有误,也可能是本地测序文件本身不完整。但是文件太大,在没......
  • 缎蓝园丁鸟优化算法(SBO)文章复现(非均匀变异策略+非线性权重改进位置更新+互利因子改进
    缎蓝园丁鸟优化算法(SBO)文章复现(非均匀变异策略+非线性权重改进位置更新+互利因子改进位置更新)——ISBO。复现内容包括:改进算法实现、23个基准测试函数、文中相关因子分析、文中相关图分析、与SBO对比等。代码基本上每一步都有注释,非常易懂,代码质量极高,便于新手学习和理解......
  • 麻雀搜索算法(SSA)文章复现:《自适应变异麻雀搜索优化算法_唐延强》
    麻雀搜索算法(SSA)文章复现:《自适应变异麻雀搜索优化算法_唐延强》策略为:猫(cat)混沌结合反向学习初始化+改进发现者更新策略+发现者-加入者自适应调整策略+改进Tent混沌扰动+柯西变异策略——AMSSA复现内容包括:文章改进SSA算法实现、23个基准测试函数、改进策略因子画图......
  • DNA测序中的reads mapping方向的信息
    在DNA测序中,readsmapping方向指的是描绘short-reads(短序列)对于参考基因组的比对方向,即将短读序列与参考基因组进行比对时匹配的方向。这个方向信息通常被编码为“+”或“-”,其中“+”表示reads的5'端与正向链的3'端相对应,“-”表示reads的5'端与负向链的3'端相对应。具体来说,在......
  • 全新 – Amazon EC2 R6a 实例由第三代 AMD EPYC 处理器提供支持,适用于内存密集型工作
    我们在Amazonre:Invent2021上推出了通用型AmazonEC2 M6a实例,并于今年2月推出了计算密集型 C6a实例。这些实例由运行频率高达3.6GHz的第三代AMDEPYC处理器提供支持,与上一代实例相比,性价比提高多达35%。如今,我们正在扩展产品组合,添加内存优化型 AmazonEC2R6a......
  • 高通量测序分析工具Bedtools使用介绍
    Bedtools是处理基因组信息分析的强大工具集合,其主要功能如下:bedtools:flexibletoolsforgenomearithmeticandDNAsequenceanalysis.usage:bedtools<subcommand>[options]Thebedtoolssub-commandsinclude:[Genomearithmetic]intersectFindove......
  • 利用snpEff对基因型VCF文件进行变异注释的详细方法
    利用snpEff对VCF文件进行变异注释群体遗传研究中,在获得SNP位点后,我们需要对SNP位点进行注释,对这些SNP位点进行更深的了解。snpEff是一个用于对基因组单核苷酸多态性(SNP)进行注释的软件,snpEff软件可以用于对VCF文件进行变异注释,使用时需要先进行安装,然后构建参考基因组数据库,即......
  • R语言实现GWAS结果显著SNP位点归类提取与变异类型转化
    GWAS结果显著SNP位点归类提取与变异类型转化根据GWAS得到的Rresult文件信息,能够找出每个snp位点对应的显著性情况和基因变异信息,接下来,需要根据表格中的信息进行归纳总结,对不同显著性层次进行区分,找出可能性最大的点,过程比较繁琐。这里笔者分享一个算法,使统计SNP和变异类型变的......