基于第三代测序数据的结构变异检测方法研究
白若飞
北京化工大学
摘要:第三代测序技术的飞速发展使人们能够通过少量较长的读段推测个体的完整染色体序列,同时推动了基因变异检测的发展。结构变异的准确检测对人类遗传多样性和临床疾病的研究至关重要。传统研究结构变异的方法是将手工提取的变异特征进行参数统计来判别结构变异位置和类型。用于结构变异检测的基因序列表达信息孤立的文本信息,且变异特征需要手工提取,受人为因素影响较大,检测结果存在片面性和局限性。具体体现为准确度和敏感度不尽如人意。因此,本课题基于第三代测序数据提出一种以序列比对图像为输入的检测结构变异的深度学习方法,用以提高结构变异检测的精准性,主要工作归纳为以下三个方面:(1)将基因序列映射为序列比对图像的研究。解析基因序列和基准变异数据,研究基因序列映射到序列比对图像过程中至关重要的映射区域选择、图像坐标设计、变异特征提取计算以及色彩模式表达等问题。基因序列表达的文本信息相互孤立、晦涩难懂且存在一定误差,以序列比对图像的形式呈现在整个结构变异检测过程中,既能形象具体地展现原始比对信息,又能清晰呈现变异区域不同于其他区域的特征,更能为后续的深度学习图像分类模型提供高效可依赖的输入。(2)将序列比对图像输入卷积神经网络(Convolutional Neural Network,CNN)的图像分类模型进行结构变异判别研究。本课题采用自行搭建的模型进行训练,将各个候选变异区域的基因序列以序列比对图像的形式输入卷积神经网络的图像分类模型,利用训练好的模型进行结构变异判别。同时,采用交叉熵损失函数对模型进行性能优化;使用CUDA加速模型训练过程,解决了整个检测流程的时间瓶颈问题。(3)对本文提出的检测方法CnnSV3进行测试,并与现有流行的sniffles、SVIM和pbsv等第三代测序数据结构变异检测方法做比较,验证本文方法的先进性。实验分别对不同数据覆盖深度和不同缺失变异长度的仿真测序数据以及不同数据覆盖深度和不同个体的真实测序数据进行。同时,采用间接的实验方法,通过孟德尔遗传定律和数据下采样进行检测性能的测试与评估,解决了第三代测序数据基准变异数据可信度差的问题。实验结果表明,本文方法对仿真和真实数据均能检测更长的缺失变异,可准确检测的最长结构变异碱基数量达2亿多个,检测结果的准确度和敏感度都很高,尤其是对低覆盖深度数据效果更加明显。此外,针对同一个体,比较第二代、第三代测序数据的检测结果。实验结果表明,基于第三代测序数据检测到的缺失结构变异中,有大于11500个缺失变异是第二代测序数据无法检测的。 还原 关键词: 基金资助:- 专辑:
基础科学
- 专题:
生物学
- DOI:
10.26939/d.cnki.gbhgu.2020.000649
- 分类号:
Q811.4
高敬阳; 赵地;
学科专业:计算机技术(专业学位)
硕士电子期刊出版信息:年期:2021年第02期网络出版时间:2021-01-16——2021-02-15
标签:第三代,变异,检测,测序,图像,序列 From: https://www.cnblogs.com/wangprince2017/p/17445147.html