首页 > 其他分享 >NC | 基于长读长的结构变异检测工具VolcanoSV

NC | 基于长读长的结构变异检测工具VolcanoSV

时间:2024-09-08 16:18:47浏览次数:4  
标签:F1 组装 VolcanoSV NC SV CLR 长读 ONT 检测工具

基于长reads进行结构变异的工具有很多,很多文章也进行过综合比较。今天分享一个新工具VolcanoSV。

图片

Github

https://github.com/maiziezhoulab/VolcanoSV

结构变异(SV)对人类基因组多样性有重要贡献,并在精准医学中发挥关键作用。尽管单分子长读序列测序的进步为SV检测提供了突破性的资源,但准确且稳健地识别SV断点和序列仍然具有挑战性。本研究介绍了VolcanoSV,这是一种创新的混合SV检测管道,它利用参考基因组和局部denovo 组装生成相位二倍体组装。VolcanoSV使用相位SNP和独特的k-mer相似性分析,使精确的相位解决SV发现成为可能。VolcanoSV擅长构建包括SNP、小插入缺失和所有类型SV的综合遗传图谱,使其非常适合人类基因组学研究。大量测试实验表明,VolcanoSV在插入和缺失SV检测方面优于现有的基于组装的工具,表现出在各种数据集(包括低覆盖度(10x)数据集)中的优越召回率、精确度、F1得分和基因型准确性。VolcanoSV在复杂SV(包括易位、重复和倒位)的识别方面也优于基于组装的工具,在模拟和真实癌症数据中表现出色。此外,VolcanoSV对各种评估参数具有鲁棒性,并且能够准确识别断点和SV序列。

图片

Figure 1 VolcanoSV整体流程

要点

研究者首先使用四种基于组装的方法(VolcanoSV (v1.0.0)、PAV (freeze2)、SVIM-asm (v1.0.2) 和 Dipcall)在14个PacBio Hifi、CLR和ONT数据集、9个模拟长读序列数据集和两个成对的肿瘤-正常CLR和ONT数据集中进行了SV检测研究。对于Hifi数据,三种基于组装的SV调用器(PAV、SVIM-asm和Dipcall)可以使用hifiasm (v0.16)的二倍体组装结果作为输入。对于CLR和ONT数据,使用Flye (v2.9-b1768)加上HapDup (v0.5-iss10)生成三种基于组装的工具的双重组装。选择hifiasm和Flye加HapDup生成组装,因为它们提供了最佳的SV调用组装结果。VolcanoSV使用其自己的相位感知组装组件(VolcanoSV-asm)生成二倍体组装。为了进一步证明VolcanoSV在不同SV评估阈值下的鲁棒性能,作者比较了四种基于组装的方法在断点识别和SV序列准确性方面的SV调用结果。在14个长读序列测序数据集中,五个PacBio HiFi数据集分别称为Hifi_L1、Hifi_L2、Hifi_L3、Hifi_L4和Hifi_L5,它们的覆盖率分别约为56×、30×、34×、28×和41×。三个PacBio CLR数据集分别称为CLR_L1、CLR_L2和CLR_L3,它们的覆盖率分别为89x、65x和29x。作者还使用了六个ONT数据集,分别称为ONT_L1、ONT_L2、ONT_L3、ONT_L4、ONT_L5和ONT_L6,它们的覆盖率分别约为48×、46×、57×、36×、47×和51×。VolcanoSV利用参考基因组和长读序列数据生成高质量的相位解决二倍体组装。使用该组装,可以全面检测所有类型的变异。VolcanoSV管道如图1和图2所示。

图片

Figure 2 VolcanoSV-vc流程

为了评估插入和删除SV检测的性能,研究者在HG002的14个长读序列库中应用了四种基于组装的工具,VolcanoSV、PAV、SVIM-asm和Dipcall。作者将它们的结果与GIAB SV黄金标准进行了比较。SV基准测试工具Truvari (v4.0.0)被用于将每个工具的SV调用与GIAB SV黄金标准进行比较。Truvari通过分析在指定区域内所有SV对的四个基本相似性指标(参考距离、互相重叠、大小相似性、序列相似性),同时确保比较的SV对之间的SV类型和基因型匹配,来评估VCF中的SV。

作者首先确定了四种基于组装的工具在不同PacBio Hifi、CLR和ONT数据集中的平均性能。在Hifi数据集中,VolcanoSV在插入和删除的平均F1(91.03%和94.19%)和基因型准确性(98.32%和99.01%)方面取得了最佳成绩。在CLR数据集中,VolcanoSV在插入和删除的平均F1(89.72%和93.70%)和基因型准确性(97.07%和98.58%)方面也取得了最佳成绩。在ONT数据集中,VolcanoSV在插入和删除的平均F1(90.10%和93.13%)和基因型准确性(98.00%和99.06%)方面同样表现优异。

当作者检查每个数据集时,VolcanoSV始终优于所有其他工具,在所有14个库中插入和删除的F1得分最高。在五个Hifi数据集中,VolcanoSV在所有性能指标方面排名最高。具体来说,在插入方面,VolcanoSV在所有指标上均优于其他工具,F1得分、召回率、精确度和GT一致性分别比排名第二的工具高出平均1.29%、0.67%、1.92%和0.59%。在删除方面,VolcanoSV保持了优势,F1得分、召回率、精确度和GT一致性分别比排名第二的工具高出平均1.07%、0.48%、1.52%和0.53%。

在三个CLR数据集中,VolcanoSV在所有指标和库中都是表现最佳的,在插入方面,VolcanoSV的性能指标(包括F1得分、召回率、精确度和GT一致性)分别比排名第二的工具高出3.30%、0.87%、4.61%和4.20%。同样,在删除方面,VolcanoSV比排名第二的工具在F1得分、召回率、精确度和GT一致性方面平均分别高出4.87%、6.19%、3.19%和1.71%。值得注意的是,CLR数据的错误率显著较高,约为10%到20%。与Hifi数据集相比,PAV、SVIM-asm和Dipcall在PacBio CLR中表现明显较差。有效消除假阳性调用是SV检测过程中的一个关键步骤。VolcanoSV在其工作流程中包含了精确的SV过滤程序和先进的GT预测模型,从而显著提高了性能,优于所有其他工具。

图片

Figure 3 多个数据集进行benchmark

在六个ONT数据集中,VolcanoSV仍然保持了显著的领先地位。在插入方面,VolcanoSV在F1得分和精确度方面分别比排名第二的工具高出平均1.5%和2.68%。在插入召回率方面,在ONT_L3-5中,VolcanoSV的召回率平均比排名第二的工具高0.38%。在ONT_L1和L6中,VolcanoSV表现为第二高的召回率,仅比最高召回率平均低0.14%。然而,在ONT_L2中,VolcanoSV仅表现为第三高的召回率,比最高召回率低1.03%。

总之,VolcanoSV在不同的长读序列数据集中成为基于组装的SV检测的顶级选择,特别是在PacBio HiFi和CLR数据集中,其F1得分、召回率、精确度和GT一致性表现出色且一致。对于ONT数据集,VolcanoSV在F1得分、精确度和GT一致性方面仍然展示了其优越性。对于插入和删除的召回率,VolcanoSV在6个数据集中有3-4个数据集中达到了最佳召回率。

文献来源

Luo, C., Liu, Y.H. & Zhou, X.M. VolcanoSV enables accurate and robust structural variant calling in diploid genomes from single-molecule long read sequencing. Nat Commun 15, 6956 (2024).

来源:基预科技

标签:F1,组装,VolcanoSV,NC,SV,CLR,长读,ONT,检测工具
From: https://www.cnblogs.com/miyuanbiotech/p/18403003

相关文章

  • synchronized
    synchronizedsynchronized底层是如何实现的以及什么是锁的升级和降级?synchronized是java内建的一种同步机制,当一个线程已经获取到锁了,其他的线程试图获取锁的时候就只能等待或者阻塞在那里。synchronized可以用来修饰方法也可以用来修饰代码块。synchronized底层是基于一对mo......
  • balance_dirty_pages_ratelimited分析
    balance_dirty_pages_ratelimited分析nr_dirtied_pause:当前task的脏页门限;dirty_exceeded:全局的脏页数超过门限或者该bdi的脏页数超过门限;(dirty_exceeded=(bdi_dirty>bdi_thresh)&&((nr_dirty>dirty_thresh)||strictlimit);)bdp_ratelimits:percpu变量,当前CPU的脏页数......
  • VNC简明教程
    VNC的安装方法VNC是一款局域网远程工具。安装包:https://cry33.lanzoum.com/b00oc0kmj密码:3zum激活码:FBV9V-7Z3V9-MED3U-47SEU-85T3A安装过程很简单,一直点下一步就行。激活有两种方式,第一种是邮箱激活,第二种是激活码激活。我们选择第二种激活方式,直接将上面的激活码粘贴进去......
  • Java 入门指南:Java 并发编程 —— 并发容器 ConcurrentLinkedDeque
    文章目录ConcurrentLinkedDeque特点构造方法常用方法使用示例注意事项ConcurrentLinkedDequeConcurrentLinkedDeque是Java并发工具包(java.util.concurrent包)中的一个线程安全的双端队列(Deque)实现,实现了Deque接口。它使用了链表结构,并且针对高并发环境进行了......
  • 【Java】已解决:java.util.concurrent.CancellationException
    文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决:java.util.concurrent.CancellationException一、分析问题背景java.util.concurrent.CancellationException是一种常见的运行时异常,当尝试访问已取消的任务时......
  • 【Java】已解决:org.aopalliance.aop.AspectException
    文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决:org.aopalliance.aop.AspectException一、分析问题背景在使用SpringAOP(面向切面编程)时,开发者有时会遇到org.aopalliance.aop.AspectException报错。这通常发生......
  • import axios, { AxiosInstance, AxiosRequestConfig, AxiosResponse } from ‘axios
    在 importaxios,{AxiosInstance,AxiosRequestConfig,AxiosResponse}from'axios';  中: 不加花括号(只导入axios): -你只能使用默认导入的 axios  对象本身来进行HTTP请求,例如 axios.get('/api/endpoint') 。-没有导入特定的类型定义,在使用相关对象......
  • Java 21的Preferences API的笔记
    JavaCoreLibrariesPreferencesAPI多用户环境下,应用程序保存配置参数的一种API,目前支持用户和系统两类配置。在现有的项目中,目前没有使用过本API。ComparingthePreferencesAPItoOtherMechanisms通常,应用的开发者还可以使用PropertiesAPI或者JNDIAPI。UsageNotes......
  • 第二届物联网与云计算技术国际学术会议 (IoTCCT 2024) 2024 2nd International Confer
    文章目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题六、咨询一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz提交检索:EICompendex、IEEEXplore、Scopus时间地点:2024年9月27-29日|广西桂林最终截稿日期:2024年9月23日三、大会......
  • 第四届机械制造与智能控制国际学术会议(ICMMIC 2024) 2024 4th International Conferenc
    文章目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题六、咨询一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz提交检索:EICompendex、IEEEXplore、Scopus会议时间:2024年9月27-29日三、大会介绍2024年第四届机械制造与智能控制国......