NC | 基于长读长的结构变异检测工具VolcanoSV

标签：F1 组装 VolcanoSV NC SV CLR 长读 ONT 检测工具

基于长reads进行结构变异的工具有很多，很多文章也进行过综合比较。今天分享一个新工具VolcanoSV。

Github：

https://github.com/maiziezhoulab/VolcanoSV

结构变异（SV）对人类基因组多样性有重要贡献，并在精准医学中发挥关键作用。尽管单分子长读序列测序的进步为SV检测提供了突破性的资源，但准确且稳健地识别SV断点和序列仍然具有挑战性。本研究介绍了VolcanoSV，这是一种创新的混合SV检测管道，它利用参考基因组和局部denovo 组装生成相位二倍体组装。VolcanoSV使用相位SNP和独特的k-mer相似性分析，使精确的相位解决SV发现成为可能。VolcanoSV擅长构建包括SNP、小插入缺失和所有类型SV的综合遗传图谱，使其非常适合人类基因组学研究。大量测试实验表明，VolcanoSV在插入和缺失SV检测方面优于现有的基于组装的工具，表现出在各种数据集（包括低覆盖度（10x）数据集）中的优越召回率、精确度、F1得分和基因型准确性。VolcanoSV在复杂SV（包括易位、重复和倒位）的识别方面也优于基于组装的工具，在模拟和真实癌症数据中表现出色。此外，VolcanoSV对各种评估参数具有鲁棒性，并且能够准确识别断点和SV序列。

Figure 1 VolcanoSV整体流程

要点

研究者首先使用四种基于组装的方法（VolcanoSV (v1.0.0)、PAV (freeze2)、SVIM-asm (v1.0.2) 和 Dipcall）在14个PacBio Hifi、CLR和ONT数据集、9个模拟长读序列数据集和两个成对的肿瘤-正常CLR和ONT数据集中进行了SV检测研究。对于Hifi数据，三种基于组装的SV调用器（PAV、SVIM-asm和Dipcall）可以使用hifiasm (v0.16)的二倍体组装结果作为输入。对于CLR和ONT数据，使用Flye (v2.9-b1768)加上HapDup (v0.5-iss10)生成三种基于组装的工具的双重组装。选择hifiasm和Flye加HapDup生成组装，因为它们提供了最佳的SV调用组装结果。VolcanoSV使用其自己的相位感知组装组件（VolcanoSV-asm）生成二倍体组装。为了进一步证明VolcanoSV在不同SV评估阈值下的鲁棒性能，作者比较了四种基于组装的方法在断点识别和SV序列准确性方面的SV调用结果。在14个长读序列测序数据集中，五个PacBio HiFi数据集分别称为Hifi_L1、Hifi_L2、Hifi_L3、Hifi_L4和Hifi_L5，它们的覆盖率分别约为56×、30×、34×、28×和41×。三个PacBio CLR数据集分别称为CLR_L1、CLR_L2和CLR_L3，它们的覆盖率分别为89x、65x和29x。作者还使用了六个ONT数据集，分别称为ONT_L1、ONT_L2、ONT_L3、ONT_L4、ONT_L5和ONT_L6，它们的覆盖率分别约为48×、46×、57×、36×、47×和51×。VolcanoSV利用参考基因组和长读序列数据生成高质量的相位解决二倍体组装。使用该组装，可以全面检测所有类型的变异。VolcanoSV管道如图1和图2所示。

Figure 2 VolcanoSV-vc流程

为了评估插入和删除SV检测的性能，研究者在HG002的14个长读序列库中应用了四种基于组装的工具，VolcanoSV、PAV、SVIM-asm和Dipcall。作者将它们的结果与GIAB SV黄金标准进行了比较。SV基准测试工具Truvari (v4.0.0)被用于将每个工具的SV调用与GIAB SV黄金标准进行比较。Truvari通过分析在指定区域内所有SV对的四个基本相似性指标（参考距离、互相重叠、大小相似性、序列相似性），同时确保比较的SV对之间的SV类型和基因型匹配，来评估VCF中的SV。

作者首先确定了四种基于组装的工具在不同PacBio Hifi、CLR和ONT数据集中的平均性能。在Hifi数据集中，VolcanoSV在插入和删除的平均F1（91.03%和94.19%）和基因型准确性（98.32%和99.01%）方面取得了最佳成绩。在CLR数据集中，VolcanoSV在插入和删除的平均F1（89.72%和93.70%）和基因型准确性（97.07%和98.58%）方面也取得了最佳成绩。在ONT数据集中，VolcanoSV在插入和删除的平均F1（90.10%和93.13%）和基因型准确性（98.00%和99.06%）方面同样表现优异。

当作者检查每个数据集时，VolcanoSV始终优于所有其他工具，在所有14个库中插入和删除的F1得分最高。在五个Hifi数据集中，VolcanoSV在所有性能指标方面排名最高。具体来说，在插入方面，VolcanoSV在所有指标上均优于其他工具，F1得分、召回率、精确度和GT一致性分别比排名第二的工具高出平均1.29%、0.67%、1.92%和0.59%。在删除方面，VolcanoSV保持了优势，F1得分、召回率、精确度和GT一致性分别比排名第二的工具高出平均1.07%、0.48%、1.52%和0.53%。

在三个CLR数据集中，VolcanoSV在所有指标和库中都是表现最佳的，在插入方面，VolcanoSV的性能指标（包括F1得分、召回率、精确度和GT一致性）分别比排名第二的工具高出3.30%、0.87%、4.61%和4.20%。同样，在删除方面，VolcanoSV比排名第二的工具在F1得分、召回率、精确度和GT一致性方面平均分别高出4.87%、6.19%、3.19%和1.71%。值得注意的是，CLR数据的错误率显著较高，约为10%到20%。与Hifi数据集相比，PAV、SVIM-asm和Dipcall在PacBio CLR中表现明显较差。有效消除假阳性调用是SV检测过程中的一个关键步骤。VolcanoSV在其工作流程中包含了精确的SV过滤程序和先进的GT预测模型，从而显著提高了性能，优于所有其他工具。

Figure 3 多个数据集进行benchmark

在六个ONT数据集中，VolcanoSV仍然保持了显著的领先地位。在插入方面，VolcanoSV在F1得分和精确度方面分别比排名第二的工具高出平均1.5%和2.68%。在插入召回率方面，在ONT_L3-5中，VolcanoSV的召回率平均比排名第二的工具高0.38%。在ONT_L1和L6中，VolcanoSV表现为第二高的召回率，仅比最高召回率平均低0.14%。然而，在ONT_L2中，VolcanoSV仅表现为第三高的召回率，比最高召回率低1.03%。

总之，VolcanoSV在不同的长读序列数据集中成为基于组装的SV检测的顶级选择，特别是在PacBio HiFi和CLR数据集中，其F1得分、召回率、精确度和GT一致性表现出色且一致。对于ONT数据集，VolcanoSV在F1得分、精确度和GT一致性方面仍然展示了其优越性。对于插入和删除的召回率，VolcanoSV在6个数据集中有3-4个数据集中达到了最佳召回率。

文献来源

Luo, C., Liu, Y.H. & Zhou, X.M. VolcanoSV enables accurate and robust structural variant calling in diploid genomes from single-molecule long read sequencing. Nat Commun 15, 6956 (2024).

来源：基预科技

标签：F1,组装,VolcanoSV,NC,SV,CLR,长读,ONT,检测工具
From： https://www.cnblogs.com/miyuanbiotech/p/18403003

NC | 基于长读长的结构变异检测工具VolcanoSV

相关文章

赞助商

阅读排行