首页 > 编程语言 >GB | 华中农大焦文标团队开发适用于植物基因组的基于图形的集成式分型算法

GB | 华中农大焦文标团队开发适用于植物基因组的基于图形的集成式分型算法

时间:2024-06-15 22:46:41浏览次数:14  
标签:焦文标 变异 图谱 集成式 基因 基因组 EVG GB 分型

今年4月,华中农业大学焦文标团队在Genome Biology上发表论文:A comprehensive benchmark of graph‑based genetic variant genotyping algorithms on plant genomes for creating an accurate ensemble pipeline,主要研究了基于图谱的植物基因组变异基因分型算法,并创建了一个准确的集成流程(Ensemble Variant Genotyper,EVG)。

研究背景

随着高通量测序技术的发展,植物基因组的基因多样性测量得到了极大的推动。然而,如何准确基因分型数百万的遗传变异,尤其是结构变异,仍然是一个挑战。近年来,许多基于图谱的变异基因分型方法被开发出来,并在人类基因组上进行了测试。但是,它们在植物基因组中的性能尚不清楚。此外,考虑到植物基因组的不同复杂性,可能需要集成当前基因分型方法的优势的管道。

研究方法

本研究全面评估了八种基因分型工具在不同情境下的性能,包括变异类型和大小、测序参数、基因组背景和复杂性,以及图谱大小。使用了来自代表性植物基因组的模拟和真实数据集(包括拟南芥1001基因组项目、水稻SNP-Seek数据库、中国国家生物信息数据库等)。这些工具主要分为两类:基于读段比对的(例如vg map、vg giraffe、Paragraph、GraphTyper2和Gramtools)和基于k-mer比对的(例如BayesTyper和PanGenie)。

研究内容

研究内容包括构建全面的仿真面板,评估工具在模拟数据上的性能,以及在不同复杂性的植物基因组上的性能。研究还探讨了测序参数(如读段长度、片段大小和测序深度)对基因分型性能的影响,以及图谱中基因组数量对变异基因分型的影响。

集成变异基因分型方法EVG的工作流程和性能。

研究结果

研究发现,将现有方法应用于植物仍然存在巨大挑战,如重复序列过多、变异或高资源消耗等问题。因此,作者提出了一个名为Ensemble Variant Genotyper (EVG)的流程,它在几乎所有实验情境中都能实现更好的基因分型性能,并且即使使用5倍覆盖率的读段,也能比较地实现更高的基因分型召回率和精确度。此外,研究表明EVG在基因组图谱数量增加时更加稳健,尤其是对于插入和缺失变异。

结论

本研究为基于图谱的基因分型算法的开发和应用提供了新的见解。作者得出结论,EVG为基因分型提供了一种准确、无偏倚且成本效益高的方式,适用于小型和大型变异的基因分型,有潜力用于大型、重复性和异质性植物基因组的大规模基因分型。

EVG的源代码:https://github.com/JiaoLab2021/EVG

标签:焦文标,变异,图谱,集成式,基因,基因组,EVG,GB,分型
From: https://www.cnblogs.com/miyuanbiotech/p/18249884

相关文章