今年4月,华中农业大学焦文标团队在Genome Biology上发表论文:A comprehensive benchmark of graph‑based genetic variant genotyping algorithms on plant genomes for creating an accurate ensemble pipeline,主要研究了基于图谱的植物基因组变异基因分型算法,并创建了一个准确的集成流程(Ensemble Variant Genotyper,EVG)。
研究背景
随着高通量测序技术的发展,植物基因组的基因多样性测量得到了极大的推动。然而,如何准确基因分型数百万的遗传变异,尤其是结构变异,仍然是一个挑战。近年来,许多基于图谱的变异基因分型方法被开发出来,并在人类基因组上进行了测试。但是,它们在植物基因组中的性能尚不清楚。此外,考虑到植物基因组的不同复杂性,可能需要集成当前基因分型方法的优势的管道。
研究方法
本研究全面评估了八种基因分型工具在不同情境下的性能,包括变异类型和大小、测序参数、基因组背景和复杂性,以及图谱大小。使用了来自代表性植物基因组的模拟和真实数据集(包括拟南芥1001基因组项目、水稻SNP-Seek数据库、中国国家生物信息数据库等)。这些工具主要分为两类:基于读段比对的(例如vg map、vg giraffe、Paragraph、GraphTyper2和Gramtools)和基于k-mer比对的(例如BayesTyper和PanGenie)。
研究内容
研究内容包括构建全面的仿真面板,评估工具在模拟数据上的性能,以及在不同复杂性的植物基因组上的性能。研究还探讨了测序参数(如读段长度、片段大小和测序深度)对基因分型性能的影响,以及图谱中基因组数量对变异基因分型的影响。
研究结果
研究发现,将现有方法应用于植物仍然存在巨大挑战,如重复序列过多、变异或高资源消耗等问题。因此,作者提出了一个名为Ensemble Variant Genotyper (EVG)的流程,它在几乎所有实验情境中都能实现更好的基因分型性能,并且即使使用5倍覆盖率的读段,也能比较地实现更高的基因分型召回率和精确度。此外,研究表明EVG在基因组图谱数量增加时更加稳健,尤其是对于插入和缺失变异。
结论
本研究为基于图谱的基因分型算法的开发和应用提供了新的见解。作者得出结论,EVG为基因分型提供了一种准确、无偏倚且成本效益高的方式,适用于小型和大型变异的基因分型,有潜力用于大型、重复性和异质性植物基因组的大规模基因分型。
EVG的源代码:https://github.com/JiaoLab2021/EVG
标签:焦文标,变异,图谱,集成式,基因,基因组,EVG,GB,分型 From: https://www.cnblogs.com/miyuanbiotech/p/18250354