GATK(Genome Analysis Toolkit)中的joint calling是一种变异检测策略,它允许同时对多个样本进行变异位点的分析,以提高变异检测的准确性和效率。
以下是joint calling的一些关键原理和优势:
-
数据共享:在joint calling过程中,信息在所有样本间共享。这意味着如果一个样本在某个位点的测序覆盖度较低,其他样本中相同位点的高置信度变异可以辅助调用,从而提高低频变异的检测能力。
-
区分能力:joint calling能够更清晰地区分纯合参照位点和缺失数据位点。这是因为在joint calling中,只要调用集中的任何一个个体在某个位点有变异证据,就会在该位点输出基因型调用。
-
减少假阳性:joint calling通过使用统计模型对大量数据进行变异过滤,提高了过滤假阳性的能力。这种过滤通常比单独分析每个样本更有效,因为它可以在整个样本集上应用统一的过滤标准。
-
灵活性和扩展性:GATK 3.0及以上版本引入了增量joint calling的概念,即先对每个样本单独调用变异(生成GVCF文件),然后对所有样本的GVCF文件进行joint genotyping。这种方法解决了传统joint calling在计算资源和时间上的不足,同时保持了joint calling的优势。
-
处理大规模样本集:joint calling通过GenomicsDBImport工具和GenotypeGVCFs工具,可以高效地处理大规模样本集,使得对大型队列的研究成为可能。
-
解决N+1问题:在传统的joint calling中,每当有新的样本加入时,需要重新对所有样本进行分析。而增量joint calling允许对新样本进行单独分析,然后将其添加到现有的GVCF数据集中,无需重新分析所有旧样本。
总的来说,joint calling通过在多个样本间共享信息和统计数据,提高了变异检测的准确性,尤其是在检测低频变异和处理大规模样本集时。这种方法在基因组研究中被广泛应用,尤其是在寻找与疾病相关的稀有变异时。
标签:变异,样本,calling,joint,GATK,位点 From: https://www.cnblogs.com/miyuanbiotech/p/18449459