Phred质量分数是DNA测序数据中,用来评估碱基质量的一种标准化表示方法。它最初是由美国华盛顿大学的高通量测序专家Phred J.在1997年发表的论文中提出的。
Phred质量分数使用logarithmic scale(即对数刻度)来表示碱基质量值。一般取值范围为0-40之间,其中0表示最差的质量,40表示最好的质量。
具体而言,Phred质量分数Q的计算公式如下:Q = -10 * log10(P),其中P为当该碱基未被错误识别时,在该位置上读取到的碱基含量百分比。例如,假设一个碱基出现在100个reads中,其中有3个reads将其识别错误,那么P=97/100=0.97,Q=-10*log10(0.97)=0.177 ~ 18(向下取整)。
基于这样的计算方法,Phred质量分数越高表示错误率越低,也就是说,Q40的碱基错误率约为1/10,000,非常可靠;而Q20的碱基错误率已经达到了1%,甚至无法满足某些研究的精度要求。因此,在进行DNA测序分析时,可以利用Phred质量分数来筛选出高质量的碱基,以保证数据的可靠性。
标签:Phred,分数,错误率,碱基,测序,质量 From: https://www.cnblogs.com/wzbzk/p/17388275.html