001、测序数据为fastq格式
fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:
如下:
(base) [b20223040323@admin1 test01]$ ls ## 测试fastq格式数据 test.fastq (base) [b20223040323@admin1 test01]$ head -n 4 test.fastq | cat -n ## 第二行碱基; 第四行碱基质量值 1 @SRR12342886.1 1/1 2 TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTGCTTTTTCTAAAC 3 + 4 FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFF:F
碱基质量值不是数值的形式,而是ASCII码, 其对应的转换表格如下:
控制字符 ASCII值 控制字符 ASCII值 控制字符 ASCII值 控制字符 0 NUT 32 (space) 64 @ 96 、 1 SOH 33 ! 65 A 97 a 2 STX 34 " 66 B 98 b 3 ETX 35 # 67 C 99 c 4 EOT 36 $ 68 D 100 d 5 ENQ 37 % 69 E 101 e 6 ACK 38 & 70 F 102 f 7 BEL 39 , 71 G 103 g 8 BS 40 ( 72 H 104 h 9 HT 41 ) 73 I 105 i 10 LF 42 * 74 J 106 j 11 VT 43 + 75 K 107 k 12 FF 44 , 76 L 108 l 13 CR 45 - 77 M 109 m 14 SO 46 . 78 N 110 n 15 SI 47 / 79 O 111 o 16 DLE 48 0 80 P 112 p 17 DCI 49 1 81 Q 113 q 18 DC2 50 2 82 R 114 r 19 DC3 51 3 83 S 115 s 20 DC4 52 4 84 T 116 t 21 NAK 53 5 85 U 117 u 22 SYN 54 6 86 V 118 v 23 TB 55 7 87 W 119 w 24 CAN 56 8 88 X 120 x 25 EM 57 9 89 Y 121 y 26 SUB 58 : 90 Z 122 z 27 ESC 59 ; 91 [ 123 { 28 FS 60 < 92 \ 124 | 29 GS 61 = 93 ] 125 } 30 RS 62 > 94 ^ 126 ` 31 US 63 ? 95 _ 127 DEL
根据以上表格,可以将fastq格式数据中的碱基质量值ASCII码转换为数值的形式。
002、碱基的质量值表示的测序碱基的准确度,其计算公式:
Q = - 10 * logP
其中Q表示的质量值,P表示的是碱基错误的概率。
上述公式可以转换为:
P = 1o^(-Q/10)
由此可见 Q值越大, 则P值越小,及碱基错误的概率越小。
标签:fastq,碱基,测序,质量,控制字符,ASCII,评估 From: https://www.cnblogs.com/liujiaxin2018/p/17737164.html