首页 > 其他分享 >重测序数据碱基质量评估

重测序数据碱基质量评估

时间:2023-09-29 18:33:06浏览次数:37  
标签:fastq 碱基 测序 质量 控制字符 ASCII 评估

 

001、测序数据为fastq格式

fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:

如下:

(base) [b20223040323@admin1 test01]$ ls       ## 测试fastq格式数据
test.fastq
(base) [b20223040323@admin1 test01]$ head -n 4 test.fastq | cat -n     ## 第二行碱基; 第四行碱基质量值
     1  @SRR12342886.1 1/1
     2  TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTGCTTTTTCTAAAC
     3  +
     4  FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFF:F

 

碱基质量值不是数值的形式,而是ASCII码, 其对应的转换表格如下:

控制字符    ASCII值    控制字符    ASCII值    控制字符    ASCII值    控制字符
0    NUT    32    (space)    64    @    96    、
1    SOH    33    !    65    A    97    a
2    STX    34    "    66    B    98    b
3    ETX    35    #    67    C    99    c
4    EOT    36    $    68    D    100    d
5    ENQ    37    %    69    E    101    e
6    ACK    38    &    70    F    102    f
7    BEL    39    ,    71    G    103    g
8    BS    40    (    72    H    104    h
9    HT    41    )    73    I    105    i
10    LF    42    *    74    J    106    j
11    VT    43    +    75    K    107    k
12    FF    44    ,    76    L    108    l
13    CR    45    -    77    M    109    m
14    SO    46    .    78    N    110    n
15    SI    47    /    79    O    111    o
16    DLE    48    0    80    P    112    p
17    DCI    49    1    81    Q    113    q
18    DC2    50    2    82    R    114    r
19    DC3    51    3    83    S    115    s
20    DC4    52    4    84    T    116    t
21    NAK    53    5    85    U    117    u
22    SYN    54    6    86    V    118    v
23    TB    55    7    87    W    119    w
24    CAN    56    8    88    X    120    x
25    EM    57    9    89    Y    121    y
26    SUB    58    :    90    Z    122    z
27    ESC    59    ;    91    [    123    {
28    FS    60    <    92    \    124    |
29    GS    61    =    93    ]    125    }
30    RS    62    >    94    ^    126    `
31    US    63    ?    95    _    127    DEL

 

根据以上表格,可以将fastq格式数据中的碱基质量值ASCII码转换为数值的形式。

 

002、碱基的质量值表示的测序碱基的准确度,其计算公式:

Q = - 10 * logP

其中Q表示的质量值,P表示的是碱基错误的概率。

上述公式可以转换为:

P = 1o^(-Q/10)

由此可见 Q值越大, 则P值越小,及碱基错误的概率越小。

 

标签:fastq,碱基,测序,质量,控制字符,ASCII,评估
From: https://www.cnblogs.com/liujiaxin2018/p/17737164.html

相关文章

  • 又抢疯了!国产工业评估板仅售198元,追加200台!
    真的抢疯了!首批200台数天售罄!创龙科技基于全志双核[email protected]处理器T113-i的国产工业评估板含税仅售198元,凭借着超高的性价比受到工业用户的广泛关注,首批200台仅数天就售罄!感谢大家的热情支持!自一年前,创龙科技含税79元的T113-i核心板推出之后,已超过600家企业选用创龙科技......
  • 评估DSPM解决方案时要考虑的五大问题
    随着企业越来越意识到数据安全的重要性,DSPM市场正在迅速扩大。Gartner在其最新的“数据安全炒作周期”报告中,将术语“数据安全态势管理”解释为新兴的解决方案类别。在该定义中,Gartner强调DSPM解决方案使您的企业能够:清点、分类和保护其数据防止数据泄露;确保遵守法规。但是,当您......
  • 【红外图像】利用红外图像处理技术对不同制冷剂充装的制冷系统进行性能评估(Matlab代码
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • 【机器学习 | 分类指标大全】全面解析分类评估指标:从准确率到AUC,多分类问题也不在话下
    ......
  • 为什么要双末端测序
     001、测序时,DNA片段被打断,但是打断的片段仍然很长。二代测序的读长短,为了更多的获取同一个DNA片段上的信息,因此出现了从两端测序,尽可能多的捕获这个DNA片段的信息。  。 ......
  • 安全测试与评估(一)
    1、概述软件系统的安全性是信息安全的一个重要组成部分,而软件是由程序、数据和文档组成的。软件安全性是与防止对程序及数据的非授权的故意或意外访问的能力有关的软件属性。所有,针对程序和数据的安全性测试是软件安全性测试的重要内容。 在软件的质量特性......
  • 五项大奖、三项评估!为行业数字化转型发展注智赋能!
    9月13日-14日,由中国信息通信研究院、中国通信标准化协会联合主办的2023数字化转型发展大会暨首届数字原生大会在京举办。大会公布了第二届“鼎新杯”数字化转型应用大赛获奖案例,天翼云斩获五项大奖,顺利通过三项“2023年上半年政企数字化转型IOMM最新评估”,技术实力与实践成果再获权......
  • 2. MGI Pacbio ONT 测序原理
    本人的生物只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.1.总览2.MGI测序原理  MGI属于华大智造的专利技术,同样是用于测序.在解决下面三个问题上使用了不同的方法.(1)如何区分不同碱基:这里可以看作一致,是相似的技术.(2)荧光微弱:滚环扩增,形成DNA纳米......
  • 1. illumina测序原理
    本人的生物水平只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.1.一个典型的生物信息分析  我们在做生物信息分析时,常常是有一个目的,比如分析为什么某朵花是红色的.假设我们在做转录组数据分析,流程一般如下图所示:  得到数据后,我们会进行标准分析,得到一些......
  • 软件可靠性评估方法
    软件可靠性评估是指通过一系列的测试、分析和评估方法来确定软件系统在特定条件下能够稳定运行的程度。软件可靠性评估的目标是识别和量化软件系统可能存在的缺陷、错误或故障,并为其提供可靠性和稳定性方面的性能指标。这有助于确保软件在不同操作环境和使用情况下都能够表现良好,减......