首页 > 其他分享 >SAM格式各列含义

SAM格式各列含义

时间:2023-01-07 10:44:06浏览次数:57  
标签:SAM 本条 read 含义 基因组 格式 序列 各列

列含义

序号

列名

含义

1

Query Name (QNAME)

片段(template)的编号

2

FLAG

布尔特征值

3

Reference Name (RNAME)

比对到参考序列上的染色体号,如无法比对上则为*

4

Position (POS)

read比对到参考序列上,第一个碱基所在的位置。若是无法比对,则是0

5

Mapping Quality (MAPQ)

比对的质量;比对的质量分数,越高说明该read比对到参考基因组上的位置越准确,255说明此Reads的Mapping quality不可用

6

Compact Idiosyncratic Gapped Alignment Representation (CIGAR)

read比对的具体情况,前面的数字代表reads长度

“M”表示 match或 mismatch;
“I”表示 insert;
“D”表示 deletion;
“N”表示 skipped(跳过这段区域);
“S”表示 soft clipping(被剪切的序列存在于序列中);
“H”表示 hard clipping(被剪切的序列不存在于序列中);
“P”表示 padding;
“=”表示 match;
“X”表示 mismatch(错配,位置是一一对应的);

7

RNEXT

双端的另一条序列比对上的染色体号;

如果和这条相同,则为“=”;

如果未比对上,则为“*”

8

PNEXT

另一端匹配到参考基因组的位置,如果非双端,则该值为“0”

9

ISIZE

建库时将DNA打断成的长度

10

Sequence

具体序列,如果不储存这类信息,则为“*”

11

ASCII

read质量值

12

Optional fields

随各类软件变化

FLAG

根据二进制位的值表达信息

FLAG值

含义

序号(从右往左)

10进制值

16进制值

000000000000

本条read为SE数据,且成功比对到基因组

1

0

0x0

000000000001

这是PE数据来源的read

1

1

0x1

000000000010

本条read与本链配对的另外一条read均可以成功比对到参考基因组上

2

2

0x2

000000000100

本条read不能比对到基因组

3

4

0x4

000000001000

PE中与本链配对的另外一条read不能比对到基因组

4

8

0x8

000000010000

本条read是反向互补比对到基因组

5

16

0x10

000000100000

PE中与本链配对的另外一条read反向互补比对到基因组

6

32

0x20

000001000000

本条read是R1序列(来自R1.fastq.gz)

7

64

0x40

000010000000

本条read是R2序列(来自R2.fastq.gz)

8

128

0x80

000100000000

本条read比对到基因组的多处位置

9

256

0x100

001000000000

没有通过测序机器本身的质控。这个一般很少见到

10

512

0x200

010000000000

PCR or optical PCR or optical duplicate

11

1024

0x400

100000000000

存在结构变异,一条read比对到基因组上距离较远的多个位置(可能是不同染色体)

12

2038

0x800

SAM格式官方文档:http://samtools.github.io/hts-specs/SAMv1.pdf

 

 

 

标签:SAM,本条,read,含义,基因组,格式,序列,各列
From: https://www.cnblogs.com/roundfish/p/17032223.html

相关文章

  • CISAWXXX公司信息安全策略sample
    XXX公司信息安全管理手册​XXXXXX科技有限公司变更记录​前言​颁布令​颁布令​本手册依据ISO/IEC27001:2013《信息安全管理体系—要求》和ISO/IEC20000-1:2018《信息技......
  • SAM(后缀自动机)
    简介所有子串全部存下来放在一个DFT里,这个DFT有一个起点,其他都是终点。像这样。性质:任何一条从S节点出发走普通边到一个其他节点所经过的路径上的字符组成的字......
  • shell脚本将log文件格式化为markdown排版格式
    原文地址:https://www.cnblogs.com/liqinglucky/p/format2markdown.html通常日志文件往往有几十万行,导致查看日志很不方便。利用shell脚本识别日志文件中的关键词并给日志......
  • Ubuntu搭建samba
    1.安装服务aptinstallsambasmbclient-y2.配置文件vim/etc/samba/smb.conf'''[share]comment=sharedfolderbrowseable=yespath=/opt/shar......
  • python -m json.tool 格式化json 中文转码
     使用参数:--no-ensure-ascii  catjob_config.json  |python-mjson.tool --no-ensure-ascii  > job_config_format.json  具体查询本机:/usr/XXXXX......
  • 前端实现docx格式文件在线预览
    docx的实现需要使用docx-preview插件安装npmidocx-preview使用html<divref="file"></div>import{renderAsync}from"docx-preview";constdocxOptions=......
  • postman 列表类型传参 ,对象列表传参 格式
     {"examPaperId":"2","myQuestionIds":[1,3,4,5,6,7,18,20,21,22,23,24,25,26], //后台接收List<Integer>类型"myQuestions":[{"questionId":"1","questionPoint......
  • 4_JSON格式
    ​ AJAX数据格式处理响应普通文本数据如果服务器给我们响应的数据非常简答,那么使用字符串就好了,不需要我们做复杂的处理,后台编码也简单.页面代码 <%@pagecon......
  • 4_JSON格式
    ​ AJAX数据格式处理响应普通文本数据如果服务器给我们响应的数据非常简答,那么使用字符串就好了,不需要我们做复杂的处理,后台编码也简单.页面代码 <%@pagecon......
  • Linux时间戳转换成易读格式的方法
    背景最近一直在学习Redis相关的知识.其中遇到了一个redismonitor的命令但是这里有一个问题是:原生命令查询出来的时间是Unix时间戳格式的.不太好发现查看与进行对照......