首页 > 其他分享 >生信: 一起读官方文档 GATK2.1版本 篇

生信: 一起读官方文档 GATK2.1版本 篇

时间:2023-08-29 17:56:10浏览次数:60  
标签:GATK2.1 realn marked 文档 file GATK bam 生信

一起读官方文档 GATK2.1版本 篇

参考文章:

GATK使用:https://www.plob.org/article/7070.html

GATK介绍

GATK做什么的?

它主要用于从sequencing 数据中进行variant calling,包括SNP、INDEL。比如现在风行的exome sequencing找variant,一般通过BWA+GATK的pipeline进行数据分析。

BWA流程上一篇文章已经讲完了,这一篇主要讲一下GATK2版本的使用。

GATK参数 -- GATK2.1版本

这里只讲述了在BWA + GATK流程中的GATK2.1版本应用

STEP01: 局部重新对齐

分为两个小步骤1.RealignerTargetCreator 和2. IndelRealigner

  1. GATK RealignerTargetCreator

RealignerTargetCreator 用于找到那些可能需要进行局部重新对齐的区域。

-Xmx256g 分配了最多 256GB 的内存给 Java 虚拟机

-T RealignerTargetCreator 使用 RealignerTargetCreator 工具。

-R 指定参考基因组

-I 指定输入的 BAM 文件

-o输出文件,其中包含了需要进行局部重新对齐的目标区域。这通常是一个 .intervals 文件

# 实例
java -Xmx256g -jar GenomeAnalysisTK-2.1/GenomeAnalysisTK.jar -T RealignerTargetCreator -R $ref -I bam/$file.bam -o bam/$file.realn.intervals 
  1. GATK IndelRealigner

IndelRealigner根据上面的RealignerTargetCreator对这些局部区域进行重新对齐

-T IndelRealigner使用 IndelRealigner 工具。

-targetIntervals指定由上一步 RealignerTargetCreator 生成的 .intervals 文件路径,主要表示哪些区域需要进行重新对齐

java -Xmx256g -jar GenomeAnalysisTK-2.1/GenomeAnalysisTK.jar -T IndelRealigner -R $ref -targetIntervals bam/$file.realn.intervals -I bam/$file.bam -o bam/$file.realn.bam

注意RealignerTargetCreatorIndelRealigner是一块使用的,这在GATK4版本中已经可以使用HaplotypeCaller

STEP02: picard进行MarkDuplicates

MarkDuplicates 工具对GATKIndelRealigner后的$file.realn.bam进行 标记和处理重复的序列读取。

-Xmx4g: 为 Java 虚拟机分配最多 4GB 的内存

-XX:ConcGCThreads=2: 设置并发垃圾回收器线程的数量为 2

-XX:ParallelGCThreads=12: 设置用于并行垃圾回收的线程数量为 12

MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000: 设置用于存储 read ends 信息的最大文件句柄数

TMP_DIR=TMP: 设置临时目录。

INPUT=bam/$file.realn.bam: 输入 BAM 文件

OUTPUT=bam/$file.realn.marked.bam: 包含标记了重复读取信息的BAM文件

METRICS_FILE=bam/$file.realn.marked.txt: 输出的文本文件,其中包含有关重复标记的各种度量和统计信息。

VALIDATION_STRINGENCY=LENIENT: 验证严格性的设置。LENIENT 表示在遇到不完全符合标准的行时发出警告,而不是终止。

java -Xmx4g -XX:ConcGCThreads=2 -XX:ParallelGCThreads=12 -jar picard.jar MarkDuplicates MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000 \
TMP_DIR=TMP \
INPUT=bam/$file.realn.bam \
OUTPUT=bam/$file.realn.marked.bam \
METRICS_FILE=bam/$file.realn.marked.txt \
VALIDATION_STRINGENCY=LENIENT 

# samltools对bam文件建立索引后续使用
samtools index bam/$file.realn.marked.bam

STEP03: GATK UnifiedGenotyper进行基因变异检测

UnifiedGenotyper同时检测单核苷酸变异(SNPs)和短插入/缺失(indels)。最新版本GATK4已经使用更先进的工具HaplotypeCaller,之后会出一期专门的文章阅读GATK4教程。下面是对该GATK2.1中的UnifiedGenotyper参数讲解。

-Xmx256g: 为 Java 虚拟机分配最多 256GB 的内存。

-T UnifiedGenotyper: 指定使用 UnifiedGenotyper 工具。

--num_threads 30: 指定使用 30 个线程进行计算。

-R $ref: 指定参考基因组的路径(这里由 shell 变量 $ref 保存)。

-I bam/$file.realn.marked.bam -I bam/WT.realn.marked.bam: 指定输入的 BAM 文件。这里有两个输入文件:一个是样本(由 $file 表示),另一个是野生型(WT)。

-o VCF/$file-WT.GATK2.1.vcf: 指定输出的 VCF 文件的路径和名称。

-stand_call_conf 30.0: 设置变异检测的置信度阈值为 30。

-glm BOTH: 指定同时检测 SNPs 和 indels。

-rf BadCigar: 使用BadCigar读取过滤器来过滤具有不合规或损坏的 CIGAR 字符串的读取。

java -Xmx256g -jar GenomeAnalysisTK-2.1/GenomeAnalysisTK.jar -T UnifiedGenotyper \
--num_threads 30 \
-R $ref \
-I  bam/$file.realn.marked.bam -I bam/WT.realn.marked.bam \
-o VCF/$file\-WT.GATK2.1.vcf \
-stand_call_conf 30.0 \
-glm BOTH \
-rf BadCigar

使用bcftools查看一下生成的vcf文件 : bcftools view W356-WT.GATK2.1.vcf.gz | less -SN

image-20230829170008725

标签:GATK2.1,realn,marked,文档,file,GATK,bam,生信
From: https://www.cnblogs.com/honeyShi/p/17665510.html

相关文章

  • 要调用API接口获取商品数据,首先需要了解该API的文档和规范
    要调用API接口获取商品数据,首先需要了解该API的文档和规范。大多数API都需要使用API密钥进行身份验证,因此您需要先注册API提供商,并从他们那里获取API密钥。以下是一些通用的步骤:注册API提供商并获取API密钥在开始使用任何API之前,您需要先注册API提供商,并从他们那里获取API密钥。请......
  • 个人相册管理系统-计算机毕业设计源码+LW文档
    随着社会的发展,人们生活水平的 提高,网络科技和云端技术的完善,越来越多的人喜欢通过拍照的方式把生活中美好的事物以及一瞬间记录下来,但是随着照片越来越多,传统的相册已经不能满足我们的基本需求,不方便携带,也不方便与他人分享。这个时候,网络个人相册就能解决这些问题,不光能保存大量......
  • 教务管理系统-计算机毕业设计源码+LW文档
    摘 要随着社会经济的发展和进步的速度,当时的人们从某种角度看到,对信息技术的认识已经从低层次发展到高层次,进一步提升到理性思考的意识,对信息化管理工作的需要逐渐增加。当代科学的信息管理使相关信息的存储更加准确、快捷、完善,能够进一步提升工作中信息管理的效率,促进其发展。......
  • 出租车管理系统-计算机毕业设计源码+LW文档
    摘 要随着城市交通建设的快速发展,出租车行业也随之迅速发展,城市出租车车队的规模和数量都在增长,这为出租车管理公司制定了新的、更严格的标准。企业也迫切希望企业规范管理实践,使其发展经营更加科学,就必须学习尖端管理技术,并鼓励企业管理战略的发展。随着计算机技术和通信技术......
  • 智能菜谱系统-计算机毕业设计源码+LW文档
    1.1研究背景自古以来,烹饪食品一直是人类的基本需求之一,烹饪技术的不断发展和创新,为人们带来了不同的美食体验。科技进步的同时又在不断地加快人们的生活节奏,越来越忙碌的生活节奏使得人们能够花费在制作美食上的时间越来越少;同时,随着生活水平的提高,人们对健康饮食的需求也日益增长......
  • 幼儿园管理系统-计算机毕业设计源码+LW文档
    摘 要现在人们对学前教育越来越重视,幼儿教育发展迅速,幼儿的数量也在大大增加,导致幼儿园的管理工作变得愈加繁重。以报表的方式管理幼儿园信息资料,不仅不方便园中资料的存储和查看,还加重了园中的管理工作、减低了工作效率。现在,大多数幼儿园都缺少一个向外界展现自身特色的平台,幼......
  • 国内ERP对接各大零售平台开放文档
    前言写这篇文章目的在于笔记,两年开发经验,对接过美团和抖音b2c模式、还有o2o配送平台相关业务,刚开始我也挺懵的,完全搞不懂我们ERP属于哪个主体,平台主体如何对应我们系统主体,授权方式,扣费方式...现在在下面都做下整理接入主体不管你们公司ERP(后续简称为ERP)准备对接哪个平台的......
  • ByteBuf用法详解文档
    来源:http://www.taodudu.cc/news/show-3638306.html?action=onClick_____________________________________________________________________________________________ ByteBufbytebuf文档点这里基本信息:ByteBuf类java.lang.Objectio.netty.buffer.ByteBuf所有已实......
  • 关于onlyoffice完成安装配置后,文档一直加载中的坑
     坑:根据官方文档按顺序安装完erlang,Rabbit,PostgreSQL运行环境后,安装完onlyoffice,配置完成后测试时文档一直提示加载中,无任何其他报错,也没有报错日志,一番排查后初步认定为无法链接到数据库。通过再次阅读官方文档,发现是创建数据库时账号密码和安装时输入不一致导致的。。。调......
  • 基于Java的小说阅读系统-计算机毕业设计源码+LW文档
    毕业设计(论文)的基本要求随着信息技术的发展,基于web模式的小说阅读系统逐渐普及,网上阅读是一种新型的阅读模式,其模式受到了人们的欢迎。要求:(1)学生能针对实际的小说阅读系统需求进行调研,并查阅相关资料撰写出开题报告。(2)在此基础上选用合适的开发平台与工具进行系统开发与调试。(3......