首页 > 其他分享 >加速体细胞突变检测分析流程-系列2(ctDNA等高深度样本)

加速体细胞突变检测分析流程-系列2(ctDNA等高深度样本)

时间:2023-07-05 10:01:49浏览次数:55  
标签:体细胞 ctDNA bam normal -- 样本 tumor sentieon nt

Sentieon●体细胞变异检测系列-2

 

 Sentieon 致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、准确度和可靠性。

 

针对体细胞变异检测,Sentieon软件提供两个模块:TNscope和TNhaplotyer2。

 

TNscope:此模块使用Sentieon特有的算法,拥有更快的计算速度(提速10倍+)和更高的计算精度,对临床基因诊断样本尤其适用;


TNhaplotyper2:此模块匹配Mutect2(现在匹配到4.1.9)结果的同时,计算速度提升10倍以上。

 

 

ctDNA变异检测分析

 

以下给出的步骤脚本,主要针对ctDNA和其他高深度测序的样本数据(2000-5000x depth, AF > 0.3%)

 

第一步:Alignment

# ****************************************** 
# 1a. Mapping reads with BWA-MEM, sorting for tumor sample 
# ****************************************** 
( sentieon bwa mem -M -R "@RG\tID:$tumor\tSM:$tumor\tPL:$platform" \
-t $nt -K 10000000 $fasta $tumor_fastq_1 $tumor_fastq_2 || \
echo -n 'error' ) | \
sentieon util sort -o tumor_sorted.bam -t $nt --sam2bam -i -

# ****************************************** 
# 1b. Mapping reads with BWA-MEM, sorting for normal sample 
# ****************************************** 
( sentieon bwa mem -M -R "@RG\tID:$normal\tSM:$normal\tPL:$platform" \
-t $nt -K 10000000 $fasta $normal_fastq_1 $normal_fastq_2 || 
echo -n 'error' ) | \
sentieon util sort -o normal_sorted.bam -t $nt --sam2bam -i -

 

第二步:PCR Duplicate Removal (Skip For Amplicon)

# ****************************************** 
# 2a. Remove duplicate reads for tumor sample. 
# ****************************************** 
# ******************************************  
sentieon driver -t $nt -i tumor_sorted.bam \
      --algo LocusCollector \
      --fun score_info \ tumor_score.txt sentieon driver -t $nt -i tumor_sorted.bam \
      --algo Dedup \
      --score_info tumor_score.txt \
      --metrics tumor_dedup_metrics.txt \ tumor_deduped.bam
# ****************************************** 
# 2b. Remove duplicate reads for normal sample. 
# ****************************************** 
sentieon driver -t $nt -i normal_sorted.bam \
     --algo LocusCollector \
     --fun score_info \ normal_score.txt sentieon driver -t $nt -i normal_sorted.bam \
     --algo Dedup \
     --score_info normal_score.txt \
     --metrics normal_dedup_metrics.txt \ normal_deduped.bam

 

第三步: Base Quality Score Recalibration (Skip For Small Panel)

# ****************************************** 
# 3a. Base recalibration for tumor sample
# ******************************************
sentieon driver -r $fasta -t $nt -i tumor_deduped.bam --interval $BED \
    --algo QualCal \
    -k $dbsnp \
    -k $known_Mills_indels \
    -k $known_1000G_indels \ tumor_recal_data.table
# ****************************************** 
# 3b. Base recalibration for normal sample 
# ****************************************** 
sentieon driver -r $fasta -t $nt -i normal_deduped.bam --interval $BED \
     --algo QualCal \
     -k $dbsnp \
     -k $known_Mills_indels \
     -k $known_1000G_indels \ 
     normal_recal_data.table

 

第四步:Variant Calling (Tumor Only)

sentieon driver -r $fasta -t $nt -i tumor_deduped.bam --interval $BED --interval_padding 10 \
     --algo TNscope \
     --tumor_sample $TUMOR_SM \
     --dbsnp $dbsnp \
     --disable_detector sv \
     --min_tumor_allele_frac 3e-3 \
     --filter_t_alt_frac 3e-3 \
     --clip_by_minbq 1 \
     --min_init_tumor_lod 3.0 \
     --min_tumor_lod 3.0 \
     --assemble_mode 4 \
     --resample_depth 100000 \
     [--pon panel_of_normal.vcf \] 
     output_tnscope.pre_filter.vcf.gz

 

第五步:Variant Filtration (Tumor Only)

bcftools annotate -x "FILTER/triallelic_site" output_tnscope.pre_filter.vcf.gz | \ 
   bcftools filter -m + -s "low_qual" -e "QUAL < 10" | \ 
   bcftools filter -m + -s "short_tandem_repeat" -e "RPA[0]>=10" | \ 
   bcftools filter -m + -s "read_pos_bias" -e "FMT/ReadPosRankSumPS[0] < -5" | \
   bcftools norm -f $fasta -m +any | \ 
sentieon util vcfconvert - output_tnscope.filtered.vcf.gz

标签:体细胞,ctDNA,bam,normal,--,样本,tumor,sentieon,nt
From: https://www.cnblogs.com/chsnp/p/17523178.html

相关文章

  • 体细胞突变检测分析流程-系列1( WES&Panel)
    Sentieon●体细胞变异检测-系列1 Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、准确度和可靠性。 针对体细胞变异检测,Sentieon软件提供两个模块:TNscope和TNhaplotyer2。 TNscope:此模块......
  • 单样本t检验
    一、案例介绍某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问,从事铅作业男性工人的血红蛋白含量均数是否不等于正常男性的均数140g/L?部分数据如图1:图1二、问题分析检验样本均数与已知总体均数的是否有差别,即判断36名从事铅作业......
  • CVPR23 | 浙大、NTU提出零样本通用分割框架PADing
    前言 本文分享论文【PrimitiveGenerationandSemantic-relatedAlignmentforUniversalZero-ShotSegmentation】,由浙大、NTU提出零样本通用分割框架PADing。本文转载自我爱计算机视觉仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结......
  • 不用RLHF,匹敌GPT-4!Meta重磅发布LIMA 65B,1000个样本性能飞升,LeCun转赞
    人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。而现在,MetaAI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要!论文一出,直接在AI圈炸了锅!就连LeCun忍不住发推炫一番:LIMA:LLaMa-65B+1000监督样本=GPT-4/Bard级别的性能。正如标题所称,LIMA是「LessisMo......
  • 样本熵,多尺度样本熵,层次样本熵,时移多尺度样本熵,复合多尺度样本熵,精细复合多尺度样本熵
    包括:样本熵(SampleEntropy),多尺度样本熵(MultiscaleSampleEntropy),复合多尺度样本熵(compositemultiscalesampleentropy),精细复合多尺度样本熵(refinedcompositemultiscalesampleentropy),时移多尺度样本熵(time-shiftmultiscalesampleentropy),层次多尺度样本熵(Hierarchic......
  • R:Wilcoxon秩和检验,比较两组样本中的基因表达差异
    setwd("E:\\20220927宏基因组教学\\02后期分析\\05willcox")library(doBy)gene<-read.table('table.l5.relative-SE.txt',sep='\t',row.names=1,header=TRUE,stringsAsFactors=FALSE,check.names=FALSE)group<-read.tabl......
  • m基于HOG特征提取和GRNN网络的人体姿态识别算法matlab仿真,样本为TOF数据库的RGB-D深
    1.算法仿真效果matlab2022a仿真结果如下:TOF数据库如下:2.算法涉及理论知识概要1、HOG特征:方向梯度直方图(HistogramofOrientedGradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。......
  • m基于HOG特征提取和GRNN网络的人体姿态识别算法matlab仿真,样本为TOF数据库的RGB-D深
    1.算法仿真效果matlab2022a仿真结果如下:  TOF数据库如下:      2.算法涉及理论知识概要1、HOG特征:        方向梯度直方图(HistogramofOrientedGradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统......
  • 以样本学习方法解决设备故障检测中的标签问题
    文章的主要内容针对这些问题,提出了一种主动领域自适应智能故障检测框架LDE-ADA,该框架利用迁移学习和主动学习相结合的方法来解决标签域扩展问题,从而提高模型的检测性能。同时,提出了一种改进的主动学习查询策略,以准确选择目标域中新增加的健康类别样本来辅助模型训练,解决标签域扩......
  • 机器学习样本标记 示意代码
    目标:根据各个字段数据的分布(例如srcIP和dstIP的top10)以及其他特征来进行样本标注,最终将几类样本分别标注在black/white/ddos/mddos/cdn/unknown几类。效果示意:-------------chooseone--------------subdomain:DNSQueryName(N)ip:srcip(S)ordstip(D)length:DNSRequestLength......