首页 > 其他分享 >生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件25 - 三代测序数据灵敏比对工具ngmlr

时间:2024-07-11 18:30:11浏览次数:12  
标签:25 ngmlr -- 测序 sample 软件 bam 生信

1. ngmlr简介

CoNvex Gap-cost Ments for Long Reads(ngmlr)是一种长reads比对工具,可以将PacBio或Oxford Nanopore灵敏地与(大)参考基因组(比如人类参考基因组)对齐,能快速和正确地比对reads,包括那些跨越(复杂)结构变异的reads。

Ngmlr使用结构变异(SV)感知的k-mer搜索来找到reads的近似映射位置,然后使用Smith-Waterman比对算法来计算最终比对。Ngmlr使用凸间隙成本模型(convex gap cost model),该模型对较长间隙的间隙扩展的罚分小于较短间隙的间隙扩展,以计算精确的比对。

差距模型允许ngmlr同时考虑测序误差和真实的基因组变异,并使其在更精确地鉴定源于结构变异的断裂点的位置方面特别有效。k-mer搜索有助于检测和拆分不能线性比对的reads,使ngmlr能够可靠地将读段与广泛的不同结构变异(包括嵌套SV)(例如侧翼缺失的倒位)进行比对。

NGMLR和Sniffles可以自动过滤错误事件并对低覆盖率数据,从而降低了阻碍长reads在临床和研究环境中应用的高成本

参考文献:
Accurate detection of complex structural variations using single-molecule sequencing
https://www.nature.com/articles/s41592-018-0001-7

文献

2. ngmlr安装

# 下载安装包
wget https://github.com/philres/ngmlr/releases/download/v0.2.7/ngmlr-0.2.7-linux-x86_64.tar.gz

# 解压
tar xvzf ngmlr-0.2.7-linux-x86_64.tar.gz

cd ngmlr-0.2.7/


3. PacBio数据运行

三代fastq数据质控参考:三代测序PacBio&ONT reads过滤和修剪-Chooper和NanoFilt

结构变异Calling参考: 三代测序结构变异分析 - 单样本Germline SV calling和多样本SV Calling

# 数据质控
gunzip -c sample.fastq.gz | NanoFilt -q 10 -l 1000 > sample.clean.fastq

# 比对
ngmlr -t 4 -r reference.fasta \
-q sample.clean.fastq -o sample.sam
# -t: 线程数
# -r: 参考基因组fasta路径
# -q: clean fastq路径
# -o: 比对输出sam文件路径

# Sam2bam
samtools view -bS sample.sam > sample.bam

# 排序
samtools sort sample.bam -o sample.sorted.bam
samtools index sample.sorted.bam

# 查看bam
samtools view sample.sorted.bam|less -S

4. Oxford Nanopore运行

gunzip -c sample.fastq.gz | NanoFilt -q 10 -l 1000 > sample.clean.fastq

# 参数-x: 三代数据类型,默认PacBio
ngmlr -t 4 -r reference.fasta \
-q sample.clean.fastq -o test.sam -x ont


# Sam2bam
samtools view -bS sample.sam > sample.bam

# 排序
samtools sort sample.bam -o sample.sorted.bam
samtools index sample.sorted.bam

# 查看bam
samtools view sample.sorted.bam|less -S

主要参数说明

Usage: ngmlr [options] -r <reference> -q <reads> [-o <output>]

Input/Output:
    -r <file>,  --reference <file>
        (required)  Path to the reference genome (FASTA/Q, can be gzipped)
    -q <file>,  --query <file>
        Path to the read file (FASTA/Q) [/dev/stdin]
    -o <string>,  --output <string>
        Path to output file [stdout]
    --skip-write
        Don't write reference index to disk [false]
    --bam-fix
        Report reads with > 64k CIGAR operations as unmapped. Required to be compatible with the BAM format [false]
    --rg-id <string>
        Adds RG:Z:<string> to all alignments in SAM/BAM [none]
    --rg-sm <string>
        RG header: Sample [none]
    --rg-lb <string>
        RG header: Library [none]
    --rg-pl <string>
        RG header: Platform [none]
    --rg-ds <string>
        RG header: Description [none]
    --rg-dt <string>
        RG header: Date (format: YYYY-MM-DD) [none]
    --rg-pu <string>
        RG header: Platform unit [none]
    --rg-pi <string>
        RG header: Median insert size [none]
    --rg-pg <string>
        RG header: Programs [none]
    --rg-cn <string>
        RG header: sequencing center [none]
    --rg-fo <string>
        RG header: Flow order [none]
    --rg-ks <string>
        RG header: Key sequence [none]

General:
    -t <int>,  --threads <int>
        Number of threads [1]
    -x <pacbio, ont>,  --presets <pacbio, ont>
        Parameter presets for different sequencing technologies [pacbio]
    -i <0-1>,  --min-identity <0-1>
        Alignments with an identity lower than this threshold will be discarded [0.65]
    -R <int/float>,  --min-residues <int/float>
        Alignments containing less than <int> or (<float> * read length) residues will be discarded [0.25]
    --no-smallinv
        Don't detect small inversions [false]
    --no-lowqualitysplit
        Split alignments with poor quality [false]
    --verbose
        Debug output [false]
    --no-progress
        Don't print progress info while mapping [false]

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

标签:25,ngmlr,--,测序,sample,软件,bam,生信
From: https://blog.csdn.net/LittleComputerRobot/article/details/140353303

相关文章

  • 代码随想录算法训练营Day11 | 栈与队列基础 232.用栈实现队列 225. 用队列实现栈 20.
    栈与队列栈:先进后出   empty-push-push-pop队列:先进先出Tips: 栈和队列是STL(C++标准库)里面的两个数据结构。STL最旁边的三个版本:HPSTL、P.J.PlaugerSTL、SGISTL232.用栈实现队列题目:232用栈实现队列在python中,in主要负责push,out主要负责pop初始:self.......
  • P2568 GCD
    原题链接题解令\(g=gcd(i,j)\)则\(i=t_1i,j=t_2j\)所以原题等价于求\(\sum_{i\inprime}\sumgcd(x,y)==1,x\in[1,n/i],y\in[1,n/i]\)也就是对于每个素数\(i\),求\([1,n/i]\)内有几个数互质,我们可以求欧拉函数前缀和得出code#include<bits/stdc++.h>#definelllong......
  • P3825 [NOI2017] 游戏
    题目大意有四种类型的比赛\(x,a,b,c\),三种赛车(\(A,B,C\))。其中\(x\)的数量为\(d\)。\(x\)表示三种赛车都可以选,\(a\)表示\(A\)种不能选,\(b\)表示\(B\)种不能选,\(c\)表示\(C\)种不能选。现在要比\(n\)场,有\(m\)个限制形如:\(p,f,q,t\)表示如果第\(p\)......
  • 2025 届秋招计算机专业,武汉优质工作的薪资待遇分享!
    原文地址mp.weixin.qq.com阿里巴巴:提供本地运营和阿里云售前岗位,薪资为13k基本工资加上3-4个月的年终奖,总包约22万元。工作时间为985(早9点到晚9点,每周工作5天),有搬家费和签字费,公积金比例为12%。腾讯云智研发:涉及地图和会议领域,薪资为14k*16,提供一流......
  • 基于8255 8253电子琴仿真系统
    1.设计内容硬件模拟:使用Proteus提供的8086处理器模型进行仿真。模拟外部RAM和ROM,以存储程序代码、音频样本和临时数据。使用虚拟的输入设备模拟琴键按下和释放的输入信号。功能实现:琴键输入模拟:通过逻辑开关或者按钮模拟琴键的按下和释放动作。音频生成模拟:使用808......
  • 昇思25天学习打卡营第12天|ShuffleNet图像分类
    ShuffleNet网络介绍        ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型,和MobileNet,SqueezeNet等一样主要应用在移动端,所以模型的设计目标就是利用有限的计算资源来达到最好的模型精度。ShuffleNetV1的设计核心是引入了两种操作:PointwiseGroupConvolution......
  • 计算机毕业设计项目: node.js 网上购物商城的设计与实现99525(开题答辩+程序定制+全套文
    摘 要随着社会的发展,计算机的优势和普及使得网上购物商城的开发成为必需。网上购物商城主要是借助计算机,通过对首页、站点管理(轮播图、公告栏)用户管理(管理员、注册用户)内容管理(商城资讯、资讯分类)商城管理(商城中心、分类列表、订单列表)等信息进行管理。减少管理员的工作......
  • 25、Django-生成csv文件
    python提供了内建库-csv、可以直接通过改库操作csv文件案例如下:写入csv文件importcsvwithopen('eggs.csv','w',newline='')ascsvfile:write=csv.writer(csvfile)write.writerow(['a','b','c']) #csv文件下载在网站中......
  • 昇思25天学习打卡营第11天|基于MindSpore的GPT2文本摘要
    数据集准备nlpcc2017摘要数据,内容为新闻正文及其摘要,总计50000个样本。数据需要预处理,如下原始数据格式:article:[CLS]article_context[SEP]summary:[CLS]summary_context[SEP]预处理后的数据格式:[CLS]article_context[SEP]summary_context[SEP]代码示......
  • 昇思25天学习打卡营第25天|DCGAN生成漫画头像
    使用场景        DCGAN(深度卷积生成对抗网络)被广泛应用于生成图像数据的任务。在本教程中,我们将使用DCGAN生成漫画头像。通过这一教程,您可以了解如何搭建DCGAN网络,设置优化器,计算损失函数,以及初始化模型权重。原理        DCGAN是GAN(生成对抗网络)的扩展版本......