首页 > 其他分享 >宏基因组实战之:样本组装

宏基因组实战之:样本组装

时间:2024-08-12 15:42:47浏览次数:6  
标签:contigs 样本 spades 组装 基因组 length bp Total

紧接上文, 质控去除宿主(土壤样本不需要去宿主)后下一步对样本序列进行组装。

1、组装工具

宏基因组学中常用序列组装工具不少,如SOAPdenovo2、megagit,spades、metaSPAdes、MOCAT2、IDBA-UD等各有优劣,下面两个软件是分析过程中比较常用的。

image
原文中用的是megahit组装,kmer设置21到101每20为间隔且最短长度要达到1k长,这里我们两个软件都是试下,看哪个结果好点。

megahit组装参数:

magahit -1 sample_paired_1.fastq
	-2 sample_paired_2.fastq
	--k-list 21,41,61,81,101 
	--min-contig-len 1000 
	-o res_megahit

spades组装参数:

spades.py -1 sample_paired_1.fastq
	-2 sample_paired_2.fastq
	--meta
	-k 21,41,61,81,101
	-o  res_spades

spades没有最短序列的过滤参数,我也懒得再去筛选了哈哈,最终结果用quast统计下。
megahit结果:

Statistics without reference	final.contigs
# contigs	378
# contigs (>= 0 bp)	378
# contigs (>= 1000 bp)	378
# contigs (>= 5000 bp)	60
# contigs (>= 10000 bp)	27
# contigs (>= 25000 bp)	7
# contigs (>= 50000 bp)	2
Largest contig	94957
Total length	1479335
Total length (>= 0 bp)	1479335
Total length (>= 1000 bp)	1479335
Total length (>= 5000 bp)	905258
Total length (>= 10000 bp)	679542
Total length (>= 25000 bp)	359522
Total length (>= 50000 bp)	180430
N50	8289
N90	1360
auN	21037
L50	34
L90	250
GC (%)	48.31
Mismatches	
# N's per 100 kbp	0
# N's	0

spades结果:

Statistics without reference	scaffolds
# contigs	1122
# contigs (>= 0 bp)	4780
# contigs (>= 1000 bp)	402
# contigs (>= 5000 bp)	59
# contigs (>= 10000 bp)	28
# contigs (>= 25000 bp)	8
# contigs (>= 50000 bp)	2
Largest contig	94957
Total length	2015934
Total length (>= 0 bp)	3191156
Total length (>= 1000 bp)	1532089
Total length (>= 5000 bp)	897593
Total length (>= 10000 bp)	683582
Total length (>= 25000 bp)	382605
Total length (>= 50000 bp)	180502
N50	3521
N90	633
auN	15526
L50	86
L90	763
GC (%)	49.69
Mismatches	
# N's per 100 kbp	26.29
# N's	530

标签:contigs,样本,spades,组装,基因组,length,bp,Total
From: https://www.cnblogs.com/mmtinfo/p/18355061

相关文章

  • Kolmogorov-Smirnov 检验 + k 样本 Anderson-Darling 检验 + 贝叶斯估计 + 期望/方差
    KS检验是基于Kolmogorovdistribution,指的是\[K=\sup_{t\in[0,1]}\left\lvertB(t)\right\rvert\]式中\(B(t)\)是布朗桥。\(K\)的累积分布函数是\[\Pr(K\lex)=1-2\sum_{k=1}^\infty(-1)^{k-1}\mathrme^{-2k^2x^2}=\frac{\sqrt{2\pi}}x\sum_{k=1}^\infty\mathrme^......
  • 宏基因组实战之:公开数据下载
    1、测序数据数据来源于密歇根大学的一项研究,数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址:https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018,也可以直接去ebi网站下载这个项目的原始测序数据,会给出下载用......
  • 【Python&RS】基于矢量点读取遥感影像波段值&制作训练样本
    ​    在进行遥感定量反演或数据分析时,往往我们都具有矢量的真值,可能是点文件也可能是面文件,最重要的还是通过这个矢量获取影像中该区域的值,这样方便做波段分析以及后续的反演等流程。今天给大家分享一下如何通过点文件获取影像的波段值。原创作者:RS迷途小书童博客......
  • 比较基因组学流程
    1、OrthoFinder教程 用于比较基因组学的系统发育直系学推断1.1orthofinder介绍OrthoFinder是一种快速、准确和全面的比较基因组学分析工具。它可以找到直系和正群,为所有的正群推断基因树,并为所分析的物种推断一个有根的物种树。OrthoFinder还为比较基因组分析提供全面的统计......
  • 强化学习Reinforcement Learning算法的样本效率提升策略
    强化学习ReinforcementLearning算法的样本效率提升策略1.背景介绍1.1问题的由来在强化学习领域,提升算法的样本效率是关键挑战之一。在许多现实世界的应用场景中,比如机器人自主导航、智能游戏、自动驾驶、医疗健康决策以及大规模服务系统优化,获取高价值的环境反馈往往......
  • PyTorch 数据集中某些类的训练验证拆分结果为零样本
    我正在使用PyTorch进行图像分类。我的数据集是目录格式。我已经设置了数据管道和模型。尽管如此,我在训练验证分割中遇到了一个问题,其中某些类在训练或验证数据集中的样本为零。这是我的代码和设置的相关部分:classCustomDataset(Dataset):def__init__(self,root_dir,......
  • 不同 Beta 分布样本
    给定这个Python代码success=np.array([1,2,3,4,5])failure=np.array([12,13,14,15,16])beta_samples=np.random.beta(success+1,failure+1,size=5)print(beta_samples)beta_samples2=[np.random.beta(success[i]+1,failure[i]+1)foriin......
  • vcf2gwas:简化全基因组关联分析
    vcf2gwas是一个Python构建的API,用于GEMMA、PLINK和bcftools,直接从VCF文件执行GWAS以及多个分析后操作。如何使用?vcf2gwas的使用非常简单。用户只需提供变异调用格式(VCF)文件和表型数据文件,即可通过一条命令行启动GWAS分析。例如:# 安装$ conda install vcf2gwas......
  • 严建兵 | 玉米基因组育种的理论与实践
    来源:第一届全国作物杂种优势与生物育种学术大会,严建兵老师报告《玉米基因组育种的理论与实践》。声明:本文仅用于学习交流,不用于任何商业用途。文中所有转载的图片、音频、视频文件等知识归该权利人所有。如不慎侵犯权益,请后台联络,我们将第一时间删除。......
  • IEC 61850 样本值 SavPDU 类型的 pyasn1 数据结构是否正确?
    我是使用pyasn1的新手,正在尝试按照Berkeley发布的PyASN1程序员手册文档IEC61850-9-2第8.5.2节表14将SEQUENCE类型转换为python类模型SavPdu的编码定义为SavPdu::=SEQUENCE{noASDU[0]IMPLICITINTEGER(1..65535),......