宏基因组实战之：样本组装

时间：2024-08-12 15:42:47浏览次数：10

标签：contigs 样本 spades 组装基因组 length bp Total

紧接上文, 质控去除宿主（土壤样本不需要去宿主）后下一步对样本序列进行组装。

1、组装工具

宏基因组学中常用序列组装工具不少，如SOAPdenovo2、megagit，spades、metaSPAdes、MOCAT2、IDBA-UD等各有优劣，下面两个软件是分析过程中比较常用的。

spades：https://github.com/ablab/spades
megahit：https://github.com/voutcn/megahit

原文中用的是megahit组装，kmer设置21到101每20为间隔且最短长度要达到1k长，这里我们两个软件都是试下，看哪个结果好点。

megahit组装参数：

magahit -1 sample_paired_1.fastq
	-2 sample_paired_2.fastq
	--k-list 21,41,61,81,101 
	--min-contig-len 1000 
	-o res_megahit

spades组装参数：

spades.py -1 sample_paired_1.fastq
	-2 sample_paired_2.fastq
	--meta
	-k 21,41,61,81,101
	-o  res_spades

spades没有最短序列的过滤参数，我也懒得再去筛选了哈哈，最终结果用quast统计下。
megahit结果：

Statistics without reference	final.contigs
# contigs	378
# contigs (>= 0 bp)	378
# contigs (>= 1000 bp)	378
# contigs (>= 5000 bp)	60
# contigs (>= 10000 bp)	27
# contigs (>= 25000 bp)	7
# contigs (>= 50000 bp)	2
Largest contig	94957
Total length	1479335
Total length (>= 0 bp)	1479335
Total length (>= 1000 bp)	1479335
Total length (>= 5000 bp)	905258
Total length (>= 10000 bp)	679542
Total length (>= 25000 bp)	359522
Total length (>= 50000 bp)	180430
N50	8289
N90	1360
auN	21037
L50	34
L90	250
GC (%)	48.31
Mismatches	
# N's per 100 kbp	0
# N's	0

spades结果：

Statistics without reference	scaffolds
# contigs	1122
# contigs (>= 0 bp)	4780
# contigs (>= 1000 bp)	402
# contigs (>= 5000 bp)	59
# contigs (>= 10000 bp)	28
# contigs (>= 25000 bp)	8
# contigs (>= 50000 bp)	2
Largest contig	94957
Total length	2015934
Total length (>= 0 bp)	3191156
Total length (>= 1000 bp)	1532089
Total length (>= 5000 bp)	897593
Total length (>= 10000 bp)	683582
Total length (>= 25000 bp)	382605
Total length (>= 50000 bp)	180502
N50	3521
N90	633
auN	15526
L50	86
L90	763
GC (%)	49.69
Mismatches	
# N's per 100 kbp	26.29
# N's	530

标签：contigs,样本,spades,组装,基因组,length,bp,Total
From： https://www.cnblogs.com/mmtinfo/p/18355061

Kolmogorov-Smirnov 检验 + k 样本 Anderson-Darling 检验 + 贝叶斯估计 + 期望/方差
KS检验是基于Kolmogorovdistribution，指的是\[K=\sup_{t\in[0,1]}\left\lvertB(t)\right\rvert\]式中$B(t)$是布朗桥。$K$的累积分布函数是\[\Pr(K\lex)=1-2\sum_{k=1}^\infty(-1)^{k-1}\mathrme^{-2k^2x^2}=\frac{\sqrt{2\pi}}x\sum_{k=1}^\infty\mathrme^......
宏基因组实战之：公开数据下载
1、测序数据数据来源于密歇根大学的一项研究，数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址：https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018，也可以直接去ebi网站下载这个项目的原始测序数据，会给出下载用......
【Python&RS】基于矢量点读取遥感影像波段值&制作训练样本
在进行遥感定量反演或数据分析时，往往我们都具有矢量的真值，可能是点文件也可能是面文件，最重要的还是通过这个矢量获取影像中该区域的值，这样方便做波段分析以及后续的反演等流程。今天给大家分享一下如何通过点文件获取影像的波段值。原创作者：RS迷途小书童博客......
比较基因组学流程
1、OrthoFinder教程用于比较基因组学的系统发育直系学推断1.1orthofinder介绍OrthoFinder是一种快速、准确和全面的比较基因组学分析工具。它可以找到直系和正群，为所有的正群推断基因树，并为所分析的物种推断一个有根的物种树。OrthoFinder还为比较基因组分析提供全面的统计......
强化学习Reinforcement Learning算法的样本效率提升策略
强化学习ReinforcementLearning算法的样本效率提升策略1.背景介绍1.1问题的由来在强化学习领域，提升算法的样本效率是关键挑战之一。在许多现实世界的应用场景中，比如机器人自主导航、智能游戏、自动驾驶、医疗健康决策以及大规模服务系统优化，获取高价值的环境反馈往往......
PyTorch 数据集中某些类的训练验证拆分结果为零样本
我正在使用PyTorch进行图像分类。我的数据集是目录格式。我已经设置了数据管道和模型。尽管如此，我在训练验证分割中遇到了一个问题，其中某些类在训练或验证数据集中的样本为零。这是我的代码和设置的相关部分：classCustomDataset(Dataset):def__init__(self,root_dir,......
不同 Beta 分布样本
给定这个Python代码success=np.array([1,2,3,4,5])failure=np.array([12,13,14,15,16])beta_samples=np.random.beta(success+1,failure+1,size=5)print(beta_samples)beta_samples2=[np.random.beta(success[i]+1,failure[i]+1)foriin......
vcf2gwas：简化全基因组关联分析
vcf2gwas是一个Python构建的API，用于GEMMA、PLINK和bcftools，直接从VCF文件执行GWAS以及多个分析后操作。如何使用？vcf2gwas的使用非常简单。用户只需提供变异调用格式（VCF）文件和表型数据文件，即可通过一条命令行启动GWAS分析。例如：# 安装$ conda install vcf2gwas......
严建兵 | 玉米基因组育种的理论与实践
来源：第一届全国作物杂种优势与生物育种学术大会，严建兵老师报告《玉米基因组育种的理论与实践》。声明：本文仅用于学习交流，不用于任何商业用途。文中所有转载的图片、音频、视频文件等知识归该权利人所有。如不慎侵犯权益，请后台联络，我们将第一时间删除。......
IEC 61850 样本值 SavPDU 类型的 pyasn1 数据结构是否正确？
我是使用pyasn1的新手，正在尝试按照Berkeley发布的PyASN1程序员手册文档IEC61850-9-2第8.5.2节表14将SEQUENCE类型转换为python类模型SavPdu的编码定义为SavPdu::=SEQUENCE{noASDU[0]IMPLICITINTEGER(1..65535),......

宏基因组实战之：样本组装

1、组装工具

相关文章

赞助商

阅读排行