序列操作神器：Seqkit

时间：2022-11-12 22:14:51浏览次数：80

标签：输出 seqkit 神器 fa ex 序列 fasta Seqkit

导读

本文将介绍 SeqKit ：用于 FASTA/Q 文件操作的跨平台和超快工具包，后续提供了一些长用的示例。

1. 安装

conda 安装

conda install -c bioconda seqkit

Mac 安装

brew install seqkit  # 用于苹果电脑

2. 用法

2.1. 序列操作

seqkit seq [flags] file

参数

参数	作用
-p	取互补序列
--dna2rna	DNA to RNA
-l	序列以小写字母输出
-g	移除组装序列中的gap
-r	取反向序列
--rna2dna	RNA to DNA
-u	序列以大写字母输出
-w	每行指定长度数据序列（default=60）

# 将序列转换为一行输出
seqkit seq ex.fasta -w 0 > test.fasta

# 每行输出指定碱基n
seqkit seq -w n ex.fasta

# DNA序列转换为RNA序列
seqkit seq --dna2rna ex.fasta

# 取反向互补，切每行100碱基
seqkit seq -w 100 -p -r ex.fasta > test.fasta

2.2. 格式转换

fa2fa

# fastq 转换为 fasta
seqkit fq2fa ex1.fq -o ex2.fa

# FASTA/FASTQ 转换成 tab 格式
seqkit fx2tab ex.fa > test.fa.tab.fa
seqkit fx2tab ex.fq > test.fq.tab.fq

# 序列碱基含量及序列长度信息统计
seqkit fx2tab [flags]

参数

参数	作用
-B	输出碱基的含量 Ex: -B AT -B N
-g	输出 GC 含量
-l	输出序列长度
-n	仅输出名字
-i	输出ID
-H	输出 header 行

# 输出序列长度，GC含量，名字，ID
seqkit fx2tab -l -g -n -i -H ex.fasta

2.3. 序列信息统计

# 序列长度分布统计
seqkit stat [flags]

参数

参数	作用
-a	输出所有统计数据，包括 seq 长度的四分位数、sum_gap、N50

# 统计信息
seqkit stats *.f{a,q}.gz

# 结果如下图

2.4. 根据ID提取序列

seqkit grep

参数

参数	作用
-n	匹配整个序列的名字
-s	匹配序列
-d	pattern/motif 包含简并碱基
-i	忽略大小写
-v	反向匹配
-p	匹配模式，支持连续写多个模式，匹配任一模式即输出
-R	匹配位置选择
-r	使用正则表达式

# 选取有起始密码子的序列
seqkit grep -s -r -i -p ^atg ex.fa

# 根据ID提取序列
seqkit grep -f list ex.fa > new.fa

# 简并碱基使用。S 代表C or G.
seqkit grep -s -d -i -p TTSAA

# 匹配限定到某区域
seqkit grep -s -R 1:30 -i -r -p GCTGG＃

2.5. motif定位

seqkit locate [flags]

参数

参数	作用
-d	pattern/motif contains degenerate base
-i	ignore case
-P	only search at positive strand
-p	search pattern/motif
-f	pattern/motif file (FASTA format)

seqkit locate -i -d -p AUGGACUN ex.fa

2.6. 多个文件寻找相同的序列

seqkit common [flags]

参数

参数	作用
-n	匹配整个序列的名字，包含description部分，而不是序列id
-s	match by sequence
-i	忽略大小写
-m	use MD5 reduce memory usage

# By ID (default,>后面，空格之前的名字)输出ID名字相同的。
seqkit common test1.fa test2.fa -o common.fasta

# By full name（整个序列的名字，包含description部分）。输出序列名字相同的。
seqkit common test1.fa test2.fa  -n -o common.fasta

# 输出要比较的文件中序列相同的序列
seqkit common test1.fa test2.fa -s -i -o common.fasta

# 输出要比较的文件中序列相同的序列 (for large sequences)
seqkit common test1.fa test2.fa -s -i -o common.fasta --md5

2.7. 文件切割

seqkit split [flags]

参数

参数	作用
-i	split squences according to sequence ID
-p	将一个文件分割成N 份
-s	将一个文件按照N 条序列一个文件进行分割
-O	输出目录
-2	two-pass mode to lower memory usage(only FAST)

# 将一个文件切割为 4 份
seqkit split ex.fa -p 4

本文由mdnice多平台发布

标签：输出,seqkit,神器,fa,ex,序列,fasta,Seqkit
From： https://www.cnblogs.com/swindler/p/16884825.html

【Java Web】项目通用返回模块ServerResponse：枚举code状态码、泛型返回值、序列化注解
一、枚举类编写ResponseCodepackagecom.boulderaitech.common;/***编写枚举类的步骤*（1）编写所需的变量*（2）编写枚举类构造方法*（3）编写枚举的值，调用构造方法，使......
切片-bisect维护序列
"""[start:end:step]其中第一数字start表示切片开始位置，默认为0;第二个数字end表示切片截止（但不包含）位置（默认为列表长度）第三个数字step表示切片的步长（默认为1）......
子数组、子序列，子串、子序列，子段的简单区别
关系图表数组中的子数组、子序列，子段以及字符串的子串、子序列解释类型名称连续性数组子数组连续子段连续子序列不一定连续字符串子串连续子......
python调用golang 从指定序列中找出一组与目标值最接近的子序列 kayb
python调用golang从指定序列中找出一组与目标值最接近的子序列编写go代码生成so库python代码调用编写go代码写入hello.go文件packagemainimport( "C" "en......
python用ARIMA模型预测CO2浓度时间序列实现|附代码数据
全文下载链接：http://tecdat.cn/?p=20424时间序列为预测未来数据提供了方法。根据先前的值，时间序列可用于预测经济，天气的趋势。时间序列数据的特定属性意味着通常需......
拓端数据|Python代写时间序列选择波动率预测指数收益算法分析案例
背景在传统的金融理论中，理性和同质的投资者是核心假设之一，表明每个投资者都有相同的信息，从而做出同样的决定。然而，投资者显然是不均衡的，信息的不对称在股市中很普遍。当知情......
Jackson日期反序列化时区问题
参考:https://www.jianshu.com/p/085eb3c3120e今天遇到了一个坑爹的问题，当用Jackson对Json中的日期类型进行反序列化时，出现了日期错误的问题，当时写法是这样的:@Data@NoA......
【Java】序列化与单例
之前明白了线程安全且延迟加载的单例如何写，有两种，双重检验和静态内部类。然后为了防止反射破坏单例，在私有构造方法里面加入了一个同步变量的判断，确保构造方法只调用一次。......
拓端数据tecdat|R语言代写混合时间模型预测对时间序列进行点估计
混合预测-单模型预测的平均值-通常用于产生比任何预测模型更好的点估计。我展示了如何为混合预测构建预测区间，这种预测的覆盖范围比最常用的预测区间更准确（即80％的实......
拓端tecdat|R语言代写时间序列TAR阈值模型分析 2
为了方便起见，这些模型通常简称为TAR模型。这些模型捕捉线性时间序列模型无法捕获的行为，如极限循环，幅度相关频率和跳跃现象。数据示例TAR模型通过抑制噪声项和截距并将阈值设......