fasta

2024-03-135.修改fasta文件成规范文件
今天遇到一个小问题，整理的fasta参考序列并不规范，如下图所示：碱基是小写的，并且还空行了，碱基序列不连续，那怎么变成正常的呢？（见下图）在服务器里我们创建一个py脚本nanoformat_fasta.py 然后把下面代码复制进去#!/usr/bin/envpythonimportsysdefformat_fasta(inpu
2024-01-2422-有参转录组实战8-基因功能注释_GO_KEGG_swissprot_pfam_TFDB_iTAK
#进行功能注释时，我们只用到蛋白文件，就是上一期提取序列的文件“Ptri.protein.fa”。#使用命令“grep-c">"Ptri.protein.fa”统计下“>”的个数，发现有52400个。#新建文件夹“swissprot”wgethttps://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase
2023-11-244-基因家族的系统进化树-基于Windows系统上的iqtree
今天来讲如何构建系统进化树，使用的软件是iqtree，这是一个基于最大似然法估算的建树软件，可以在Windows系统上运行。1，于此网址“http://www.iqtree.org/”自行下载，并解压。2，将已经鉴定好的自己的基因家族蛋白序列（fasta格式），先用MAFFT网站做多序列比对。我的蛋白序列文件命名是“Ptb
2023-11-24TBtools的sequence toolkit常用功能介绍
#博客园是我最近看到的一个平台，我在其它平台包括B站，简书，知乎，CSDN和小红书都有发布教程。fastaextract(recommended)给出序列的ID，可以提取特定序列，要点Initialize。fastastats查看序列文件的统计信息。sequencemanipulate(rev&comp)对序列进行正反链的互换，点击reverse和
2023-11-17Linux 中 shell脚本统计fasta文件中每一条染色体的长度
001、借助数组实现[root@pc1test]#lsa.fa[root@pc1test]#cata.fa##测试fasta文件>chr1aattccggttcc>chr2ttccc>chr3tttccct##统计脚本[root@pc1test]#awk'{if($0~/^>/){tmp=$0;ay[tmp]=0}else{ay[tmp]+=
2023-11-17Linux 中shell脚本实现给fasta文件中重复的染色体名做序号标记
001、测试数据[root@pc1test]#lsa.txt[root@pc1test]#cata.txt##测试数据>jcf718000347055627>jcf718000347055638>jcf7180003470552496>jcf718000347054653>jcf718000347055862>jcf718000347055671>jcf71800034705508
2023-10-30批量修改Fasta文件中序列的名称
比如一个Fasta文件的内容如下：seq001|aaaATCGGGGseq002|bbbAAAATTTT删除序列名称中“|”后的内容，只保留seq001,seq002这样的名称点击查看代码#!/usr/bin/envpythonimportsysimportpysamwithpysam.FastxFile(sys.argv[1])asfh:forrinfh:new_n
2023-10-14python实现根据序列ID从fasta文件中删除指定的序列
001、[root@pc1test1]#lsa.farm.listtest.py[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt[root@pc1test1]#catrm.list##删除列表chr2chr4[root@p
2023-10-14python实现fasta文件碱基序列每行按照指定数目输出
001、(base)[root@pc1test1]#lsa.fatest.py(base)[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt(base)[root@pc1test1]#cattest.py##程序#!/usr/bin/envpython3#
2023-10-13python 实现统计fasta文件每一条序列的长度
001、a、[root@pc1test1]#lsa.fatest.py[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#cattest.py##统计每条序列的长度#!/usr/bin/envpython3#-*-coding:
2023-10-13python 中序列ID从fasta文件中批量提取序列数据
001、[root@pc1test1]#lsa.fachr.listtest.py[root@pc1test1]#cata.fa##测试fasta文件>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#catchr.list##序列IDchr2chr4 [root@pc1
2023-10-13seqkit软件根据染色体名称从fasta文件中批量提取数据
001、[root@pc1test1]#lsa.fachr.list[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#catchr.list##染色体列表chr2chr4[root@pc1test1]#seqkit-w8
2023-09-299. seqtk seqkit gtftk 总结
1.背景在前面小节我们使用了这些软件,因为混合使用比较让人混乱,这里总结理清楚一下.2.seqtk 功能总览如下图所示.2.1seq 这个功能主要是对$.fasta$和$.fastq$格式的文件进行格式化.$-l$ 主要是让序列每行显示多少个碱基#每行显示60个氨基酸se
2023-09-06fakit: 一个处理fasta序列的小工具（二）
上一篇博文中写到出了这个小工具，现在更新到0.2.4了，新增了一些子命令。有seqtk，seqkit等好用的工具珠玉在前，还写这个主要是学习和熟悉rust这门语言的基础语法了，写出来自己玩儿咯。reop:https://github.com/sharkLoc/fakitinstall:cargoinstallfakitusage:fakit:asimplepr
2023-08-26转录组分析流程
condainstallsra-tools#先找到SRAdatabase中的基因（SRA_accessionList.csv）#批量下载基因awk'{print"prefetch"$1"&"}'SRA_accessionList.csv>run_prefetch.sh#利用awk生成代码并保存再shell文件中#将sra转换为fastqfastq-dumpxxx.sra#下载参考基因组g
2023-08-17python中SeqIO模块处理fasta文件
001、分别输出染色体ID、序列和序列的长度[root@PC1test02]#lsa.fatest.py[root@PC1test02]#cata.fa##测试数据>seq1AGAAGGGG>seq2AAACCTTTT>seq3AAATTTCCGG[root@PC1test02]#cattest.py##程序#!/usr/bin/envpython#-*-coding:
2023-05-15python 中 pyfaidx 模块统计fasta文件每一条染色体的长度
001、python版本和pip版本a、python版本[root@PC1pip]#python--versionPython3.11.3 b、pip版本[[email protected]]#pip--versionpip23.1.2from/usr/local/lib/python3.11/site-packages/pip(python3.11) 002、利用pip安装 pyfaidx模块
2023-04-30Mummer 用法简析
动动发财的小手，点个赞吧！4个工作流程nucmer由Perl写的流程，用于联配很相近(closelyrelated)核酸序列。它比较适合定位和展示高度保守的DNA序列。注意，为了提高nucmer的精确性，最好把输入序列先做遮盖(mask)避免不感兴趣的序列的联配，或者修改单一性限制降低重复导致的联配数。prom
2023-03-17biopython 文件解析
test.fasta内容如下：>heavyEVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAAGGYTDYADSVKGRFTISADTSKNTAYLQMNSLRAEDTAVYYCARESRVSFEAAMDYWGQGT>lightDIQMTQSPSS
2023-01-04Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
更多代码请见：https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本：alluxio-1.3.0（tachyon），spark-1.5.2,hadoop-2.6.01.解释想要分析alluxio加速效果
2023-01-04Spark生态之Alluxio学习20--疑问：为什么D7-D9到最后的count时间都是30s左右？
更多代码请见：https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本：alluxio-1.3.0（tachyon），spark-1.5.2,hadoop-2.6.00以下分析是主要是基于spark-1
2022-12-02使用seqkit软件用fasta文件中提取指定的scaffold
001、提取单条contig[root@pc1test4]#lstest.fa[root@pc1test4]#cattest.fa##测试fasta文件>contig_1ATAGAGACGACC>contig_2ATAGGACNNAGACACGTTAGAT
2022-11-12序列操作神器：Seqkit
导读本文将介绍SeqKit：用于FASTA/Q文件操作的跨平台和超快工具包，后续提供了一些长用的示例。1.安装conda安装condainstall-cbiocondaseqkitMac安装br
2022-11-09【pyfaidx】纯Python实现的FASTA随机索引库
前言基因组序列的提取，有不少强大的工具像samtools,bedtools，之前也提到pybedtools提取序列。不过pybedtools是对bedtools提供一个Python接口，除了安装pybedtools外，还需
2022-10-30linux 中实现将fasta文件的碱基数目转换为指定的个数
001、每行输出为4个碱基[root@pc1test]#lstest.fa[root@pc1test]#cattest.fa>chr1aattcctt>chr2ttggaacc>chr3TTCCGG[root@pc1test]#awk'{if($0~