• 2024-03-135.修改fasta文件成规范文件
     今天遇到一个小问题,整理的fasta参考序列并不规范,如下图所示:碱基是小写的,并且还空行了,碱基序列不连续,那怎么变成正常的呢?(见下图)在服务器里我们创建一个py脚本nanoformat_fasta.py 然后把下面代码复制进去#!/usr/bin/envpythonimportsysdefformat_fasta(inpu
  • 2024-01-2422-有参转录组实战8-基因功能注释_GO_KEGG_swissprot_pfam_TFDB_iTAK
    #进行功能注释时,我们只用到蛋白文件,就是上一期提取序列的文件“Ptri.protein.fa”。#使用命令“grep-c">"Ptri.protein.fa”统计下“>”的个数,发现有52400个。#新建文件夹“swissprot”wgethttps://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase
  • 2023-11-244-基因家族的系统进化树-基于Windows系统上的iqtree
    今天来讲如何构建系统进化树,使用的软件是iqtree,这是一个基于最大似然法估算的建树软件,可以在Windows系统上运行。1,于此网址“http://www.iqtree.org/”自行下载,并解压。2,将已经鉴定好的自己的基因家族蛋白序列(fasta格式),先用MAFFT网站做多序列比对。我的蛋白序列文件命名是“Ptb
  • 2023-11-24TBtools的sequence toolkit常用功能介绍
    #博客园是我最近看到的一个平台,我在其它平台包括B站,简书,知乎,CSDN和小红书都有发布教程。fastaextract(recommended)给出序列的ID,可以提取特定序列,要点Initialize。fastastats查看序列文件的统计信息。sequencemanipulate(rev&comp)对序列进行正反链的互换,点击reverse和
  • 2023-11-17Linux 中 shell脚本统计fasta文件中每一条染色体的长度
     001、借助数组实现[root@pc1test]#lsa.fa[root@pc1test]#cata.fa##测试fasta文件>chr1aattccggttcc>chr2ttccc>chr3tttccct##统计脚本[root@pc1test]#awk'{if($0~/^>/){tmp=$0;ay[tmp]=0}else{ay[tmp]+=
  • 2023-11-17Linux 中shell脚本实现给fasta文件中重复的染色体名做序号标记
     001、测试数据[root@pc1test]#lsa.txt[root@pc1test]#cata.txt##测试数据>jcf718000347055627>jcf718000347055638>jcf7180003470552496>jcf718000347054653>jcf718000347055862>jcf718000347055671>jcf71800034705508
  • 2023-10-30批量修改Fasta文件中序列的名称
    比如一个Fasta文件的内容如下:seq001|aaaATCGGGGseq002|bbbAAAATTTT删除序列名称中“|”后的内容,只保留seq001,seq002这样的名称点击查看代码#!/usr/bin/envpythonimportsysimportpysamwithpysam.FastxFile(sys.argv[1])asfh:forrinfh:new_n
  • 2023-10-14python实现根据序列ID从fasta文件中删除指定的序列
     001、[root@pc1test1]#lsa.farm.listtest.py[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt[root@pc1test1]#catrm.list##删除列表chr2chr4[root@p
  • 2023-10-14python实现fasta文件碱基序列每行按照指定数目输出
     001、(base)[root@pc1test1]#lsa.fatest.py(base)[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt(base)[root@pc1test1]#cattest.py##程序#!/usr/bin/envpython3#
  • 2023-10-13python 实现统计fasta文件每一条序列的长度
     001、a、[root@pc1test1]#lsa.fatest.py[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#cattest.py##统计每条序列的长度#!/usr/bin/envpython3#-*-coding:
  • 2023-10-13python 中序列ID从fasta文件中批量提取序列数据
     001、[root@pc1test1]#lsa.fachr.listtest.py[root@pc1test1]#cata.fa##测试fasta文件>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#catchr.list##序列IDchr2chr4 [root@pc1
  • 2023-10-13seqkit软件根据染色体名称从fasta文件中批量提取数据
     001、[root@pc1test1]#lsa.fachr.list[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#catchr.list##染色体列表chr2chr4[root@pc1test1]#seqkit-w8
  • 2023-09-299. seqtk seqkit gtftk 总结
    1.背景  在前面小节我们使用了这些软件,因为混合使用比较让人混乱,这里总结理清楚一下.2.seqtk  功能总览如下图所示.2.1seq  这个功能主要是对\(.fasta\)和\(.fastq\)格式的文件进行格式化.\(-l\)  主要是让序列每行显示多少个碱基#每行显示60个氨基酸se
  • 2023-09-06fakit: 一个处理fasta序列的小工具 (二)
    上一篇博文中写到出了这个小工具,现在更新到0.2.4了,新增了一些子命令。有seqtk,seqkit等好用的工具珠玉在前,还写这个主要是学习和熟悉rust这门语言的基础语法了,写出来自己玩儿咯。reop:https://github.com/sharkLoc/fakitinstall:cargoinstallfakitusage:fakit:asimplepr
  • 2023-08-26转录组分析流程
    condainstallsra-tools#先找到SRAdatabase中的基因(SRA_accessionList.csv)#批量下载基因awk'{print"prefetch"$1"&"}'SRA_accessionList.csv>run_prefetch.sh#利用awk生成代码并保存再shell文件中#将sra转换为fastqfastq-dumpxxx.sra#下载参考基因组g
  • 2023-08-17python中SeqIO模块处理fasta文件
     001、分别输出染色体ID、序列和序列的长度[root@PC1test02]#lsa.fatest.py[root@PC1test02]#cata.fa##测试数据>seq1AGAAGGGG>seq2AAACCTTTT>seq3AAATTTCCGG[root@PC1test02]#cattest.py##程序#!/usr/bin/envpython#-*-coding:
  • 2023-05-15python 中 pyfaidx 模块统计fasta文件每一条染色体的长度
     001、python版本和pip版本a、python版本[root@PC1pip]#python--versionPython3.11.3 b、pip版本[[email protected]]#pip--versionpip23.1.2from/usr/local/lib/python3.11/site-packages/pip(python3.11) 002、利用pip安装 pyfaidx模块
  • 2023-04-30Mummer 用法简析
    动动发财的小手,点个赞吧!4个工作流程nucmer由Perl写的流程,用于联配很相近(closelyrelated)核酸序列。它比较适合定位和展示高度保守的DNA序列。注意,为了提高nucmer的精确性,最好把输入序列先做遮盖(mask)避免不感兴趣的序列的联配,或者修改单一性限制降低重复导致的联配数。prom
  • 2023-03-17biopython 文件解析
    test.fasta内容如下:>heavyEVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAAGGYTDYADSVKGRFTISADTSKNTAYLQMNSLRAEDTAVYYCARESRVSFEAAMDYWGQGT>lightDIQMTQSPSS
  • 2023-01-04Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
    更多代码请见:​​https://github.com/xubo245/SparkLearning​​Spark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释想要分析alluxio加速效果
  • 2023-01-04Spark生态之Alluxio学习20--疑问:为什么D7-D9到最后的count时间都是30s左右?
    更多代码请见:​​https://github.com/xubo245/SparkLearning​​Spark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00以下分析是主要是基于spark-1
  • 2022-12-02使用seqkit软件用fasta文件中提取指定的scaffold
     001、提取单条contig[root@pc1test4]#lstest.fa[root@pc1test4]#cattest.fa##测试fasta文件>contig_1ATAGAGACGACC>contig_2ATAGGACNNAGACACGTTAGAT
  • 2022-11-12序列操作神器:Seqkit
    导读本文将介绍SeqKit:用于FASTA/Q文件操作的跨平台和超快工具包,后续提供了一些长用的示例。1.安装conda安装condainstall-cbiocondaseqkitMac安装br
  • 2022-11-09【pyfaidx】纯Python实现的FASTA随机索引库
    前言基因组序列的提取,有不少强大的工具像samtools,bedtools,之前也提到pybedtools提取序列。不过pybedtools是对bedtools提供一个Python接口,除了安装pybedtools外,还需
  • 2022-10-30linux 中实现将fasta文件的碱基数目转换为指定的个数
     001、每行输出为4个碱基[root@pc1test]#lstest.fa[root@pc1test]#cattest.fa>chr1aattcctt>chr2ttggaacc>chr3TTCCGG[root@pc1test]#awk'{if($0~