- 2024-07-29单细胞转录组上游fasta文件处理
单细胞分析上游fasta文件处理——基于cellranger与dropseqRunner ###如果测序文件由10Xgenomics平台产生,则采用cellrangercount的基本流程进行fasta文件的上游处理;如果测序文件由dropseq平台产生,则采用dropseqRunner软件进行处理一、cellranger配置1、软件安装并查看帮助
- 2024-07-28VIPdb,有害突变预测以及植物育种
VIPdb简介VIPdb(VariantImpactPredictordatabase)是一个专门收集和总结变异影响预测工具(VariantImpactPredictors,简称VIPs,也称为VariantEffectPredictors,简称VEPs)的数据库。这些工具用于帮助科研人员和医生从基因组中检测到的数百万遗传变异中识别出可能致病的变异。VIPdb
- 2024-03-135.修改fasta文件成规范文件
今天遇到一个小问题,整理的fasta参考序列并不规范,如下图所示:碱基是小写的,并且还空行了,碱基序列不连续,那怎么变成正常的呢?(见下图)在服务器里我们创建一个py脚本nanoformat_fasta.py 然后把下面代码复制进去#!/usr/bin/envpythonimportsysdefformat_fasta(inpu
- 2024-01-2422-有参转录组实战8-基因功能注释_GO_KEGG_swissprot_pfam_TFDB_iTAK
#进行功能注释时,我们只用到蛋白文件,就是上一期提取序列的文件“Ptri.protein.fa”。#使用命令“grep-c">"Ptri.protein.fa”统计下“>”的个数,发现有52400个。#新建文件夹“swissprot”wgethttps://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase
- 2023-11-244-基因家族的系统进化树-基于Windows系统上的iqtree
今天来讲如何构建系统进化树,使用的软件是iqtree,这是一个基于最大似然法估算的建树软件,可以在Windows系统上运行。1,于此网址“http://www.iqtree.org/”自行下载,并解压。2,将已经鉴定好的自己的基因家族蛋白序列(fasta格式),先用MAFFT网站做多序列比对。我的蛋白序列文件命名是“Ptb
- 2023-11-24TBtools的sequence toolkit常用功能介绍
#博客园是我最近看到的一个平台,我在其它平台包括B站,简书,知乎,CSDN和小红书都有发布教程。fastaextract(recommended)给出序列的ID,可以提取特定序列,要点Initialize。fastastats查看序列文件的统计信息。sequencemanipulate(rev&comp)对序列进行正反链的互换,点击reverse和
- 2023-11-17Linux 中 shell脚本统计fasta文件中每一条染色体的长度
001、借助数组实现[root@pc1test]#lsa.fa[root@pc1test]#cata.fa##测试fasta文件>chr1aattccggttcc>chr2ttccc>chr3tttccct##统计脚本[root@pc1test]#awk'{if($0~/^>/){tmp=$0;ay[tmp]=0}else{ay[tmp]+=
- 2023-11-17Linux 中shell脚本实现给fasta文件中重复的染色体名做序号标记
001、测试数据[root@pc1test]#lsa.txt[root@pc1test]#cata.txt##测试数据>jcf718000347055627>jcf718000347055638>jcf7180003470552496>jcf718000347054653>jcf718000347055862>jcf718000347055671>jcf71800034705508
- 2023-10-30批量修改Fasta文件中序列的名称
比如一个Fasta文件的内容如下:seq001|aaaATCGGGGseq002|bbbAAAATTTT删除序列名称中“|”后的内容,只保留seq001,seq002这样的名称点击查看代码#!/usr/bin/envpythonimportsysimportpysamwithpysam.FastxFile(sys.argv[1])asfh:forrinfh:new_n
- 2023-10-14python实现根据序列ID从fasta文件中删除指定的序列
001、[root@pc1test1]#lsa.farm.listtest.py[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt[root@pc1test1]#catrm.list##删除列表chr2chr4[root@p
- 2023-10-14python实现fasta文件碱基序列每行按照指定数目输出
001、(base)[root@pc1test1]#lsa.fatest.py(base)[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggjjjcccjjjjjj>chr3ccc>chr4aaaaatt(base)[root@pc1test1]#cattest.py##程序#!/usr/bin/envpython3#
- 2023-10-13python 实现统计fasta文件每一条序列的长度
001、a、[root@pc1test1]#lsa.fatest.py[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#cattest.py##统计每条序列的长度#!/usr/bin/envpython3#-*-coding:
- 2023-10-13python 中序列ID从fasta文件中批量提取序列数据
001、[root@pc1test1]#lsa.fachr.listtest.py[root@pc1test1]#cata.fa##测试fasta文件>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#catchr.list##序列IDchr2chr4 [root@pc1
- 2023-10-13seqkit软件根据染色体名称从fasta文件中批量提取数据
001、[root@pc1test1]#lsa.fachr.list[root@pc1test1]#cata.fa##测试fasta>chr1tttcccggg>chr2tttgggccc>chr3cccttt>chr4aaaaattt[root@pc1test1]#catchr.list##染色体列表chr2chr4[root@pc1test1]#seqkit-w8
- 2023-09-299. seqtk seqkit gtftk 总结
1.背景 在前面小节我们使用了这些软件,因为混合使用比较让人混乱,这里总结理清楚一下.2.seqtk 功能总览如下图所示.2.1seq 这个功能主要是对\(.fasta\)和\(.fastq\)格式的文件进行格式化.\(-l\) 主要是让序列每行显示多少个碱基#每行显示60个氨基酸se
- 2023-09-06fakit: 一个处理fasta序列的小工具 (二)
上一篇博文中写到出了这个小工具,现在更新到0.2.4了,新增了一些子命令。有seqtk,seqkit等好用的工具珠玉在前,还写这个主要是学习和熟悉rust这门语言的基础语法了,写出来自己玩儿咯。reop:https://github.com/sharkLoc/fakitinstall:cargoinstallfakitusage:fakit:asimplepr
- 2023-08-26转录组分析流程
condainstallsra-tools#先找到SRAdatabase中的基因(SRA_accessionList.csv)#批量下载基因awk'{print"prefetch"$1"&"}'SRA_accessionList.csv>run_prefetch.sh#利用awk生成代码并保存再shell文件中#将sra转换为fastqfastq-dumpxxx.sra#下载参考基因组g
- 2023-08-17python中SeqIO模块处理fasta文件
001、分别输出染色体ID、序列和序列的长度[root@PC1test02]#lsa.fatest.py[root@PC1test02]#cata.fa##测试数据>seq1AGAAGGGG>seq2AAACCTTTT>seq3AAATTTCCGG[root@PC1test02]#cattest.py##程序#!/usr/bin/envpython#-*-coding:
- 2023-05-15python 中 pyfaidx 模块统计fasta文件每一条染色体的长度
001、python版本和pip版本a、python版本[root@PC1pip]#python--versionPython3.11.3 b、pip版本[
[email protected]]#pip--versionpip23.1.2from/usr/local/lib/python3.11/site-packages/pip(python3.11) 002、利用pip安装 pyfaidx模块
- 2023-04-30Mummer 用法简析
动动发财的小手,点个赞吧!4个工作流程nucmer由Perl写的流程,用于联配很相近(closelyrelated)核酸序列。它比较适合定位和展示高度保守的DNA序列。注意,为了提高nucmer的精确性,最好把输入序列先做遮盖(mask)避免不感兴趣的序列的联配,或者修改单一性限制降低重复导致的联配数。prom
- 2023-03-17biopython 文件解析
test.fasta内容如下:>heavyEVQLVESGGGLVQPGGSLRLSCAASGFTLSGDWIHWVRQAPGKGLEWLGEISAAGGYTDYADSVKGRFTISADTSKNTAYLQMNSLRAEDTAVYYCARESRVSFEAAMDYWGQGT>lightDIQMTQSPSS
- 2023-01-04Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释想要分析alluxio加速效果
- 2023-01-04Spark生态之Alluxio学习20--疑问:为什么D7-D9到最后的count时间都是30s左右?
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00以下分析是主要是基于spark-1
- 2022-12-02使用seqkit软件用fasta文件中提取指定的scaffold
001、提取单条contig[root@pc1test4]#lstest.fa[root@pc1test4]#cattest.fa##测试fasta文件>contig_1ATAGAGACGACC>contig_2ATAGGACNNAGACACGTTAGAT