首页 > 其他分享 >TBtools的sequence toolkit常用功能介绍

TBtools的sequence toolkit常用功能介绍

时间:2023-11-24 22:55:05浏览次数:30  
标签:文件 sequence 基因 toolkit TBtools CDS 序列 fasta ID

#博客园是我最近看到的一个平台,我在其它平台包括B站,简书,知乎,CSDN和小红书都有发布教程。

fasta extract (recommended)

给出序列的ID,可以提取特定序列,要点Initialize。

fasta stats

查看序列文件的统计信息。

sequence manipulate (rev&comp)

对序列进行正反链的互换,点击reverse和complement。

对序列进行单行处理,并将序列转换成大写,点击uppercase和seq in one line。

只显示文件的ID或序列。

ID simplify

可以去除ID之后的tab分隔符后面的全部内容。不用选参数。

ID rename

对文件中序列的ID进行重新命名,需要输入旧ID与新ID,中间用tab分隔符隔开。

ID prefix

可以在全部的序列ID前面加几个字母。

fasta to table convert

将fasta格式,转换成普通的桌面格式,只是去掉>,将序列排在ID后面而已。

merge and split

merge: 将两个fasta序列文件融合成一个fasta文件。split: 将含有一堆序列的文件分成含有一条序列等的多个文件,如“spilt into: 1, split mode: record per file”,就可以将原本含有50条序列的某个文件,分割成50个文件,每个文件只有1条序列。

sequence pattern locate

对某个特定的序列进行搜索定位,如对“aaatt”这个特定的序列进行搜索,就会显示序列文件中该短序列的对应的基因ID和位置。

complete ORF predict (batch mode)

提取全基因序列中的CDS序列,要求:真核;确保有完整的CDS。输出文件会有三个,一个是CDS序列文件,一个是CDS翻译出来的蛋白序列文件,一个是找不到确凿的ORF的序列文件。

batch translate CDS to protein

将CDS转换成蛋白序列,输出文件会有*,代表终止密码子,可以用notepad++注意查看*与>的数量是否相同,若不同则代表某条序列提前出现了终止密码子,这个务必注意,可以用notepad++去除末尾的*号。

Primer check (simple e-PCR)

检查一下引物是否匹配而已,若匹配,会有框框出来,不匹配就会error,做引物还是用snapgene软件好些。

GXF sequences extract

NCBI下载基因组文件和GFF文件,并提交到该工具对应框框中,记得点initialize,就可以提取CDS,gene,transcript,lnc_RNA,上游启动子序列(选CDS,parent,upstream bases 2000, retain only upstream or down stream bases)。

GXF gene position & info .extract

提取基因的位置,和染色体长度,提取基因位置后,用excel打开并整理保存为xlsx格式,后面经常用到。但是这样提取的文件,缺少蛋白ID,CDS的长度和CDS(include intron but not UTR)位置,我们用GXF sequences extract提取CDS序列,feature ID选ID而不是parent,再选“retain attributes in header”,再用sequence manipulate(rev&comp)只把ID保留下来,用excel整理,并与前面提取的基因位置文件,用Vlookup公式比对整合信息,就可以得到各个基因的信息,蛋白长度就用CDS length除以3,再减1(终止密码子)。有些基因不是编码蛋白的,格式就不匹配,这些基因很少,若需要这些基因信息就去GFF文件单个找吧。

 

标签:文件,sequence,基因,toolkit,TBtools,CDS,序列,fasta,ID
From: https://www.cnblogs.com/liangjinghui/p/17854972.html

相关文章

  • 【刷题笔记】115. Distinct Subsequences
    题目Giventwostrings s and t,return thenumberofdistinctsubsequencesof s whichequals t.Astring's subsequence isanewstringformedfromtheoriginalstringbydeletingsome(canbenone)ofthecharacterswithoutdisturbingtheremainingch......
  • poj3017 Cut the Sequence
     CuttheSequenceTimeLimit:2000MS MemoryLimit:131072KTotalSubmissions:15419 Accepted:4735DescriptionGivenanintegersequence{an}oflengthN,youaretocutthesequenceintoseveralpartseveryoneofwhichisaconsecutive......
  • Knative Eventing Sequence Flow 示例
    环境说明◼PingSource负责生成event◼Event由Sequence中的各Step顺次处理◆各Step都运行一个appender应用◆分别向收到的数据尾部附加自定义的专有数据项◼最终结果发往ksvc/event-display环境示意图创建名称空间#kubectlcreatenssequence-demonamespace/seq......
  • CF222A Shooshuns and Sequence 题解
    分析这题是一个很水的题,就是对一个序列有$2$种操作方法,一种是对第$K$个数以前的数的第一个进行删除,另一个则是在整个序列后添加这第$K$个数,使得整个序列为同一个数字,显然,后者是无效操作,则只需要判断第$K$个数以后有无与第$K$个不同的数,有则无解,反之有解。若有解,然后再......
  • CF601B Lipshitz Sequence 题解
    给你一个序列\(v_{1\dotsn}\),定义\(f(v)\)为\(v\)中斜率最大值(\(\lvertv\rvert=1\)则\(f(v)=0\)),有\(q\)组询问,每次给定\(1\lel\ltr\len\),求\(a_{l\dotsr}\)的每个子区间的\(f\)之和。一个关键的性质是,最大的斜率只在相邻数间取到。有了这个性质,这题......
  • [USACO22OPEN] Up Down Subsequence P
    [USACO22OPEN]UpDownSubsequenceP注意到这个问题是不弱于直接求LIS的,因此考虑dp。设\(f_i\)表示以\(i\)结尾的最长这个什么串的长度,显然没办法直接转移,那么暴力的想法就是多设一维,这样自然就寄了。我们考虑到这样一件事情:如果我们假装对于所有的\(j\),\(j<f_i\)时......
  • 使用MVVM Toolkit简化WPF开发
    最近.NET8的WPF推出了WPFFileDialog改进,这样无需再引用Win32命名空间就可以实现文件夹的选择与存储了,算是一个很方便的改进了。顺手写了一个小的WPF程序,在使用Model-View-ViewModel(MVVM)模式的时候,我不想使用Prism等重量级的框架,找了一个轻量级的MVVMCommunity......
  • [题解] CF407E k-d-sequence
    k-d-sequence给你一个长为\(n\)的序列,求最长的子区间使得它加入至多\(k\)个数后,重排后是公差为\(d\)的等差数列。\(n,k\le2\times10^5\),\(0\led\le10^9\)。公差是\(d\)的等差数列模\(p\)的值应该相等,所以把序列按极长模\(p\)同余的连续段分组。对于同......
  • CF1428F Fruit Sequences 题解
    使用了一种和大多数题解不同的做法。虽然是带\(log\)的。思路首先考虑如何求一个固定左端点的答案。我们发现,每个答案会随着右端点的递增单调不降。而每个答案在增加时会形成若干个区间。例如:11101010111111我们答案增加的区间即为:11100000000111可以发现,这个区间就......
  • 【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregres
    PARSeqECCV2022读论文思考的问题论文试图解决什么问题?一些文本识别模型会对semantic信息建模,从而辅助某些困难情况下的文本识别传统的auto-regressive方式限制了语义信息的传输方向;双向的auto-regressive聚合增加了不必要的计算量和复杂度;聚合视觉模型和语言......