首页 > 其他分享 >RNA-seq:最长转录本提取

RNA-seq:最长转录本提取

时间:2022-10-30 19:25:44浏览次数:60  
标签:文件 seq fa -- RNA outfile 转录 最长

导读

本文将介绍为什么要提取最长转录本,以及如何从 fastagff3文件中提取最长转录本

1. Why

基因结构

由于可变剪切的存在,通常一个基因可以转录为多个转录本。但是如果将多个转录本同时进行分析,那么分析会因此受到影响。所以,目前的解决办法是,选取一个最具代表性的转录本(最长转录本)来进行分析。

2. 获取方式

  1. 从序列文件中(FASTA)提取
  2. 从基因结构注释信息文件(GFF)中提取

3. 用法

pip install GetTransTool -i https://pypi.tuna.tsinghua.edu.cn/simple
  • GENCODE fasta文件中提取最长转录本
GetLongestTransFromGencode --file example.fa.gz --outfile longest_trans_gencode.fa

# --file 序列文件
# --outfile 输出文件
  • 根据GFF文件(gencode/ensembl/ucsc )提取最长转录本
GetLongestTransFromGTF --database ensembl --gtffile example.gtf.gz --genome example.fa.gz --outfile longest_trans_ensembl.fa

# --database 基因组注释时,选择的数据库
# --gtffile  注释文件
# --genome 基因组序列文件
# --outfile 输出文件
  • GENCODE fasta文件中提取最长CDS
GetCDSLongestFromGencode --file example.fa.gz --outfile longest_cds_trans_gencode.fa

# --file 序列文件
# --outfile 输出文件
  • 根据GFF文件(gencode/ensembl/ucsc )提取最长CDS
GetCDSLongestFromGTF --database ensembl --gtffile example.gtf.gz --genome example.fa.gz --outfile longest_trans_ensembl.fa

# --database 基因组注释时,选择的数据库
# --gtffile  注释文件
# --genome 基因组序列文件
# --outfile 输出文件
  • 最长转录本,输出结构示例:

最长转录本

  • 最长CDS,输出结构示例:

最长CDS

4. code

代码过长,下面只展示部分。

code

本文由mdnice多平台发布

标签:文件,seq,fa,--,RNA,outfile,转录,最长
From: https://www.cnblogs.com/swindler/p/16841951.html

相关文章

  • 392.is-subsequence 判断子序列
    问题描述392.判断子序列解题思路与1143.最长公共子序列基本一样,只需要再判断结果是否和s.size()相等就好了。代码classSolution{public:boolisSubsequence......
  • 115.distinct-subsequence 不同的子序列
    问题描述115.不同的子序列解题思路dp[i][j]表示考虑考虑t的前j个字符在s的前i个字符中的出现个数:if(s[i-1]==t[j-1])dp[i][j]=dp[i-1][j-1]+dp[i-......
  • 300.longest-increasing-subsequence 最长递增子序列
    问题描述300.最长递增子序列解题思路关键在于,dp[i]表示什么含义便于解这道题,子序列不一定连续,所以为了便于求解,dp[i]应该表示为以nums[i-1]结尾的最长严格递增子序列......
  • 674.longest-continuous-increasing-subsequence 最长连续递增序列
    问题描述674.最长连续递增序列解题思路dp[i]表示以nums[i-1]结尾的最长连续递增子序列长度;递推关系为:if(nums[i-1]>nums[i-2])dp[i]=dp[i-1]+1......
  • R代做编程辅导:CSC120 Predicting Future Values Of A Time Sequence
    全文链接:tecdat.cn/?p=29694IntroductionUT的R语言,比起上次的A1,这次的竟然要求画56张图,真是丧心病狂。使用Dataframes去读取数据,然后运算,然后写函数去运算,不能使用index......
  • 空间转录组分析之SpaceRanger
    SpaceRanger下载安装使用下载安装当前版本SpaceRanger-2.0.0(July18,2022),运行在Linux系统,硬件需满足最小硬件要求:8-coreIntelorAMDprocessor(32cor......
  • hibernate-validator 参数校验2(补充)
    目录一@Validated分组校验(单层对象)1.1分组校验测试参数1.2分组接口1.3controller测试接口二@Validated根据前端的传参状态进行校验(单层对象)2.1controller测试接口2.......
  • sanger sequencescape 开源LIMS
    概述开源地址:https://github.com/sanger/sequencescape开源公司sanger:https://www.sanger.ac.uk/。全球领先的基因研究机构。基于云的高扩展的LIMS,适用于大样本量的实验......
  • Mac 平台 MySQL连接工具 Sequel Pro 使用经验之谈
    刚刚转到Mac开发平台,还在恋恋不舍地使用着之前的最爱dbeaver,但是查询速度确实慢,看到同事都是使用sequelpro。大致查找学习网络教程,总结如下:据说这款工具是苹果公司为......
  • 【bzoj4358】permu【XSY1535】seq(莫队+并查集)
    考虑莫队,但是我们发现这个东东只支持\(ins\)(至于怎么支持等会再讲),不支持\(del\)操作,所以我们构造一种只\(ins\)不\(del\)的莫队。由于我们按莫队的方法排序,第一关键字为\(......