首页 > 其他分享 >多转录本提取最长转录本的方法

多转录本提取最长转录本的方法

时间:2025-01-20 22:45:12浏览次数:1  
标签:提取 打印 t1 fa lst 转录 最长

1.Seqkit提取
seqkit作为一个非常全能的软件,之前有多次利用到,本来早就该学习了,却一直拖欠了下来。这次要进行一个cds序列的提取,所以在此做一个记录。
目标:将含有多个转录本的Pep文件提取出只有t1序列。
提取现在文件的id序列表
seqkit seq pep.fa -n -i -o ft.lst
将id表中的t1保留,其余删除
grep “.t1” ft.lst >ftnew.lst
根据新的id表提取序列
seqkit grep -f ftnew.lst pep.fa -o pepnew.fa

2.awk提取
由于文件给的是多行序列,利用awk时,可以先将多行序列变为一行,再运行,代码如下:
(1)多行变一行
awk '/^>/&&NR>1{print "";}{printf "%s",/^>/?$0"\n":$0}' pep.fa >pep1.fa
/^>/&&NR>1{print "";}表达的意思是开头为>且行数大于1时,打印一个换行符换行
printf表达的意思是格式打印,%s就是打印字符串
/^>/?$0"\n":$0 是一个二维判断运行结构,?前表示匹配条件,如果匹配前面的条件,运行:前的命令,如果不匹配,运行:后面的内容,即,如果该行以>开头,就是标题行,打印该行($0)并换行(“\n”),如果不匹配,直接打印该行。
(2)如果识别到t1,则打印这行以及下一行,并继续识别下一行。
awk '/t1/{print;getline;print;next}' pep1.fa>pep2.fa

标签:提取,打印,t1,fa,lst,转录,最长
From: https://www.cnblogs.com/ft-2024/p/18682619

相关文章

  • 无重复字符的最长子串
    >“偶遇变态力扣周赛,拼尽全力无法战胜,力竭而亡,无奈去刷基础题,遂写下此题解”戳我看原题题目大意给定一个字符串s,请你找出其中不含有重复字符的最长子串的长度。思路滑动窗口(不知道为啥最近和滑动窗口这么有缘),遍历右边界,每次移动更新左边界,确保窗口内不会出现重复元素。如......
  • 【动态规划】最长上升子序列(Longest Increasing Subsequence)问题以及输出具体方案
    最长上升子序列两道模板题(一样的)洛谷B3637最长上升子序列AcWing895.最长上升子序列题目描述这是一个简单的动规板子题。给出一个由\(n(n\le5000)\)个不超过\(10^6\)的正整数组成的序列。请输出这个序列的最长上升子序列的长度。最长上升子序列是指,从原序列中按顺......
  • 【NodeJS渗透】提取和分析.asar文件的案例研究
    免责声明⽂中所涉及的技术、思路和⼯具仅供以安全为⽬的的学习交流使⽤,任何⼈不得将其⽤于⾮法⽤途以及盈利等⽬的,否则后果⾃⾏承担。所有渗透都需获取授权!硬编码密钥(在SQLite中)和加密算法(在AesFormula.js文件中)信息泄露导致真实凭据被泄露一、案例研究本节案例研究将讨论我......
  • 【华为OD-E卷 - 最长连续子序列 100分(python、java、c++、js、c)】
    【华为OD-E卷-最长连续子序列100分(python、java、c++、js、c)】题目有N个正整数组成的一个序列。给定整数sum,求长度最长的连续子序列,使他们的和等于sum,返回此子序列的长度,如果没有满足要求的序列,返回-1输入描述第一行输入是:N个正整数组成的一个序列第二行输入是:给定......
  • 洛谷P1807 最长路(拓扑排序)
    题目链接:P1807最长路-洛谷|计算机科学教育新生态题目描述设 G 为有 n 个顶点的带权有向无环图,G  中各顶点的编号为 1 到 n,请设计算法,计算图 GG中 1,n 间的最长路径。输入格式输入的第一行有两个整数,分别代表图的点数 n 和边数 m。第 2 到第 (m+1)......
  • 家长必看!1 小时搞定 RAZ 英文绘本英文提取!
    家长必看!1 小时搞定 RAZ 英文绘本英文提取!是不是还在为孩子英文绘本中的生僻单词发愁?是不是还在为手工敲字翻译绘本内容而耗时费力?今天,我要给大家分享一个超实用的黑科技,让你轻松搞定孩子英文绘本的英文提取工作,只需1小时,就能完成RAZ所有绘本的英文文章提取,简直是家......
  • 关于网传微信聊天记录提取工具"留痕"盗取个人信息的分析
    今天早上看到一篇文章,是关于一个微信聊天记录提取工具泄露个人信息的内容,于是我就好奇,看了一下作者的github,然后也是自己小小的分析了一下1、官方地址Github:https://github.com/LC044/WeChatMsg2、作者自证url:https://github.com/LC044/WeChatMsg/issues/4923、本地实践......
  • 【c++】【算法】【动态规划】最长公共子序列
    【c++】【算法】【动态规划】最长公共子序列//递归方式//最长公共子序//直接递归求最长公共子序长度intFindValue(conststring&X,conststring&Y,inti,intj){ if(i==0||j==0)return0; if(X[i]==Y[j])returnFindValue(X,Y,i-1,j-1)+1; ......
  • Python时间序列分析:使用TSFresh进行自动化特征提取
    TSFresh(基于可扩展假设检验的时间序列特征提取)是一个专门用于时间序列数据特征自动提取的框架。该框架提取的特征可直接应用于分类、回归和异常检测等机器学习任务。TSFresh通过自动化特征工程流程,显著提升了时间序列分析的效率。自动化特征提取过程涉及处理数百个统计特征,包括均......
  • 【Node.js渗透】提取和分析 .asar 文件
    #Electron免责声明⽂中所涉及的技术、思路和⼯具仅供以安全为⽬的的学习交流使⽤,任何⼈不得将其⽤于⾮法⽤途以及盈利等⽬的,否则后果⾃⾏承担。所有渗透都需获取授权!书接上回以及上上回,在了解了操作系统上基于Electron的应用程序的安装和识别过程后,我们将探讨提取Electro......