今年2月,Nature Biotechnology在线发表论文:Quality assessment of gene repertoire annotations with OMArk,描述了一个用于评估蛋白质编码基因注释质量的OMArk软件包。
许多研究直接依赖于从基因组组装中预测的蛋白质编码基因库(“蛋白质组”)来进行比较。这样做依赖于以下假设:所有基因组的预测基因含量都具有同质性,并且准确反映了现实。然而,在实践中,这种假设很少得到满足,蛋白质编码基因在报告的蛋白质组中经常缺失或片段化,非编码序列被基因预测因子错误地注释为编码基因,或者来自其他物种的污染被错误地包含在报告的序列中。
新方法OMArk提供了一种轻松全面地测量蛋白质组质量不同方面的方法:基因库的完整性,所包含基因在分类水平上的一致性,它们是否具有可疑的基因结构,以及是否存在域间或域内污染。此外,与现有方法相反,OMArk 不依赖于手动选择参考数据集;相反,它会自动识别测试蛋白质组最可能的分类分类。因此,它可以使用通用参考数据库处理生命之树上的任何测试蛋白质组。
使用方法
在线版本
地址:https://omark.omabrowser.org/
上传蛋白序列即可。
如果一个基因有多个isoforms,则上传txt文档,区分哪些基因ID为同一基因。
NP_001300751.1;NP_571866.2;XP_005166949.1 NP_001258730.1
XP_005166105.1
NP_001300751.1;NP_571866.2;XP_005166949.1
结果示例:
2个重要评估结果:完整性(Completeness)和一致性(Consistency),都是用柱状图展示,其中missing和unknown比例越少越好。
本地版本
下载OMAmer Database,推荐所有物种,文件为LUCA.h5。
地址:https://omabrowser.org/oma/current/
conda install -y -n omark_0.3.0
omamer search --db LUCA.h5 --query pep.fa --out pep.fa.db
mkdir output
omark -f Atha.pep.fa.db -d LUCA.h5 -o output
相比于BUSCO,OMArk的运行速度还是比较快的。
更多使用方法参考Github:https://github.com/DessimozLab/OMArk
标签:--,db,基因,OMArK,NP,BUSCO,NBT,OMArk,蛋白质 From: https://www.cnblogs.com/miyuanbiotech/p/18249878