首页 > 其他分享 >PLEK升级了:PLEKv2工具在RNA序列分析中的卓越表现

PLEK升级了:PLEKv2工具在RNA序列分析中的卓越表现

时间:2024-08-07 11:10:18浏览次数:7  
标签:RNA PLEKv2 准确率 序列 集上 PLEK

摘要:

使用 PLEKv2 识别鉴定lncRNA,只需要输入RNA的序列(fa文件)即可。

 

在生物信息学领域,长非编码RNA(lncRNA)和信使RNA(mRNA)的准确区分对于理解基因调控机制至关重要。随着深度学习技术的兴起,我们迎来了PLEKv2——PLEK工具的全新升级版,它在RNA序列分类精度方面取得了显著提高。这里探讨PLEKv2的技术亮点、实现细节以及在多样化数据集上的应用表现,并展望其在未来研究中的潜在影响。PLEKv2软件可以在https://sourceforge.net/projects/plek2/上免费获取。

关键词: PLEKv2, RNA序列分类,深度学习,生物信息学,跨物种预测

 

一、引言

随着高通量测序技术的飞速发展,生物信息学正面临着前所未有的数据量和复杂性挑战。RNA序列的分类作为基因功能研究的基础,其准确性直接影响后续的生物学解释和应用。PLEKv2的问世,正是为了应对这一挑战,通过深度学习技术提升RNA序列的分类效率和准确性。

 

二、PLEKv2技术亮点

高准确率: PLEKv2在人类数据集上达到了98.7%的预测准确率,这一成绩在同类工具中遥遥领先。

跨物种预测: 该工具不仅适用于人类,还能进行跨物种的RNA序列预测,显示出良好的泛化能力。

植物数据适用性: PLEKv2在植物数据集上同样表现出色,

Coding-Net模型: 该工具采用了创新的Coding-Net模型,结合k-mer频率和ORF长度特征,为RNA序列分类提供了新的视角。

 

三、实现细节

PLEKv2的技术实现涵盖了数据预处理、特征提取、深度学习模型构建和超参数调优等多个环节:

数据预处理: 如图1。

数据收集:首先从公共数据库如GENCODE和RefSeq获取人类lncRNA和mRNA的序列数据。

数据清洗:去除序列长度不足200个核苷酸的短序列。

替换序列中的'U'(尿嘧啶)为'T'(胸腺嘧啶),因为在DNA中通常使用'T'表示胸腺嘧啶。符号标准化:将序列中所有混合碱基符号(如'R', 'Y', 'M', 'K', 'S', 'W', 'H', 'B', 'V', 'D'和'N')替换为'N',表示不确定的碱基。

序列平衡:为了确保模型不会因为某一类别的样本数量过多而产生偏差,对lncRNA和mRNA的样本数量进行随机抽样,以保持两者数量相等。

特征计算:计算加权k-mer频率,k-mer是长度为k的核苷酸序列模式,PLEKv2中对不同长度的k-mer(通常是1到6)出现的频率进行统计和加权。

计算开放阅读框(ORF)长度:ORF是DNA或RNA序列中可能编码蛋白质的部分,PLEKv2通过寻找起始密码子(ATG)和终止密码子来确定ORF的长度,并进行归一化处理。

 

 

图1 数据预处理

特征提取: PLEKv2利用k-mer频率和ORF长度构建了特征向量,为深度学习模型提供了丰富的输入信息。

深度学习模型: 如图2所示,PLEKv2采用了卷积神经网络(CNN)和全连接层,有效提取并学习了RNA序列的特征。

 

 

图2 网络模型

超参数调优: PLEKv2通过细致的超参数调优,进一步提升了模型的性能和泛化能力。

四、应用表现

PLEKv2在多个层面上展现了其强大的应用潜力:

如表1所示,PLEKv2在人类数据集上的预测准确率达到了98.7%,这一结果显著高于其他传统工具和一些早期的深度学习模型。这种高准确率意味着PLEKv2能够非常可靠地区分长非编码RNA(lncRNA)和信使RNA(mRNA)。

与其他现有的lncRNA和mRNA识别工具相比,如CPC2、CNCI、Wen等人的CNN、LncADeep、PLEK和NcResNet,PLEKv2在多项评估指标上均表现出更高的性能。

PLEKv2使用基于k-mer频率和校准ORF长度的特征向量,这些特征向量在人类数据集上显示出极高的区分能力。特别是当k=6时,模型的准确率显著提高。

在人类数据集上的测试表明,PLEKv2不仅在训练集上表现良好,而且在独立的测试集上也能保持高准确率,这证明了模型的泛化能力。PLEKv2在保持高准确率的同时,还展现出了较高的计算效率。它在处理时间和内存使用方面都优于许多其他工具,这使得PLEKv2在实际应用中更为实用。

表1 多个模型对比

Models

Precision

Recall

F1score

Accuracy

CPC2

0.942

0.856

0.897

0.906

CNCI

0.914

0.975

0.944

0.950

CNN

0.792

0.821

0.806

0.821

LncADeep

0.960

0.980

0.970

0.973

PLEK

0.962

0.941

0.938

0.938

PLEKv2

0.986

0.986

0.986

0.987

NcResNet

0.492

0.498

0.496

0.498

 

跨物种预测: 如表2所示,PLEKv2在灵长类动物数据集上显示出良好的泛化能力,准确率高于其他工具。

表2 灵长类动物数据集上测试结果

Species

Tool

Precision

Recall

F1score

Accuracy

Pan troglodytes

CPC2

0.755

0.938

0.837

0.879

 

CNCI

0.849

0.899

0.873

0.913

 

LncADeep

0.870

0.939

0.903

0.934

 

PLEK

0.842

0.872

0.856

0.904

 

PLEKv2

0.873

0.940

0.905

0.935

 

NcResNet

0.343

0.532

0.417

0.511

Macaca mulatta

CPC2

0.954

0.902

0.927

0.926

 

CNCI

0.937

0.966

0.951

0.945

 

LncADeep

0.968

0.913

0.944

0.932

 

PLEK

0.882

0.885

0.883

0.873

 

PLEKv2

0.948

0.957

0.952

0.952

 

NcResNet

0.544

0.489

0.516

0.503

Gorilla gorilla

CPC2

0.998

0.917

0.955

0.918

 

CNCI

0.998

0.874

0.932

0.874

 

LncADeep

0.999

0.905

0.950

0.905

 

PLEK

0.999

0.838

0.911

0.838

 

PLEKv2

0.999

0.922

0.959

0.922

 

NcResNet

0.981

0.525

0.684

0.525

 

植物数据集: 在植物数据集上,PLEKv2的准确率超过95%,如表3所示,证明了其在植物RNA序列分类上的优越性。

表3 植物数据集上测试结果

Species

Dataset type

Number of transcripts

CPC2

PLEK

PLEKv2

Arabidopsis thaliana

Coding

388

85.90%

60.2%

95.7%

 

Non-coding

388

97.30%

91.20%

95.7%

Arabidopsis lyrata

Coding

37026

94.20%

62.90%

96.9%

 

Non-coding

795

95.60%

100%

98.2%

Oryza sativa

Coding

37389

96.50%

78.90%

95.30%

 

Non-coding

1011

100%

100%

100%

 

含有短ORF的人类RNA(短肽): 使用PLEKv2来预测含有短ORF的人类RNA。PLEKv2测试使用的数据来自CPPred,包括641个编码RNA和641个lncRNA。结果表明,PLEKv2的预测准确率为89.2%,显著高于CPPred(准确率为80.66%)。这表明,PLEKv2即使在处理复杂的短RNA序列时也能保持着高性能。

五、结论与展望

PLEKv2作为PLEK工具的全新升级版,不仅在技术上实现了突破,更在实际应用中展现了卓越的性能。随着生物医学研究的不断深入,PLEKv2有望在未来的研究中发挥更大的作用,为科研人员提供更加精准的RNA序列分类工具。

六、数据和材料的可用性

PLEKv2的开放源代码可以在https://sourceforge.net/projects/plek2/上在线获取。

论文地址(开放访问):https://doi.org/10.1186/s12864-024-10662-y

七、参考文献

Aimin Li, Haotian Zhou, Siqi Xiong, Junhuai Li, Saurav Mallik, Rong Fei, Yajun Liu, Hongfang Zhou, Xiaofan Wang, Xinhong Hei, Lei Wang. PLEKv2: predicting lncRNAs and mRNAs based on intrinsic sequence features and the coding-net model. BMC Genomics 2024, 25(1):756. https://doi.org/10.1186/s12864-024-10662-y

 

Aimin Li, Junying Zhang*, Zhongyin Zhou. PLEK: a tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme. BMC Bioinformatics, 2014, 15(1): 311~314.  https://doi.org/10.1186%2F1471-2105-15-311

 

标签:RNA,PLEKv2,准确率,序列,集上,PLEK
From: https://www.cnblogs.com/emanlee/p/18346637

相关文章

  • Signac包-2.联合10x多组学分析:scATAC-seq和scRNA-seq
    –https://stuartlab.org/signac/articles/pbmc_multiomic看文章看累了来看看代码,换换口味。本章主要涉及peakstogenes的联动。留意更多内容,欢迎关注微信公众号:组学之心数据下载:wgethttps://cf.10xgenomics.com/samples/cell-arc/1.0.0/pbmc_granulocyte_sorted_10k......
  • 基于hibernate-validator实体字段唯一性检查 ,UniqueKey注解
    基于hibernate-validator实体字段唯一性检查,UniqueKey注解前言经常会在新增或修改时,检查某个字段或者多个字段的唯一性,如果重复就需要返回错误信息,重复代码写多了就准备写校验注解解决这个问题,分为两个版本,hibernate和mybatisplus1.mybatisplus注解/***唯一约束*<p>......
  • hibernate不同实体不同填充创建人
    hibernate不同实体不同填充创建人使用的el-admin框架,框架本身填充的使用@CreatedBy注解加上AuditingEntityListener,@CreatedBy@Column(name="create_by",updatable=false)@ApiModelProperty(value="创建人",hidden=true)privateStringcreateBy;@Component("a......
  • 易基因:MeRIP-seq+RNA-seq揭示家禽(鸡)脂肪沉积中的m6A RNA甲基化调控机制|项目文章
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。脂肪组织是主要的脂肪沉积和代谢场所,在人类和动物的健康、代谢平衡和免疫稳态中起着重要作用。肥胖引起的多种代谢疾病已成为全球性健康问题。家禽腹部脂肪的过量沉积也会导致代谢疾病和增加饲料浪费,从而增加家禽生产......
  • 手写 Hibernate ORM 框架 05-基本效果测试
    手写Hibernate系列手写HibernateORM框架00-hibernate简介手写HibernateORM框架00-环境准备手写HibernateORM框架01-注解常量定义手写HibernateORM框架02-实体Bean定义,建表语句自动生成手写HibernateORM框架03-配置文件读取,数据库连接构建手写Hi......
  • Ubuntu24.04LTS使用pip时显示:error: externally-managed-environment
    Ubuntu24.04LTS中使用apt按照pip,然后pipinstall时显示如下信息:error:externally-managed-environment×Thisenvironmentisexternallymanaged╰─>ToinstallPythonpackagessystem-wide,tryaptinstallpython3-xyz,wherexyzisthepackageyouaretryin......
  • Kubernetes externalIPs 类型服务
    背景:在k8s中用到的比较到多的是ClusterIP和NodePort类型的service,externalIPs则很少使用。我们现在了解一下其用法和它的一些优缺点。官方定义:如果有路由到一个或多个集群节点的外部IP,则可以在这些IP上公开Kubernetes服务。在服务端口上使用外部IP(作为目标IP)进入集......
  • Tornado 添加任务的几种方式
    add_callback:功能:将一个普通的回调函数或者同步函数添加到事件循环中执行。特点:适合处理简单的任务,但要注意不要添加会阻塞事件循环的任务。示例:tornado.ioloop.IOLoop.current().add_callback(callback_function)spawn_callback:功能:将一个异步的协程函数(coroutinefu......
  • Python - Creating alternative initializers using class Methods
    Classmethodsallowustodefinealternativeinitializers(alsoknownasfactorymethods)inaclass.Thesemethodshelpuscreateinstanceobjectsfromdifferenttypesofinputdata.Letusunderstandthiswiththehelpofanexample.Again,wetakethe......
  • 易基因:m6A/m5C/m1A/m7G/ac4C/Ψ等8种RNA修饰的生物学功能和潜在机制
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。RNA修饰近来已成为热门话题,它们通过影响RNA生成、转运、功能和代谢等过程,是细胞生物学的关键调节因子。本文介绍了包括N6-甲基腺苷(m6A)、5-甲基胞嘧啶(m5C)、N1-甲基腺苷(m1A)、N7-甲基鸟苷(m7G)、N4-乙酰胞嘧啶(ac4C)、假尿苷......