CircPCBL: Identification of Plant CircRNAs with a CNN-BiGRU-GLT Model
报告人:王乐
记录人:曹宇婕
会议时间:2023-11-17
会议地点:QQ会议
关键词:
作者:
期刊:Plants - Basel
年份:2023
论文原文:https://doi.org/10.3390/plants12081652
主要内容
概要
环状rna (circRNAs)是前mRNA剪接后产生的,与几种肿瘤类型的出现密切相关。进行后续研究的初始阶段包括识别环状rna。目前,动物是大多数成熟的circRNA识别技术的主要目标。然而,由于植物环状RNA的序列特征与动物环状RNA不同,因此无法检测到植物环状RNA。例如,在环状rna的连接位点存在非gt /AG剪接信号,在植物环状rna的侧翼内含子序列中很少存在反向互补序列和重复元件。此外,对植物中circRNAs的研究很少,因此迫切需要建立一种植物特异性的circRNAs鉴定方法。在这项研究中,我们提出了CircPCBL,这是一种深度学习方法,仅使用原始序列来区分植物中发现的circRNA和其他lncRNA。CircPCBL由两个独立的探测器组成:CNN-BiGRU探测器和GLT探测器。CNN-BiGRU检测器以RNA序列的one-hot编码作为输入,而GLT检测器使用k-mer (k = 1−4)特征。然后将两个子模型的输出矩阵连接起来,并最终通过一个完全连接层来产生最终输出。为了验证模型的泛化性能,我们使用多个数据集对CircPCBL进行了评估,结果表明,该模型在由6种不同植物组成的验证数据集上的F1为85.40%,在由黄瓜、毛杨和棉籽组成的3个跨物种独立测试集上的F1分别为85.88%、75.87%和86.83%。CircPCBL成功预测了实验报道的庞cirus trifoliata的11个circrna中的10个和水稻的10个lncrna中的9个,准确率分别为90.9%和90%。CircPCBL可能有助于鉴定植物中的环状rna。此外,值得注意的是,CircPCBL在人类数据集上的平均准确率也达到了94.08%,这也是一个很好的结果,暗示了其在动物数据集上的潜在应用。最终,CircPCBL可以作为一个web服务器,从中也可以免费下载数据和源代码。
1. 介绍
一类新的非编码RNA称为环状RNA (circRNA)。它是由下游50端剪接位点与上游30端剪接位点反向连接而成,在连接处有一个3'5' -磷酸二酯键。后剪接是该过程的另一个名称。由于缺乏自由端,它最初经常被认为是不正确拼接或操作错误的副产品,很少受到关注。Sanger等在1976年首次将感染高等植物的类virus共价确定为环状rna。此时,circrna开始引起广泛关注。此后,在酵母菌线粒体、丁型肝炎(HDA)、人类、小鼠和大鼠等地发现了环状rna。目前有许多数据库可以接受和存储来自不同物种的circrna,包括circBase、circRNADb、PlantcircBase等。与线性RNA相比,circRNA具有更稳定、保守的闭环结构,不被RNA外切酶降解。
随着实验技术的扩展,越来越多的circRNA功能在转录组中被注释。例如,在人和小鼠大脑中大量表达的ciRS-7,作为miR-7海绵,影响miRNA活性。Li等人发现保留内含子的circRNA可以调控RNA聚合酶II基因的表达。根据最近的研究,CircRNA对不同癌细胞的出现和生长至关重要。尽管已经发现了几种功能性环状rna,但它们的形成机制仍未完全了解。内含子配对驱动的环状化、rna结合蛋白(RBP)介导的环状化和幼虫驱动的环状化是迄今为止观察到的仅有的模式。图1描述了这三种机制。在内含子配对驱动的环状化中,环状外显子两侧的内含子序列可以互补配对,允许50剪接位点与30剪接位点直接结合,从而形成环状rna。在rbp介导的环状化过程中,rbp与侧翼内含子序列中的特定基序结合,促进组织特异性环状rna的形成。在lariat配对驱动的环状化过程中,在pre- mrna进行GU/AG剪接的同时会产生外显子,导致lariat形成,lariat可以进行反向剪接,形成环状rna。很明显,circRNA的研究仍处于起步阶段,还有很多东西需要学习。
图1所示.环状RNA的生物发生和结构:(A)内含子配对驱动的环状化;(B) rbp介导的循环化;(C)套筒驱动的环化;(D)不同的环状rna结构。EIciRNA:外显子-内含子circRNA;EcircRNA:外显子环状rna;ciRNA:内含环状RNA)。
lncRNA是长度超过200nt的转录本,编码很少或不编码蛋白质。根据其编码序列相对于蛋白质编码基因的定位,可以将其分为不同的类型,如正义、反义、双向、内含子和基因间lncRNA。LncRNAs最初被认为是转录噪声,不具有生物学功能,由RNA聚合酶II转录。近年来的研究表明lncRNA与多种疾病密切相关,并因此开发了大量的计算方法。lncrna在植物中同样重要,在各种生物过程中发挥着重要作用。例如,Li等人详细介绍了lncRNA在植物相应的非生物胁迫中是必不可少的,而Meng等人发现了63种植物生长激素应答lncrna。此外,lncRNA1459和lncRNA1840沉默基因也被证明可以延缓番茄植株的成熟。研究表明,在人类数据集上构建的lncRNA识别模型可以用于近亲的脊椎动物,但在植物数据集上表现不佳,这表明植物和动物之间可能存在lncRNA形成机制和生物学特性的差异。虽然各种实验已经证明lncrna具有基本的功能特性,但由于它们具有帽状结构的共同特征,因此将它们与mrna区分开来是具有挑战性的。此外,lncRNA通常缺乏可用于检测的保守序列,这大大减少了生物信息学领域可用的特征数量。我们的任务是对circRNAs和lncRNAs进行分类,这将比对circRNAs和mRNA进行分类要求更高,因为它们都是非编码RNA,具有更多的结构和功能相似性。
开展后续研究的初始阶段是circRNA的鉴定。传统的实验方法效率低,耗时费力。由于其相似的长度分布和低表达特性,circRNA作为lncRNA的一个亚类仍然难以与其他lncRNA区分。目前,已经开发了几种计算方法来识别环状RNA。例如CirRNAPL分类器采用极限学习(extremelearning machine, ELM)方法,该方法通过粒子群进行细化。DeepCirCode通过CNN检测circRNA反向剪接序列,优于传统的机器学习(SVM和RF)。JEDI引入了一个跨注意层,其有效性优于现有的工具,以捕获拼接点之间的深度交互。虽然这些方法已经取得了一些进展,但它们的应用主要局限于人类和小鼠数据集,尚未考虑使用植物数据集。
目前,JEDI是2021年针对动物环状rna构建的一个出色的预测器,在人类数据集上实现了超过98%的模型准确率,在小鼠数据集上实现了超过86%的跨物种测试准确率。这些结果证明了该工具在识别动物环状rna方面的卓越性能。然而,植物环状rna与动物环状rna的不同之处在于,它们包含以下特征:(1)重复元件和反向互补序列在侧翼内含子中较少出现。(2)水稻circRNAs连接位点两侧存在非GT/AG剪接信号,这与人类circRNAs不同。这些差异表明环状rna的存在和使用可能在植物和动物之间有所不同。在我们的实验中,当仅在人类数据集上训练时,CircPCBL在验证集上达到了94%左右的准确率,这与JEDI相当。然而,在植物数据集上的准确率仅略高于85%,这进一步说明了上述观点。目前,对植物中环状rna的研究仍处于早期阶段。因此,迫切需要开发一种植物特异性circRNA鉴定方法,加快植物circRNA的研究进展。
因此,在2021年,Yin等人开发了植物特异性circRNA预测软件PCirc,该软件计算k-mers、orf和剪接结序列编码(SJSC)特征,并通过训练后的RF模型进行预测。具体来说,k-mer特征表示相邻k核苷酸的出现频率,本研究选择的k值范围为1-4。orf表示序列的蛋白质编码片段,在PCirc中ORF-coverage和ORF-length都被使用,ORF-length是指整个序列中蛋白质编码区域的比例和长度。此外,SJSC是一个由剪接结位点上下游50 bp序列组成的向量,每个碱基由相应的数字代码表示。PCirc以水稻作为训练物种,通过以上三组特征成功预测了水稻的环状rna,十倍十倍交叉验证的平均准确率达到99%以上。该软件在跨物种测试中也表现出色,在拟南芥和玉米数据集上的准确率分别为89.80%和81.30%。该方法虽然取得了优异的效果,但由于仅将水稻作为训练种,其通用性水平不足。机器学习和深度学习方法需要大量的数据来更好地表达circRNA和lncRNA的语义信息,从而进行稳健的预测。此外,使用机器学习方法需要人工提取特征,这需要耗费大量的时间和精力。因此,本研究提出了一种基于深度学习的植物circRNA鉴定模型,该模型通过深度学习方法的端到端特征直接学习原始序列中的特征,从而避免了机器学习方法中需要人工提取的特征。为了填补植物环状RNA鉴定的空白,有必要根据植物环状RNA的独特结构揭示高质量的特征,而这些特定的特征需要大量的先验生物学知识。通过在植物环状RNA上训练模型,我们预计深度学习将能够从原始序列数据中自动提取植物特有的特征,将它们与动物环状RNA区分开来。因此,我们从以下几个方面考虑我们的研究:(1)扩大物种数量;(2)使用深度学习自动提取特征;(3)抛弃复杂的特征工程,即模型的输入仅基于原始序列。
在本研究中,我们基于上述因素开发了一个名为CircPCBL的深度识别框架。为了构建数据集,我们选择了6个不同的训练物种,包括拟南芥(Arabidopsis thaliana)、油菜(Brassica rapa)、玉米(Zea mays)、水稻(Oryza sativa Japonica)、番茄(Solanum lycopersicum)和龙葵(Solanum tuberosum)。预处理后,数据集包括17,600个不同的circRNA和lncRNA,其中circRNA编码为1,lncRNA编码为0。这些序列来自不同的数据库,即PlantcircBase、CANTATAdb2.0和GreeNC v1.12,通过生物信息学工具检测到的高置信度或通过数据库中可获得的特定序列信息进行实验验证。这些数据按照7:3的比例进行划分,其中70%用于模型训练,30%用于模型验证和超参数调优。此外,我们构建了三种不同科植物(Cucumis sativus, Populus trichocarpa, Gossypium raimondii)的三个独立测试集,作为验证模型跨物种预测能力的训练集。上述三个测试集中分别有8739、6611和4501个序列,测试数据的来源与训练和验证数据的来源相同。同样,我们也在实验验证的circRNAs和lncRNAs数据集中验证了该模型的实用性,在三叶Poncirus trifoliata中使用了11个circRNAs,在水稻中使用了10个lncRNAs。在模型架构方面,CircPCBL由两部分组成:基于one-hot的CNN-BiGRU检测器和基于k-mer的GLT检测器。One-hot对原始序列进行编码,如果序列长度小于固定值m,则在末尾用零向量填充;k-mer中k的值在我们的任务中被设置为1-4,这是从原始RNA序列中计算出来的。在大多数生物序列识别任务中,One-hot和k-mer可以在不需要任何事先的生物学知识的情况下有效地表示序列,并产生出色的结果。k-mer可以反映序列组成的差异,但不能反映每个碱基的顺序,one-hot弥补了这一点。因此,选择one-hot和k-mer特征来增强彼此的序列信息。这两个特征仅基于原始序列编码,纯序列的one-hot编码仍然只是一个碱基一个碱基地表示序列,k-mer方法只是简单地添加寡核苷酸作为潜在的序列基序。因此,在这个阶段,没有功能或新的功能特征来识别环状rna。我们正在进行的研究和开发导致了CNN-BiGRU探测器的创建,这也将在2.1.1和2.1.2节中讨论。为了提取局部序列信息,降低模型参数和特征维数,在k-mer处理过程中引入了GLT。该架构受到改进的变压器模型DeLighT的启发,该模型通过引入GLT减少了参数冗余,使变压器更深、更快、更强。
本文的贡献如下:仅使用原始序列进行特征提取,避免了复杂的特征工程,较少关注序列的局部区域。提出了一种名为CircPCBL的深度识别框架,该框架分别使用CNNBiGRU检测器和GLT检测器来处理不同的特征,而不是简单地使用单一模型。据我们所知,这是机器学习技术中首次使用深度学习方法来识别植物circRNA和其他lncRNA的研究。CircPCBL对来自训练验证集的不同科的植物也表现出了出色的泛化性能。我们提供了一个易于使用的在线web服务器:www.circpcbl.cn。数据和源代码也可以通过web服务器免费下载。
2. 结果
我们通过以下数据集评估了CircPCBL在识别植物lncrna和circrna方面的稳健性:(1)CircPCBL的验证集(2)为三种植物(Cucumis sativus, Populus trichocarpa, Gossypium raimondii)分别构建了三个独立的测试集(3)三叶庞cirus trifoliata和水稻的独立案例研究(Real set)。在本节中,我们将按顺序描述评估策略。
2.1. 验证集CircPCBL的性能
2.1.1. 传统深度学习方法与编码方法的比较
在本节中,我们选择了六种传统的深度学习算法进行比较,分别是RNN、BiRNN、GRU、BiGRU、LSTM和BiLSTM,这六种算法在自然语言处理领域是常用的。为了选择最佳的方法,我们对词嵌入和单热编码方法进行了实验。通过使用各种碱基的稀疏表示,one-hot能够反映序列中的单个信息片段。Word embedding与one-hot的不同之处在于它可以捕获不同碱基之间的关系,并将序列编码为密集矩阵。在我们的任务中,单词嵌入将单个碱基编码为50维密集向量,而one-hot仅将其编码为四维二进制向量。对比结果(表1)显示,one-hot编码的BiGRU模型表现最好,五个指标中有四个指标(准确率:0.8216,召回率:0.7992,F1: 0.8172, MCC: 0.6438)显著高于其他模型。此外,其精度(0.8360)几乎与排名第二的单词嵌入模型BiGRU(0.8370)相当。考虑到两种编码方法之间没有显著差异,one-hot只是将序列编码为四维稀疏矩阵,以展示鲁棒性,从而大大降低了计算成本。因此,我们决定从one-hot-BiGRU开始模型改进。为了保证公平的比较,我们调整了所有模型的隐藏单元数量,以选择最佳参数。表1显示了每个模型的已调优的隐藏单元数。每个模型用200个epoch进行训练。
表1.不同编码方法下不同深度学习模型的性能(Time列表示模型训练时间,Hidden列表示各种模型的最优隐藏层神经元数,范围从[20,30,40]调整)。
2.1.2. 超参数对CNN-BiGRU性能的影响
为了进一步提高one-hot-BiGRU模型的性能,我们在BiGRU之前插入cnn,初步提取序列的局部上下文信息和空间信息。CNN-BiGRU也接收了one-hot编码特征作为输入。在我们的实验中,CNN-BiGRU被证明有明显的性能提升。我们还检查了CNN-BiGRU的超参数,如卷积核大小(Kernel_size)、隐藏单元数量(Hidden_size)和序列长度(Seq_len),以提高模型的性能。结果如图2所示。
图2.不同超参数对CNN-BiGRU的影响:(a)不同kernel_size组合下CNN-BiGRU模型的性能;(b)不同隐藏层大小对CNN-BiGRU模型的影响;(c)不同序列固定长度CNN-BiGRU模型的性能比较。
第一个超参数是Kernel_size。我们六个组合相比,包括(1、3、5)(3、5、7)(5、7、9),(1、3、5、7),3,5,7,9,和(1、3、5、7、9]。对于每个组合,我们使用32个卷积核来提取相同尺度下的不同特征。模型整体性能最好的卷积核组合为[3,5,7](图2a),其中准确率为0.8371,精度为0.8314,召回率为0.8465,F1为0.8389,MCC为0.6743。当卷积核的组合为[1,3,5]时,模型的整体性能下降。这个问题是由于当使用较小的卷积核时,模型的感知场变得更窄,从而无法捕获序列的整体上下文关系。然而,随着卷积核的大小或核数的增加,模型的性能有不同程度的下降。我们推测,一方面,卷积核的加入增加了感知场,提高了捕获序列全局特征的能力,但另一方面,模型参数的扩展导致模型参数的扩展,增加了无效信息的数量,更容易过拟合,降低了模型的有效性。
第二个超参数是Hidden_size。包含在序列中的语义信息的表示取决于BiGRU隐藏层的大小。当隐藏单元过少时更容易出现拟合不足,而当隐藏单元较多时更容易出现梯度消失。在这方面,我们尝试了在20到40之间的每五个值作为隐藏层大小。如图2b所示,当隐藏单元的数量设置为30时,模型的准确率、召回率、MCC和F1四个指标达到峰值。进一步增加隐藏层的大小并没有提高模型的性能,但增加了模型的训练时间。因此,在实验中选择Hidden_size超参数为30。
第三个超参数是Seq_len。保留的序列信息量取决于序列的固定长度大小。从图2c可以清楚地看出,模型的性能与序列长度之间存在普遍的正相关关系。当序列长度较短(500、800)时,由于序列丢失信息过多,准确性较差。当序列长度为1500时,各测量值的准确度为0.8422,精密度为0.8320,召回率为0.8576,MCC为0.6848,F1为0.8446。召回率和F1分别比1800的持续时间高0.0322和0.0036。虽然准确度、精密度和MCC在1800恒定长度下都更大,但总体上没有显著差异。我们最终决定将Seq_len的值设置为1500,同时考虑到计算成本。
最后,我们比较了CNN插入前后的整体模型性能(表2)。CNN-BiGRU的整体性能优于BiGRU。虽然CNN-BiGRU的精度较低,但两者之间的差距仅为0.0039。对于模型的训练,CNN-BiGRU用100个epoch进行训练,这比BiGRU要少,因为根据我们的实验发现,CNN-BiGRU比BiGRU收敛得更快。
表2.BiGRU和CNN-BiGRU在验证集上的性能比较。
2.1.3. GLT模型融合后的性能
最后,我们通过融合GLT来增加额外的序列信息来改进CNN-BiGRU。基于只使用原始序列的原则,我们使用k-mer特征作为GLT模型的输入。理论上,深度神经网络可以直接从其他基于序列的参数中学习,如GC含量、嘌呤和嘧啶含量。实验对比(图3)表明,使用GLT的模型优于之前的所有模型,准确率首次超过85%。与CNN-BiGRU相比,准确率、召回率、MCC和F1分别特异性提高了0.0117、0.0282、0.0232和0.01(表3)。因此,我们最终选择CNN-BiGRU- GLT模型作为植物circRNA和lncRNA的识别方法。
图3.CNN-BiGRU-GLT模型与传统深度学习方法在验证集上的性能比较:(A) CNN-BiGRU-GLT与RNN性能比较;(B) CNNBiGRU-GLT与BiRNN性能比较;(C) CNN-BiGRU-GLT与GRU性能比较;(D) CNN-BiGRU-GLT与BiGRU性能比较;(E) CNN-BiGRU-GLT与LSTM性能比较;(F) CNN-BiGRU-GLT与BiLSTM性能比较;(G) CNN-BiGRU- GLT与CNN-BiGRU性能比较。
表3.BiGRU和CNN-BiGRU在验证集上的性能比较。
我们将BiGRU、CNN-BiGRU和CNN-BiGRU- GLT这三个模型的训练过程可视化,绘制出前100个epoch训练集和验证集的损失和准确率变化,如图4所示。从图中可以看出,增强后的模型收敛速度更快,准确率更高。
图4.不同改进程度的不同模型(BiGRU、CNN-BiGRU和CNN-BiGRU-GLT)上的训练集和验证集在每个历元上的损失和精度变化。
此外,我们观察到CNN-BiGRU- GLT模型相比CNN-BiGRU仅提高了约1.2%的精度,这可能归因于模型稳定因子。为了进一步验证模型的改进,我们对上述两个模型进行了五次重复训练,结果(表4和5)表明,CNN-BiGRU-GLT模型在所有五次实验中都超过了85%的准确率,而CNN-BiGRU模型的准确率保持在85%以下。特别是,CNN-BiGRU-GLT模型表现出异常的一致性,因为它的所有指标都保持了小于0.007的标准差。这证明了该模型的整体稳定性和可靠性。
表4.CNN-BiGRU模型重复实验5次的结果。
表5.CNN-BiGRU-GLT模型重复实验5次的结果
2.1.4. 传统机器学习方法的比较
我们还将CircPCBL的性能与四种知名的机器学习算法(GBDT、RF、SVM和KNN)进行了比较,以更彻底地评估其性能。这些机器学习方法使用k-mer特征作为输入,其中k是1到4之间的值。我们通过网格搜索对它们的超参数进行了调优(详见表6),每个机器学习模型调整后的参数设置如下:GBDT{“学习率”:0.1,“基分类器数量”:200};RF{'基本分类器的数量':200};支持向量机{'核函数':高斯核函数,' C ': 1.0};KNN{'邻点数':5,'明斯基距离p值':3},其余参数均取默认值。不同机器学习模型在验证集上的性能如图5和表7所示。我们可以从结果中看到,CircPCBL优于更成熟的机器学习技术。与GBDT、RF、SVM和KNN相比,MCC值为0.7080,分别高出0.1311、0.1386、0.3239和0.3964。其他指标的准确率分别比GBDT、RF、SVM和KNN高0.0655、0.0693、0.1636和0.1983;精度分别比GBDT、RF、SVM和KNN高0.0685、0.0798、0.1931、0.2111;召回率分别比GBDT、RF、SVM和KNN高0.0647、0.0553、0.0985和0.1675;F1分别比GBDT、RF、SVM和KNN高0.0666、0.0676、0.1482和0.1897。此外,由于MCC值普遍较低,可能对单个类别的预测更准确。因此,为了更稳健的评估,我们输出每个模型的单类预测精度。对于环状rna, CNN-BiGRU-GLT的准确率为0.8490,比GBDT、RF、SVM和KNN分别高出0.0647、0.0553、0.0985和0.1675;对于lncrna, CNN-BiGRU-GLT的准确率为0.8590,分别比GBDT、RF、SVM和KNN的准确率高0.1312、0.1386、0.3274和0.3966。因此,很明显,我们的模型不仅在所有评估指标中表现最好,而且对每个类别都产生了稳健的预测。同时,我们注意到,作为表现最好的传统机器学习算法,GBDT的准确率仍然略低于BiGRU,没有任何提高,这说明了深度学习方法进行自动特征提取的有效性。
表6.机器学习模型(GBDT, RF, SVM和KNN)的参数调优细节。
图5.CNN-BiGRU-GLT模型与传统机器学习方法在验证集上的比较:(a) CNN-BiGRU-GLT与KNN性能比较;(b) CNN-BiGRU-GLT与SVM性能比较;(c) CNN-BiGRU-GLT与RF性能比较;(d) CNN-BiGRU-GLT与GBDT性能比较。
表7.将CNN-BiGRU-GLT模型的具体度量值与传统机器学习方法的验证集进行比较。
2.2. CircPCBL在测试集上的性能
同样,我们验证了CircPCBL的跨物种预测能力,并比较了每个模型在独立测试集上的表现(表8)。其中,RNN、BiRNN、GRU、BiGRU、LSTM、BiLSTM和CNN-BiGRU以one-hot编码特征作为输入,机器学习方法以k-mer特征作为输入,CircPCBL以one-hot和k-mer特征作为输入。结果表明,黄瓜(Cucumis sativus)、胡杨(Populus trichocarpa)和雷蒙地棉(Gossypium raimondii)的预测精度分别为0.8588、0.7587和0.8660。结果表明,CircPCBL在所有指标上均表现最佳,对黄瓜和毛杨的泛化能力远高于其他模型。总体而言,该模型在Gossypium raimondii方面的表现并不比排名第一的CNN-BiGRU低多少。值得一提的是,加入GLT后,模型的泛化性能得到了显著提升,特别是在Populus trichocarpa的独立测试集上。与纳入GLT之前相比,该模型在该测试集上的预测精度提高了近7%。最后,为了进一步说明模型的稳定性和改进策略的有效性,我们通过输出单个类别的预测精度对模型(BiGRU、CNNBiGRU和CNN-BiGRU-GLT)进行了改进前后的对比(图6)。结果表明,CNN-BiGRU-GLT模型在所有独立测试集中都准确地识别了circRNA和lncRNA,没有任何特定类别的优越识别情况。具体而言,与改进前模型BiGRU和CNN-BiGRU相比,其对circRNA和lncRNA的预测精度差异最小。在Cucumis sativus、Populus trichocarpa和Gossypium raimondii试验中,单类预测精度差异分别为0.0616、0.0117和0.0091,与BiGRU模型的差异分别为0.2606、0.1559和0.0509,与CNN-BiGRU模型的差异分别为0.0754、0.1712和0.0101。同时,从图6中可以看出,BiGRU模型对于单类检验存在明显的预测偏倚情况,这种情况在模型细化过程中逐渐得到纠正。
图6.BiGRU、CNN-BiGRU和CircPCBL模型的单类预测精度:(A)黄瓜;(B)毛杨;(C) Gossypium raimondii柱状图上的数字表示预测精度边际。
2.3. 实验验证的环状RNA和lncRNA的预测
Zeng等通过高通量测序和生物信息学分析,在三叶Poncirus trifoliata中鉴定出558个潜在circRNAs,通过实时荧光定量PCR鉴定出11个对RNAse R具有抗性的circRNAs。对这11个circRNA进行CircPCBL,预测准确率为90.9%,其中10个被正确预测为circrna。除此之外,Li等人利用cDNA末端快速扩增法(RACE)获得了水稻中存在的10个lncRNA序列[45]。这些序列也通过CircPCBL网络进行了分析,该网络成功地识别了其中9个序列,准确率达到90%。这些结果表明CircPCBL在鉴定功能性circRNA和lncRNA方面是有用的。
表8.CNN-BiGRU-GLT模型在三个独立测试集上的性能以及与上述传统机器学习和深度学习方法的比较结果。
2.4. 不同物种序列的采样
不同物种间的序列数量存在差异,拟南芥(Arabidopsis thaliana)的阳性和阴性样本数量最多,各有3000个。为了确保所有物种的数据集平衡,我们使用了smote采样,将剩余的五种植物的样本增加到6000个。表9显示了再训练CircPCBL后得到的结果。结果表明,经过采样后,CircPCBL在验证集上的性能略有下降。其预测偏差在三个独立的测试集上表现得更为明显,特别是在Populus trichocarpa测试集上,其整体预测精度达到0.6719,而对环状rna的预测精度仅为0.5589。Smote采样理论上是一种数据增强方法,但在我们的任务中并没有显示出预期的效果。我们分析了可能的原因如下。
表9.SMOTE采样前后CircPCBL在验证和独立测试集上的性能比较。
首先,不同的物种有很大不同的序列号。例如,油菜(Brassica rapa)的序列号仅为800,将其扩展到6000不会透露太多信息,但可能会增加模型过拟合的风险。其次,RNA序列具有结构和功能特异性。circRNA作为lncRNA的一个亚类,与lncRNA具有高度的相似性。基于特征距离生成体积较小的样本可能会产生更多的噪声,对模型的学习过程产生不利影响。最终,生成的样本表现出高度的相似性,这可能导致模型过度关注这些样本,导致过拟合,最终导致模型的泛化能力下降。
2.5. 植物基因组学领域广泛关注的物种测试
拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)和番茄(Solanum lycopersicum)在植物基因组学领域得到了广泛的研究。为了评估我们的模型的性能,我们专门对这三个物种进行了测试。为了提高预测结果的可靠性,我们采用随机选择的方法从每个物种中选择circRNA序列进行分析,其中拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)和番茄茄(Solanum lycopersicum)的数量分别为3000个、3000个和2000个。该过程重复30次,最终精度为这些实验的平均结果。结果表明,拟南芥的平均预测精度为0.8366±0.0058,而水稻和番茄的平均预测精度分别为0.8628±0.0050和0.8982±0.0038。30个重复实验的方差较小(图7),不仅证明了模型的稳健性,也证明了随机抽样的数据能够代表整体数据。总而言之,我们的软件对植物基因组学领域中感兴趣的物种具有同样出色的预测能力。
图7.30个重点植物随机抽样预测实验:(A)拟南芥数据集上各实验的准确性;(B)各试验在水稻数据集上的精度;(C)番茄数据集上各实验的精度。
2.6. 在人类数据集上尝试CircPCBL
CircPCBL是一个植物特定的工具,但我们仍然在人类数据集上测试了它的性能,希望该模型可以为更多的物种做出贡献,而不仅限于植物。与JEDI类似,我们的阳性样本来自circRNADb,而阴性样本来自GENCODE v19。阳性和阴性样本的数量分别为23,898和8000,7。我们随机选择了3个阳性和阴性样本,按照30:24的划分进行训练和验证。为了保证数据集的代表性,我们重复了五次该过程。对于模型设置,进行了10个epoch的训练,其中采用早期停止以防止过度拟合,训练时间约为94分钟。结果(表10)表明,CircPCBL在人类数据集上的平均准确率为94.31%。相对于阳性样本circRNA,其平均准确率达到94.31%,没有出现偏倚预测。尽管与JEDI相比,CircPCBL的准确性略低,但它也取得了令人满意的结果,仅使用原始序列对circRNA和lncRNA进行分类。虽然我们没有进行植物特异性特征工程,但CircPCBL显示出植物和动物数据集之间的巨大差异,这可能意味着植物和动物lncRNA和circRNA存在一些变异。此外,当CircPCBL模型在植物数据集上进行训练,并使用上述5个随机样本直接转移到人类数据集(表10)时,其平均准确率仅为69.02%,其F1值和MCC值平均分别仅为38.30%和67.10%。因此,这也说明了开发植物特异性circRNA鉴定工具的必要性
表10.CircPCBL在人类数据集上的性能
2.7. 训练物种多样性对模型泛化性能的影响
与PCirc相比,我们引入了更多的物种来训练模型。我们认为,物种数量的增加将提高模型的泛化性能,因为它不仅可以通过对各种植物的训练来学习相似的方面,还可以学习不同的特征。为了验证这一观点,我们仅将水稻circRNA和lncRNA应用于CircPCBL,并在三个独立的测试集上进行了测试。结果(表11)表明,当仅在水稻上进行训练时,CircPCBL在验证集上的准确率、精密度、召回率和MCC值分别为0.8292、0.8425、0.8192和0.6586。但是,在三个独立测试集上的性能与之前相比明显下降,特别是对Cucumis sativus和Gossypium raimondii,准确率分别下降了0.1612和0.1568。这些结果表明,物种的数量对模型的泛化性能有重要影响,因此保持训练物种的多样性是必要的。
表 11.仅用水稻训练时,CircPCBL在三个独立测试集上的表现(括号中的值显示与以前的测试相比有所下降)。
3. 讨论
PlantcircBase数据库致力于对植物的circRNA进行编目。它创建于2017年。在此之前,几乎所有的circRNAs数据库都与人类和动物有关。已经报道了许多关于动物circRNA的研究,但植物中circRNA的研究进展缓慢。PlantcircBase最近更新到第七版,现在包括来自171种植物的118,21个circRNA。尽管已经发现了许多植物circRNA,但仍然没有有效的工具来识别它们,只有传统的实验技术可用。我们相信CircPCBL是第一个基于深度学习的植物circRNA鉴定框架。
我们在CircPCBL中使用了两种不同的模型和输入,并将两个模型的输出通过全连接层链接进行预测。特别是利用CNN-BiGRU处理由one-hot编码的稀疏矩阵,利用GLT从k-mer特征中提取深层信息。使用两个模型中的每一个独立处理有关序列的不同信息。通过各种数据测试和分析,CircPCBL具有最佳的稳定性和泛化性。此外,改进方法也对CNN-BiGRU模型有效。我们的投入没有考虑任何生物学知识。我们认为,基于生物学的特征(如ORF和CDs)过分关注RNA序列的编码区,而忽略了UTR区,这导致对CD覆盖率不足的序列的预测存在偏差。CircPCBL通过使用one-hot和k-mer分别反映序列顺序和组成来降低对单个区域的关注。也可以完全显示序列的组成信息。值得一提的是,仅基于原始序列特征的CircPCBL在不同数据集下也表现出了出色的表现。
然而, CircPCBL可能仍然需要大量的开发.我们计划在以下领域继续研究:首先,我们将继续完善模型的结构,以提高其预测性能。其次,已经发现机器学习算法中的“树”模型具有更好的拟合能力,因此我们将考虑深度学习方法和“树”模型的集成。第三,我们将探索高质量的特征,以方便我们的分类任务。
4. 材料和方法
开发CircPCBL的过程如图8所示。CircPCBL由两个独立的模型(CNN-BiGRU和GLT)组成,其输入仅基于原始序列。
图8.开发CircPCBL的流程图:(A)我们工作中使用的主要数据集;(B)独热编码过程;(C)K-mers特征计算过程;(D)CNN-BiGRU模型架构;(E)GLT模型架构;(F)结果输出过程。
4.1. 数据集构建
在本研究中,为CircPCBL的训练定义了两个类:将CANTATAdb 2.0 中的lncrna和GreeNC v1.12 视为负数据集;作为阳性数据集的circRNAs来自PlantcircBase。从上述所有数据库中,我们收集了来自9种不同植物的lncrna和circrna。其中拟南芥(Arabidopsis thaliana)、油菜(Brassica rapa)、玉米(Zea mays)、粳稻(Oryza sativa Japonica)、番茄茄(Solanum lycopersicum)和龙葵(Solanum tuberosum) 6种植物类型用于构建训练和验证集,并按7:3的比例进行划分,这些植物分别属于十字花科(Cruciferae)、Gramineae和茄科(Solanaceae)。其余三种植物(Cucumis sativus, Populus trichocarpa, Gossypium raimondii)被构建为三个独立的测试集,它们与训练集和验证集中的所有物种都不属于同一科。因此,他们被用来证实CircPCBL预测整个物种行为的能力。考虑到数据集中的冗余和不平衡问题,我们对原始数据进行了以下处理:首先,我们使用盒须图方法从每个fasta文件中去除长度过长或过短的序列。接下来,我们使用阈值为80%的cd-hit和cd-hit-est-2d工具来消除单个数据集和不同类别数据集之间的冗余序列。最终,我们通过随机抽样来平衡每个物种的正样本和负样本。我们工作中使用的具体数据如表12所示。除了上述数据集,我们还构建了一个新的测试集Real set,其中包含11个Poncirus trifoliata circRNA和10个水稻lncRNA,以进一步评估CircPCBL在真实数据集下的泛化能力。此外,我们还观察到不同物种之间的数据集存在不平衡。为了解决这个问题,在CircPCBL最终部署之后,我们尝试对来自不同物种的序列进行采样,并重新训练模型以比较模型性能变化前后的变化。
表 12.我们工作中使用的数据集的详细信息。
4.2. CircPCBL架构
深度学习最近在生物学领域得到了广泛的应用。端到端学习可以通过深度学习实现,但不能通过传统的机器学习实现,它减少了需要了解circRNA和lncRNA的信息量,并消除了对复杂特征工程的需求。深度学习是处理高维数据集的强大工具,因为它可以自动从未处理的序列中提取特征。因此,我们将通过深度学习方法挖掘circRNA和lncRNA的深层次差异,实现circRNA和lncRNA的分类。
在对不同的常规深度学习模型进行实验后,我们发现BiGRU的模型更适合我们的分类任务。通过测试 Word2Vec 和 one-hot 的性能,我们最终决定 选择 one-hot 作为 BiGRU 模型的输入。然后通过在BiGRU前面添加CNN来进一步增强模型的性能。我们 还设计了一个GLT模型,除了CNN-BiGRU之外,它还接收k-mer(k = 1,2,3,4)特征作为其输入。K-mer通过GLT进行分组线性变换以获得局部信息,随后通过洗牌在许多组之间分发以获得全局表示。两个模型的输出连接起来,最终的预测结果通过全连接层输出。因为随着模型深度的增加,梯度消失和过拟合更有可能发生,所以我们使用了早期停止、层归一化和显示学习率等策略。模型的细节如下。
4.2.1. One-Hot CNN-BiGRU
One-hot编码将四个核苷酸编码为二进制载体,其中:A(1,0,0,0),G(0,1,0,0),C(0,0,1,0)和T(0,0,0,1)。因此,长度为L的RNA序列由4xL稀疏矩阵表示。传递到CNN-BiGRU模型的RNA序列的长度需要保持一致,因此我们将序列的长度固定为m。 长度大于m的序列被直接截断,长度小于m的序列被填充(0,0,0,0,0)向量。CNN-BiGRU模型计算出单个RNA序列的输出载体具有32维大小。我们 将ReLU用于所有激活函数。序列长度设置为 1500。卷积核大小是 [3,5,7] 组合,我们采用了这种组合。BiGRU隐藏单位的数量设置为30个。
4.2.2. K-mer GLT
k-mer的频率是相邻k个基出现的频率。据认为,k-mer频率具有物种特异性和序列特异性,并且随着k值的升高,这种特异性会变得更加明显。然而,盲目追求分布不均将导致一场维度上的灾难。我们使用了340个特征,范围从1个到4个,作为GLT模型的输入。首先,使用一个完全连接层,我们将特征的大小减小到256维。接下来,我们将256维向量分成2组进行线性变换,每组产生一个64维输出向量。最后将128维向量分成4组进行线性变换,每组输出向量的维数为8。最后一步生成了一个32维的输出向量。对每个线性变换使用层归一化以保持梯度可见
4.2.3. 模型融合
然后,在连接CNN-BiGRU和GLT都产生的32维向量后,全连接层输出最终预测结果。在整个训练过程中,我们的学习率设置为 0.001,batch_size设置为 16。所有模型均在 NVIDIA GeForce RTX 2060 GPU 上进行训练。
4.3. 绩效评估
为了评估CircPCBL,我们选择了一些常用的评估指标,即准确性,精度,召回率,F1分数和MCC,计算方法如下:
其中TP和TN表示正确预测的lncRNA和circRNA的数量,FP和FN表示错误预测的circRNA和lncRNA的数量。精度表明有多少预测的circRNA样品是正确的。召回率表示正确预测了多少 circRNA 样本,即 circRNA 的单类预测精度。F1 分数同时考虑了精度和召回率,其值是它们的统一平均值。MCC的全称是马修相关系数,它集成了TP、TN、FP和FN,可以描述预测结果与实际结果之间的相关系数。其值范围从 −1 到 1,值越高表示模型的结果越好。
5. 结论
PlantcircBase中丰富的植物circRNA为深度学习技术提供了数据支持。目前可用的大多数circRNA识别工具都是针对动物的,在植物中识别circRNA仍然具有挑战性。在本文中,我们提出了CircPCBL模型,该模型结合了CNN,BiGRU和GLT的模型,并通过不同的模型处理onehot和k-mer特征来鉴定植物circRNA。该模型仅基于原始序列。CircPCBL具有广泛的物种,经过各种植物种类的训练,并表现出出色的跨物种预测性能。此外,我们还提供了一个免费使用的网络服务器,因此用户只需输入格式指定的顺序或直接上传fasta文件即可输出预测。简而言之,CircPCBL是一种用于深度鉴定植物circRNA的用户友好方法,旨在增加该领域对这些分子的理解。尽管CircPCBL取得了进展,但仍有很大的空间来提高其准确性,这表明需要进一步开发类似的工具。为了提高模型的性能,进行错误分析以识别模型难以捕获的特定lncRNA亚类或circRNA模式将是有用的。这些有针对性的信息可以为未来优化模型性能的努力提供信息,这是我们工作可以进一步完善的领域。我们将在随后的研究中探讨如何进一步提高植物circRNA预测的准确性,并对植物circRNA的功能预测进行进一步的研究。
标签:CircPCBL,模型,序列,BiGRU,CNN,GLT,circRNA From: https://blog.51cto.com/u_16216184/8693503