论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》

标签：集成长非特征模型 lncLocator 分类器 RF 序列 lnc

标题 The lncLocator: a subcellular localization predictor for long non-coding RNAs based on a stacked ensemble classifier

DOI 10.1093/bioinformatics/bty085

期刊 Bioinformatics

作者 Zhen Cao; Xiaoyong Pan; Yang Yang; Yan Huang; Hong-Bin Shen

出版日期 2018-02-15

网址 https://doi.org/10.1093/bioinformatics/bty085

摘要

研究动机 :长链非编码 RNA (long non-coding RNA, lncRNA)的研究一直是 RNA 生物学领域的研究热点。最近的研究表明，它们的亚细胞定位携带着理解其复杂生物功能的重要信息。考虑到鉴定 lncrna 亚细胞定位的实验昂贵且耗时，迫切需要计算方法。然而，据我们所知，目前还没有预测 lncRNA 亚细胞位置的计算工具。

结果 :在这项研究中，我们报告了一个基于集成分类器的预测器，lncLocator，用于预测 lncRNA 亚细胞定位。为了充分利用 lncRNA 序列信息，我们采用 k-mer 特征和由无监督深度模型生成的高级抽象特征，并分别将这两种特征馈送给支持向量机(SVM)和随机森林(RF)，构建了 4 个分类器。然后我们使用堆叠集成策略将四个分类器进行组合，得到最终的预测结果。目前的 lncLocator 可以预测 lncrna 的 5 个亚细胞定位，包括细胞质、细胞核、胞浆、核糖体和外泌体，在构建的基准数据集上，总体精度为 0.59。

1 介绍

非编码 rna (n c R N As )已被证明是重要的调控因子，而不是基因组中的垃圾序列 (Iye r 等人， 2015)。 ncR N A s 有多种类型，包括 rrna、tR N A s、 mic ro R N A s (mi R N As )、小核 rn a (snrna )、小核核 rn a (snoR N A s)、小干扰 rna (sir na )、长链非编码 rna (lnc rna )等(M attick et al.， 2006)。由于分子机制和功能的固有复杂性， lncrn as 相关的研究在很大程度上落后于其他类型的 nc R N As。近年来， lncrn a 在生命科学领域受到越来越多的关注。根据我们对 Pub Me d 检索文章的统计，大约有 6000 篇文献中含有“lncRN A ”或“长链非编码 RN A”的关键词

标题或摘要。特别是 95 %以上的论文是最近 5 年发表的，这表明该研究是最近才受到重视的。它们在基因调控、遗传信息翻译和细胞信号转导的转录后作用逐渐被揭示 ( Batist a 和 Ch ang, 2013)。此外，它们已被证明是多种疾病的有前途的生物标志物 ( Ay ers, 2013;L i et al. ， 2013)。因此，了解 lncrn a 的细胞功能已成为后基因组时代的中心任务之一。考虑到湿实验室实验成本高、耗时长，人们迫切需要自动计算工具来加快 lnc R N A 相关的研究，例如用于表达分析 (T ho mso n 等， 2004)、靶标预测(Bren nec ke 等， 2 005)、功能途径预测 (V lac hos 等， 201 2)等。与蛋白质类似， lnc R N A s 的功能依赖于其所在的细胞区室，定位信息可以提供对功能的重要见解 (Ch en, 2016 )。由于通过生物实验难以确定亚细胞定位，亚细胞定位的计算预测在过去十年中一直是生物信息学的热门话题 (C hou 和 Sh en, 2008)。然而，大多数现有的预测工具都是针对蛋白质设计的 ( She n 和 Ch ou, 2007; Sh en and Chou, 2009; Pie rleo ni et . ， 2011;万等， 2017;周等， 2017 )。据我们所知，目前还没有计算预测 lnc R N A 亚细胞定位的方法。这可能是由于 :

1) 传统上，大多数 lnc R N A s 被认为只位于细胞核中，起着核基因调控的作用 (Ch en 和 C ar mi cha el, 2010)。它们不同的亚细胞命运直到最近才被发现。特别是 Ca bili 等人在 2015 年利用 FIS H (荧光原位杂交 )技术对 lncR N A 亚细胞位置进行了大规模研究 ( Cabili et al.， 2015)。他们发现有相当比例的 lnc R N A s 可以转移到细胞质中，有些 lncR N A s 甚至位于细胞核和细胞质中。

2) lnc R N A 亚细胞定位的计算预测受到信息源的限制。对于蛋白质，公认的预测因子通常利用多种类型的特征，包括氨基酸统计属性 (P a rk and K an ehis a, 2003; She n 和 Ch ou, 2008)，信号肽 ( Sa voj ard o 等人， 2015 )，功能域 ( Ma r chl er - Ba ue r 等人， 2005)，基因注释 ( Cho u 和 Cai, 2003;Z h ou et al.， 2017)等。

现有的基于序列的蛋白质亚细胞定位预测器一般可以分为两类，同源迁移和基于统计机器学习的方法。前者是试图从大型数据库中为查询序列找到已标注的同源蛋白质，这很简单，但当没有找到同源蛋白质或出现所谓的“ 朦胧区” 现象时可能会失败 ( Nai r and Rost, 2002)。由于 lnc R N A 的注释速度相对较慢，且其序列具有很大的多样性，因此很难找到同源的注释 lnc R N A 序列。考虑到这一点，统计机器学习在现阶段更适用于开发面向 lncr na 的亚细胞定位预测器。在这样的协议中，有 3 个问题对预测性能至关重要，即 (1 )序列特征提取和表示，

(2)训练数据集的分布，以及 (3 )用于学习判别模式的模型。

如何将原始序列数据编码为具有判别力的特征，是构建基于机器学习模型的一个至关重要的问题。一些基于残差的统计特征可以用作特征，例如 k me r 频率(P ark and Kan ehisa, 2003)。然而，根据我们的局部测试，仅基于 k- mer 序列特征进行预测是一项非常具有挑战性的任务。其中一个潜在的原因是 k- me r 特征是从观测序列中提取的，受到突变噪声的影响。另一个原因是，当我们增加 k 来覆盖更长的潜在模体模式时，特征向量维度会呈指数增长，这也可能导致预测模型的过拟合。

与手工设计的特征相比，深度学习模型可以自动捕获高层次的表示，这些模型在不同的领域取得了显著的成果，包括计算机视觉、自然语言处理、语音识别和生物信息学 (L e C un et al. ， 2015; Min et al. ， 2016)。例如，深度网络架构在二级结构预测应用中为蛋白质或 R N A 序列的特征提取提供了新的亮点 ( H ef - fer nan 等， 2015; Sp en ce r 等人， 2015) ，接触图谱预测 ( Di L en a 等人， 2012)， lnc R N A 识别 (F an a nd Zhang, 2015)， RNA -

蛋白质结合基序识别(P an and S hen, 2017 )、nc R N A -蛋白质相互作用序列模式挖掘(Pa n et al.， 2016)等。

k- me r 特征和深度结构抽象特征是将 lnc R N A 序列表示为判别特征的两种完全不同的策略。前者代表观察到的统计特征，而后者可以反映序列背后的隐藏模式。它们相辅相成，因此我们在本研究中将这两种特征都纳入到模型构建中。

其次，统计监督机器学习模型从数据中学习不同类别的分布规律，其性能严重依赖于训练数据集。我们发现 lncR N A 亚细胞定位数据集显示出严重的不平衡分布。例如，我们从 R N Al o- cat e 数据库中提取的基准数据集 (Z hang 等， 2017)中，位于细胞质、细胞核、细胞质溶胶、核糖体和外泌体的 lnc R N A s 数量分别为 301 个、 152 个、 91 个、 43 个和 25 个。多数类和少数类之间的最大比例达到 ~12:1。在这种情况下，大多数机器学习方法会偏向于多数类，而在少数类上表现不佳。

一般来说，欠采样和过采样技术都可以缓解数据不平衡的影响。欠采样是减少多数类的样本来匹配少数类，而过采样是增加少数类的样本来匹配多数类。为了保留所有可用的训练样本，我们在本文中应用了过采样方法。无监督过采样方法包括 RO S(随机过采样 )、 S M OT E (合成少数过采样技术 )( Cha wl a et al.， 2002)等。 R O S 法在少数派集中随机选择样本进行重复， SM O T E 法根据现有少数派类的现有样本创建相同数量的合成样本。在本研究中，我们采用了一种名为 SO S (sup ervis ed ove r- sam pling)的监督过采样方法，该方法能够考虑样本标签来创建新的合成样本(Hu et al.， 2014)。

为了综合不同统计学习模型的优点，本文提出的 lncL o cato r 的最终预测模型是一个集成预测器。 lncL oc ator 使用堆叠集成策略将四台学习机组合在一起。它们分别是深度神经网络提取特征的随机森林 (R F A )、深度神经网络提取特征的支持向量机 ( S V M RA )、原始 k- m er 特征的随机森林(R F R )和原始 k- m er 特征的支持向量机 (S V M )。我们的实验结果表明，由于融合分类器的多样性有助于增强预测性能，最终的集成预测器优于任何单个分类器(S hen and Chou, 2006)。

2 个数据集和方法

2.1 数据集

我们从综合数据库 R N A lo cat e (http:// w w w. rn a- soci ety. org/ rnalo c ate)中提取了 lnc R N A s 的亚细胞定位信息，该数据库涵盖了 m rn a 、 mi R N A s、 lnc R N A s 等的定位信息。目前版本的 R N A L oc at e 包含了超过 37700 条人工策划的 rna 相关亚细胞定位条目，并有实验证据。它涵盖了 65 个物种中 42 个亚细胞位置的 21800 多个编码和非编码 rna，主要包括智人和小家鼠 (Z h ang 等， 2017)。基准数据集的构建包括以下步骤(图 1):

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_数据集

1) 从 R N A lo c at e 数据库中下载了 1361 个 lnc R N A 条目，并进行了亚细胞定位。由于多位置 lncR N A s 在数据库中有多个记录，我们将具有相同基因符号的条目合并，得到 10 74 个唯一的 lnc R N A s;

图 1所示。基准数据集构建流程图。

2) 在 N C B I 和 E nse m bl 中筛选出不具有特定序列信息的 lnc R N A，获得 7 个单亚细胞位置和 19 个多亚细胞位置组合的 lnc R N A 序列记录;

3) 为了减少冗余序列对分类器的偏差，我们使用 cd -hit 工具( Hu ang

et al.， 2010)去除截断率为 8 0% 的冗余序列 ;

4) 由于多位置 lncrn a 太少，不具有统计意义，我们只选择只与一个位置相关的 lnc rna 进行训练。其余的 lncrn a 覆盖 7 个隔室。然后我们进一步移除其中两个，即内质网和突触，因为它们的样本太少 ( <10)。最后，我们获得了包含 612 个 lncrn a 的基准数据集，涵盖了 5 个亚细胞区室(图 2)。表 1 列出了该数据集的详细统计信息。

2.2 方法

建议的 lncLoca tor 由三个主要步骤组成，如下所示，如图 3 所示。

步骤 1:特征表示。首先，从输入的 lnc R N A 序列中提取原始的 k- m er 频率特征;同时，还使用无监督堆叠自编码器 ( AE )引擎来学习原始序列的高层抽象。然后，将原始和高级特征都输入到预测引擎中。

第二步 :构建预测引擎。随机森林 (R ando m f or est, RF )和支持向量机 (suppo rt ve ctor ma chin e, S V M )作为基本的分类模型。为了降低训练集分布不平衡的影响，我们采用过采样技术来平衡不同类别之间的样本。

步骤 3:堆叠集成。给定两种类型的特征 (Ra w k - me r 和基于 AE -b ased 的高级特征)和两个基本分类器 (RF 和 S V M )，我们然后得到总共四个基本分类器，即 RF R , S V M R , R F A, S V M A，其中 R RF 和 R S V M 表示使用原始 k-m er 特征训练的模型， RF 和 A S V M 表示 A 使用基于 AE -b as ed 的高级特征训练的模型。以上 4 个分类器的输出通过堆叠集成模型进行集成，该模型是 lncL oc ator 的最终输出。

2.2.1 特征表示

lncRNA 序列的 K-mer 核苷酸组成特征

我们从 lnc R N A 序列中提取核苷酸组成特征。设 lnc R N A 序列表示为:

(1)

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_数据集_02

表 1。基准 lncRNA 亚细胞定位数据集。

B 在哪里?是四个碱基之一， A、C、G、T。

对于长度为 k 的连续核苷酸段，即? B? B? B?… B? ，每个 k 位有 4 种不同的选择，有 k 4 种不同的基地组合。以 4-m er 为例，我们有 AAAA、 AAAC、 ⋯⋯ 、 TTTT 的不同组合， R N A 序列的 4-m er 频率特征是一个 256 维的特征向量:

与蛋白质中的 20 种氨基酸相比， rn a 的 k - me r 组合空间要小得多，导致 k- m er 特征 x 的判别能力相对较低。因此，除了原始的 k-m er 特征，我们还采用了无监督的堆叠自编码器模型 (V ince nt et .

从表 1 中可以看出，不同亚细胞位置的 lncR N A s a mpl es 数量存在显著差异。在处理多类分类问题时，这种情况可能会变得更糟。例如，如果我们使用一对其余的策略来区分外泌体 lncr na

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_编码器_03

图 3所示。拟议的 lncLocator 的流程图。RFA and svm 表示 A 使用基于 ae 的高级特征训练的模型， RF R and svm 表示 R 使用原始 k-mer 特征训练的模型。 SO S (监督过采样 )用于创建新的合成样本，以平衡不同类别之间的样本。Al .， 2010)从原始序列中提取高层抽象。从位于其他亚细胞室(细胞质、

由于深度结构和重建损失函数，栈式自编码器可以捕获高层次的抽象，同时保留输入数据的核心信息。对于原始输入特征 x ，编码器用非线性变换函数 f 映射 x 玩具，其中 W 和 b 是要学习的两个参数。

为了验证映射的有效性，通常使用解码器从等式(3)的 y 重构 x:

其中 g 也是一个非线性函数。为了得到式(3)和(4)中的适当映射参数，通过

优化过程使 x 和 z 之间的损失函数，即 :，其定义为平方误差函数 ℓ x, z?=‖− ?‖?本研究。

基于式(3)和(4 )所示的单层自编码器模型，我们构建了一个多层堆叠自编码器，通过使用 kera s 库(https://github. co m/f choll et/ke ras )来生成深度学习架构。它是一个按顺序方式构建的逐层结构 (图 3)。编码器和解码器都由 3 个具有 dropout 的全连接层组成，其中 dropout 概率设置为 0. 5。我们将 4-m e r 特征输入到深度模型中，并在 3 个隐藏层中使用

256、 128 和 64 个神经元。使用一种贪婪的逐层学习方法，通过使用

Adam 优化器来优化学习堆叠自编码器参数的目标函数。

细胞核，细胞质，和核糖体)，训练样本的正负比进一步增加到~23:1。高度不平衡的数据分布显著影响少数类上的分类性能，因为统计学习

算法倾向于将新样本分类到多数类。之前的许多研究都采用了欠采样技术来平衡不同类别的样本 ( Yang et al.， 2013;Yu et al.， 2014)，即从多数类中挑选出一个样本子集，与少数类样本大小进行平衡。本文中使用欠采样技术的一个潜在问题是，它将减少训练数据集中的 lnc R N A 样本总数，这也可能使学习到的分类器退化。考虑到这些点，我们将之前的监督过采样 (S O S)算法( Hu et al. ， 2014)从两类分类扩展到本研究的多类分类。与欠采样相比，过采样是通过生成新的合成样本来增加少数类样本量，从而导致总训练样本量的整体增加。

2.2.2 堆叠集成

基于神经网络的集成决策

我们使用两种类型的特征来编码 lnc R N A 序列:原始 k m er 核苷酸组成特征 x (eq.(2 ))和堆叠自编码器输出的高级特征 y (eq.(3 ))。基于 x 和 y，我们训练 RF 和 S V M 分类器，分别记为 RF R 、 S V M R 、 RF A、 S V M A。正如预期的那样，不同的分类器具有不同的识别类别的能力，如下面的实验所示。考虑到不同分类器的差异性，我们构建了一个共识模型来增强预测性能，其目的是融合多个基分类器以产生更高的性能。实现更好性能的一个关键是如何整合不同的预测器。一些广泛使用的策略包括多数投票(Br eim an, 2001)，平均单个分类器结果 (P an et al.， 2011)，使用逻辑回归的堆叠集成(Pan et al.， 2016)等。

我们采用堆叠集成，使用 3 层神经网络 ( N N )将来自各个分类器的预测结果组合在一起以进行最终决策。决策 NN 模型的输入是 RFR 、 S V M R 、 A RF 和 S V M A 的输出。每个模型输出 5 个分数，分别表示当前查询 lnc R N A 属于 5 个亚细胞定位的概率。因此， NN 的输入层有 20 个节点，输出层有 5 个节点，每个节点对应一个亚细胞定位类。我们最终基于神经网络的集成模型也是使用 kera s 库和 scikit-lea rn 实现的 (Pedre gosa et al.， 2011)。图 3 显示了我们预测模型的流程图。

2.2.3 评价标准

为了评估 lncL o c ato r 模型的性能，我们在实验中通过 5 折交叉验证使用准确率、F1 score 和召回率作为评价标准。

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_支持向量机_04

图 5所示。 with- sos (少数类样本过采样的数据集 )和 without- S OS (原始不平衡数据集之间不同模型的性能比较。(A):准确率， (B): F1 score，和( C ):召回率。

3 结果与讨论

3.1 lncrna 不同 k-mer 频率特征的比较

我们比较了序列的 4- me r、 5-m er 和 6- mer 频率编码的性能，结果如表 2 所示。我们没有测试高得多的 k- m e r 特征，因为特征维度将呈指数级增长。比如 7-m er 的特征维度高达 16384，远远超出了训练样本的数量。在这种情况下，模型有很高的过拟合风险。

从结果中可以观察到一个有趣的现象 :随着输入维度的增加，在原始 k- me r 特征上训练的模型和在高级特征上训练的模型反应完全不同。以 RF and R R Ff or A 为例，在 4-m er、 5- mer 和 6-m er 特征集上， RFa re 的 Fsco res 1 分别为 0. 295R 、 0. 275 和 0. 250，呈现下降趋势;而对于 RF，性

能 A有增加的趋势，即 0.316，

分别为 0. 323 和 0. 327。潜在的原因是，随着 k 的增大，保留了更多的序列顺序信息，同时引入了更多的噪声，那么 sv m 很难 R 从大量的输入特征中找到真正的判别性特征，从而导致泛化能力较低。相比之下， S V Mus A es 则是高级抽象特征，随着 k 的增加，这些特征受益于更丰富的输入信息。

从表 2 中我们可以看到的另一点是，在高级抽象特征 (射频 A 与支持 A向量机)上训练的模型通常比在原始 k- m er 特征(射频与 R 支持向量机 )上训练的模型获得更好的性能。 R 这可能是由于栈式自编码器生成的高层抽象特征可以掌握高维原始特征背后的隐藏相关性，从而产生更高的判别能力。所有这些结果表明，原始特征和高层抽象特征是相辅相成的，它们的融合有望在预测性能上得到进一步的提升。

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_数据集_05

图 6所示。lncRNA 分类与 SOS 的混淆矩阵。(A):射频 R， (B)支持 R 向量机， (C )射频 A ， ( D)支持 A 向量机， (E ) L oR 集成， (F)平均集成， ( G) NN 集成(lncL ocato r)。

mer 特性 5-mer 特性个六功能

ACC F1 回忆 ACC F1 回忆 A CC F1 回忆

RFR b 0 .575 0.295 0.311 0.562 0 .2 7 5 0 .2 9 2 0 .5 5 3 0.250 0.272

SV MR b 0.534 0.226 0.253 0.506 0 .1 5 5 0 .2 1 2 0 .5 0 1 0.146 0.207

RFA b 0.564 0 .316 0 .327 0 .601 0 .323 0 .337 0 .605 0.327 0.339

SV MA b 0.557 0.287 0.315 0.583 0 .3 0 7 0 .3 2 5 0 .5 8 8

0 .347

0 .356

—个

4 mer、5 mer 和 6 mer 的特征维度分别为 2 56 、 10 24 和 40 96 。

b RFR and SVM are R 以原始 k-mer 特征训练 A ， RFand SVM are 以堆叠自编码器生成的高级 A 抽象特征训练。

3.2 NN 集成决策提高了性能

在 lncL oc ator 中，我们采用基于神经网络的堆叠集成策略来集成 4 个预测器(RF R , S V M AR , R F A, S V M )以进行最终决策。我们将其与使用逻辑回归(Pan et al.， 2016)和平均集成模型 (P an et al.， 2011)的堆叠集成方法进行了比较。 4- me r 特征的结果如表 3 所示。在我们构建的 lnc R N A 基准数据集上，堆叠集成方法优于 4 个单独集成方法和其他集成方法。实验结果表明，堆叠集成方法是一种很有前途的方法，可以整合不同的预测变量，并通过组合多样性来提高最终性能。

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_数据集_06

表 3。不同模型在无 SOS的原始 lncRNA 基准数据集上的 4-mer 特征的性能。

3.3 利用过采样技术进行预测增强

在之前的实验中，我们没有平衡训练数据集。为了缓解类不平衡问题，我们采用了 S O S 的过采样方法。我们首先通过将 S O S 方法应用于 4- me r, 5- m er 和 6 - me r 特征来本地测试不同的模型。我们发现在这些特征编码系统上的结果是非常具有可比性的。考虑到时间成本，我们在接下来的实验中选择了 4-m e r 特征，并作为我们最终的 lncL o cato r 的

输入。不同模型在平衡数据集 (4- m er 特征)上的结果如表 4 和图 5 所示。通过表 3 和表 4 的对比，我们可以发现 S O S 方法将 NN 集合的 F1 得分和召回率分别从 0. 343、0. 356 提高到 0367、 0. 363，同时保持了相当的总准确率。这是因为在平衡数据集之后，模型增加了对少数类样本的预测能力。此外，表 S1 提供了不同模型之间统计差异的标准差。此外，我们还比较了 RFR、 S V M R、 RF A 、 A SVM 和 NN 的 R O C 曲线

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_支持向量机_07

图 7所示。ROCcomparisonamongdifferen tm ethods。 RF、SV M 、 RF(AE )、S V M ( AE )分别表示 RF R 、 S VM R 、RF A、 S V M A 。

集成如图 7 所示，结果显示 nnense mble - m ethod 可以达到最高 A U C 0.76。

在不平衡分类问题中，尽管少数类的样本比多数类的样本少得多，但它们往往非常重要。例如，目前仅观察到一小部分 lncR N A s 位于外泌体中，并且正确预测这类样本并不容易，因为训练后的模型会更倾向于大多数类别，例如细胞质。生物学上，外泌体 lnc R N A s 的功能尚未得到很好的表征，正确识别这类 lnc R N As 将为后续的实验研究提供更多的样本。图 6 展示了 5 个亚细胞定位类别上不同模型的混淆矩阵。从图中可以看出，通过测试的 RF、S V M AR 、 RF R 、L o R 集合和平均集合，外泌体中的样本都没有被正确识别，这表明开发一个更好的预测器来准确识别外泌体中的 lncR N A s 仍然是一个非常具有挑战性的未来任务。

3.4 与同源转移基线方法的比较

基于同源转移的方法可以被认为是最近邻预测器，其中两个 lnc R N A s 之间的距离是通过它们的序列一致性来测量的。在这里，我们使用 blast+工具箱中的 blastn ( C a m achh o et al. ， 2009)通过相同的五折交叉验证协议对训练数据集搜索每个测试序列。查询序列的亚细胞定位由训练数据集中 e 值最低的序列的定位决定。结果表明，基于同

质性的方法的平均正确率、 f 1 值和召回率分别为 0. 493、 0. 339 和 0. 338，均低于 lnc L oc ato r 方法。这些结果表明，当经过实验验证的训练样本不足时，同源迁移方法很难得到令人满意的结果。基于机器学习的模型在现阶段 lncR N A 亚细胞定位预测中表现出更强大的性能。

3.5 通过独立测试协议的性能

在我们之前的实验中应用了五折交叉验证。为了更好地评估我们模型的性能，我们还通过一个独立的测试协议进行了测试。我们构建了一个包含 40 个序列的独立测试数据集 (表 S2)，剩余的 572 个序列用作整个训练集。测试数据集上的结果如表 5 所示，与 F 上的五折交叉验证协议类似

3.6 讨论

由于核苷酸只有 4 种状态，因此准确预测 lncR N A s 的亚细胞位置比预测蛋白质亚细胞位置更具挑战性。此外，直接从核苷酸序列中提取的特征也会因可能的突变而产生偏差，导致特征中存在潜在的噪声效应。在这项研究中，我们建议使用无监督堆栈自编码器来提取 k- me r 特征的高层抽象，这被证明对增强后续的分类有显著帮助。原因在于，深度学习架构能够学习隐藏在原始数据中的复杂统计特征 (Z hou 和 T roy an - s kay a, 2015 )。 k- m er 频率特征类似于文档中的单词，深度学习模型可以提取文章中的主题等高层抽象。压缩表示还通过消除不相关的变量，尤其是高维 k-m e r 频率特征，避免了维数灾难。通过融合原始特征和高层抽象在共识模型上提高的性能也表明，这两种类型的特征编码系统可以很好地互补。

不同的预测器有各自的优势。具体来说，没有一种方法可以在所有方面超越别人。在本研究中，设计了堆叠 NN 集成方法来集成 lncL oc ator中的不同模型。与平均投票或多数投票不同，堆叠 NN 集成可以将单个预测器的优势与自动权重学习相结合。我们还表明， NN 模型也优于广泛使用的逻辑回归集成方法。

少数 lnc R N A 分类(如外泌体 )是本研究中一个特别具有挑战性的问题。如图 6 所示，通过测试 RF R 、S V M AR 、 RF、 L oR 集合和平均集合，外泌体中没有一个样本被正确识别。这可能是由于外泌体中的

lnc R N A 样本模式与其他类别非常相似，也可能是因为外泌体中的样本太少。统计学习的模型自然会对多数类给予更多的偏好，从而导致少数类的表现非常糟糕。在本研究中，我们提出了 S O S 算法，用于在少数类 (例如外泌体 )中生成一些合成样本，以平衡数据集分布。我们的结果表明，这可能是一个有前途的策略，尽管仍然需要做很多工作来进一步提高少数类分类性能。

我们还分析了序列相似性对预测性能的影响，并在不同的截断值下对序列冗余的模型进行了测试。除了上面测试的 80 %的截断值， 50 %、 60 %、 70%的其他截断值的结果如表 S3- S6 所示。在所有测试集上，最终的神经网络集成模型在大多数情况下优于其他测试方法。截断 50 %的基准数据集产生了最低的 F? -scor e 和 re call，可能是由于较低的序列相似度和较少的训练样本数量。

我们的结果表明，预测性能会受到序列长度的影响。在我们构建的数据集中， lncrn a 的长度在 192 ~ 91671 之间。我们将其分为 5 个区间

[192, 1000 )， [1 000, 2000 )， [20 00, 3000 )， [30 00, 5000 )和[50 00, 91671 ]。 5

个区间对应的准确率分别为 0. 521、 0. 654、 0. 612、 0. 598、 0. 463( 表

S7)。最长序列的准确率相对较低，而 [100 0, 2000]区间的序列准确率最

高。对于长度在 [192, 10 00]的较短序列，与之相比，它们可能包含的准确预测信息不足

长度在[1000, 5000]的中等序列 ;而对于[5000, 91671]中的序列，它们可能太长，分类器无法提取高质量的特征。

尽管 lncL o cato r 利用深度神经网络自动提取高级特征，并且这些学习到的高级特征具有更高的识别能力，但这些特征仍然没有从生物学的角度得到很好的解释。在未来的工作中，我们将探索更好的网络架构，以学习具有生物学见解的高级特征。此外，不平衡问题已经通过这里的过采样策略得到缓解，我们的结果显示，性能受到采样比率的影响(表 S8 )。随着 R N A 注释的进展，我们希望收集更多的标记样本，并扩展基准数据集，以训练更强大的模型。我们目前在 lncL oc ato r 中使用的特征只是 k - me r 频率特征，还有许多其他有用的特征可以集成以更好地识别亚蜂窝位置。例如， GO 特征和二级结构信息特征。

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_编码器_08

表 4。用 SOS 过采样平衡了类样本量的情况下，不同模型在 4 个特征上对 lncRN A 进行分类的性能。 ACC F1 Recall

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》_数据集_09

表 5所示。在独立测试数据集上使用 SOS 过采样对 lncR N A 进行 4 个特征分类的不同模型的性能。

4 结论

在本研究中，据我们所知，我们提出了第一个用于 lnc R N A 亚细胞定位预测的计算方法 lncL oc ato r，这是一种只需要核苷酸序列作为输入的从头计算方法。我们设计了无监督的深度堆叠架构来提取高层抽象特征，并集成不同模型的输出。我们的结果已经证明了集成模型的有效性。考虑到本研究中的数据不平衡，我们建议使用过采样方法来提高模型的性能，而不减少数据集中的总样本大小。未来的挑战是探索一种更好的方法来进一步提高少数类的预测性能。我们计划通过设计更好的网络架构来挖掘更多专门针对这些位置的生物靶向 motif。

标签：集成,长非,特征,模型,lncLocator,分类器,RF,序列,lnc
From： https://blog.51cto.com/u_16216184/7133689

论文解读：《lncLocator:基于堆叠集成分类器的长非编码 RNA》

摘要

1 介绍