标题 iLoc-lncRNA: predict the subcellular location of lncRNAs by incorporating octamer composition into general PseKNC
DOI 10.1093/bioinformatics/bty508
期刊 Bioinformatics
影响因子 5.8↓ 1.131
中科院分区2区
作者 Zhixun Su; Yan Huang; Zhao-Yue Zhang; Yue Zhao; Dong Wang; et al
出版日期 2018-06-21
网址 https://doi.org/10.1093/bioinformatics/bty508
(一篇老文章了,就是回顾一下)
摘要
动机:长链非编码 RNA (Long non-coding RNA, lncrna) 是一类超过 200 个核苷酸的 RNA 分子。它们在细胞发育和代谢中具有重要的功能,如遗传标记、基因组重排、染色质修饰、细胞周期调控、转录和翻译等。它们的功能一般与它们在细胞中的定位密切相关。因此,了解它们的亚细胞位置可以为了解它们的生物学功能提供非常有用的线索或初步认识。虽然生化实验可以确定 lncrna 在细胞中的定位,但它们既耗时又昂贵。因此,开发快速有效地识别其亚细胞位置的生物信息学工具是非常可取的。
结果:我们开发了一个基于序列的生物信息学工具,称为“iLoc-lncRNA”,通过二项分布方法将 8 元组核苷酸特征纳入一般 PseKNC(Pseudo K-tup le nucleotide Composition),以预测 lncrna 的亚细胞位置。严格的 jackknife 测试表明, 新的预测器在严格的基准数据集上实现的总体精度为 86.72%,比在相同测试中评估的现有最先进的预测器高出 20%以上。
可用性和实现:已经在 http ://lin- group.cn/server/iLoc-LncRNA 建立了一个用户友好的 web 服务器,用户可以通过它轻松地获得他们想要的结果。
1 介绍
生命的基本单位是细胞。它含有许多生物分子, 包括蛋白质、RNA 和 DNA。要真正了解细胞内的生物过程, 了解蛋白质、RNA 和 DNA 分子的亚细胞定位是必不可少的。为了为了及时获取其亚细胞定位信息,长链非编码 RNA (Long non-coding RNA, lncRNAs)是一类含有 200 多个核苷酸的 RNA 分子,很少或没有蛋白质编码能力(Spizzo et al., 2012)。对动物转录的大规模分析表明, lncRNA 的多样性远远超过蛋白质编码 mrna (Birney et al. , 2007;Carninci 和 Hayashizaki, 2007;Carninci等人,2005 年;Kapranov et al., 2007)。 lncRNA 最初被认为是 RNA 聚合酶 II 转录物的无功能副产物,是虚假的转录噪音(Struhl, 2007)。然而,越来越多的研究报道它们具 有重要的生物学功能。越来越多的证据表明, lncRNAs 在细胞发育和代谢中具有重要的功能多样性,包括遗传标记、基因组重排、染色质修饰、细胞周期调控、转录、剪接、mRNA 衰变和翻译 (Gong and Maquat, 2011;Huarte et al., 2010;Hung 等人,2011;Kino 等,2010;克雷兹等人,2013;李,2010;特里帕希等人,2010,2013;蔡 等人,2010;徐等,2013a;Yap 等, 2010;Yi et al., 2013)。它们的 异常表达已被证明与几种类型的癌症、阿尔茨海默病、亨廷顿病 和心血管疾病有关(Gupta et al., 2010;约翰逊,2012;林等人,2007;麦克弗森等人,2007;Mourtada-Maarabouni 等人,2009;潘兹特等人, 2007;Pasmant 等人, 2007;王等, 2010;张等, 2010; 赵等,2005)。
对 lncRNAs的初步研究表明,它们倾向于定位于细胞核和染色质 中, 以 表观遗 传方式 调节 基因表 达(Hutchinson et al. , 2007;Mondal et al., 2010;Rinn 等人, 2007;蔡等人, 2010;怀特黑 德等, 2009;Zhao et al. , 2008)。细胞质中存在大量 lncRNAs (Carlevaro-Fita et al., 2016;Ulitsky 和 Bartel, 2013;van Heesch et al., 2014) 用于调控蛋白质翻译(Schein et al. , 2016;Yoon 等人, 2012;Zucchelli 等人,2016),蛋白质转运(Aoki等人, 2010;Kino 等人, 2010)或 miRNA 诱饵(Cesana 等人,
2011)。RNA 的细胞内定位现在被认为对理解真核细胞发育和生理 机制至关重要(Donnelly et al., 2010;Weil et al., 2010)。在原核生 物中,尽管缺乏细胞核以及转录和翻译之间的耦合,但一些研究 表明,各种 RNA 分子定位于细菌细胞的特定亚细胞区域(broad, 2011;凯尔,2011)。很容易推断, lncRNAs 的功能与其在细胞中的 位置密切相关。因此,鉴定 lncRNAs 的亚细胞定位是非常重要的。
利用荧光 RNA结合 MS2 蛋白,对活细菌细胞中的 mRNA进行首次观察发现,大多数情况下 RNA 转录本靠近四分之一点或靠近细胞中心,运动受限(Hiraga, 2000;Nevo-Dinur 等人;
2012)。Valencia-Burton 等人利用荧光蛋白互补技术监测活的原核 细胞中的 RNA 定位, 发现 lacZ mRNA、5S RNA 和短链非编码 RNA 分别分布在细胞质、类核和细胞极中(Valencia-Burton 等, 2007)。虽然这些生化方法提供了非常可靠和精确的信息来确定 RNA 的亚细胞定位, 但它们既昂贵又耗时。计算方法可以克服 这些缺点,并提供高通量的结果。如上所述,在过去的三十年中,通过专注于蛋白质亚细胞定位的预测已经做出了许多努力
生物信息学方法的手段。蛋白质和 RNA 分布模式之间的相似性表明,它们的定位彼此密切相关(Nevo-Dinur 等人,2012)。这种联系表明, RNA 亚细胞定位也可以用非常相似的方法来预测。
为了研究 RNA 亚细胞定位, Zhang 等人构建了一个名为 RNALocate 的数据库,该数据库收集了超过 37700 个人工整理的 RNA 亚细胞定位条目(Zhang 等人, 2017)。随后,Mas-Ponte 等人 (2017)建立了一个名为 LncATLAS的数据库来存储 lncRNA的亚细胞定位。Cheng and Leung(2018)系统研究了 lncRNA亚细胞定位在胃癌中的分布,揭示了其与癌症的关联。作为先驱工作, Feng 等 (2017b)开发了一种计算方法,通过收集着丝体、线粒体和叶绿体基因组中的 ncRNAs 来预测非编码 rna (ncRNAs)的细胞器位置。随后,Zhen 等人(2018)开发了一种名为 lncLocator 的预测器,用于预测长链非编码rna 的亚细胞定位。
在本研究中,我们致力于开发一种预测 lncRNA 亚细胞定位的计算方法。如最近的一系列出版物所示(Chen 等人,2016b, 2017b, 2018a;Feng 等, 2017a,b, 2018; 可汗等, 2018; 刘等人, 2017c,
2018b;邱等, 2017a;Song et al., 2018b,c),通过观察 5 步规则提出了一个新的预测器(Chou’ s, 2011),将具有以下优点:(i)逻辑开发更加透明;(ii)结果更容易被他人重复;(iii)更鼓舞人心;(四)影响大。
下面,让我们也按照 5 步指南来呈现我们新的预测方法;即(i)构建一个可靠的基准数据集来训练和测试模型;(ii)用有效的数学表达式制定生物序列样本,能够真实反映其与待预测目标的内在相关性;(iii)引入或开发强大的算法(或引擎)来操作预测;(iv)适当地进行交叉验证测试,客观地评估预测器的预期精度;(v)为预测器建立一个公众可访问的用户友好的 web服务器。图 1 所示是 5 个步骤及其详细发展的大纲。
2 材料与方法
2.1. 基准数据集
构建高质量的基准数据集是建立可靠模型的首要前提。为了实现这一点,我们从 RNALocate (http://www.rna-society.org/rna locate/)收集了 lncRNA 样本。共获得 923 个带亚细胞定位注释的 lncRNA序列。由于高度相似的数据会导致对预测质量的高估,为了去除冗余并避免偏差,我们使用 CD-HIT(Li and Godzik, 2006)程序对具有?与同一子集中的任何其他样本具有 80%的成对序列一致性。最后, 我们获得了 655 个 lncRNA序列,将其分为四个子集,公式为
S¼S1 [S2 [S3 ] S (1)
其中,s1 包含 156 个来自细胞核的 lncRNAs(图 2), 2 s 包含 426 个来自细胞质的样本,3 s包含 43 个来自核糖体的 lncRNAs,4 s包含 30 个来自外泌体的 lncRNAs。符号[代表集合论中的“并”。为方便读者,这些 lncRNA 样本的加入号及其序列在辅助信息 S1 中给出,也可以通过
图 2 所示。lncrna在细胞中四个位置的示意图
PseK N C (C he n 等人, 2 015a ),任何 R N A 序列都可以表示为 Pse K N C
其中 T 为转置运算符,下 标 C 为整 数, 其值和分量 /u ð u¼ 1;2;吗?吗??Þ 将取决于如何从 R N A 序列中提取所需的特征和属性。在这项研究中,它们的定义如下所述。
2.2. 样品配方
现在让我们考虑五步法则的第二步(Chou, 2011);即如何用有效的数 学表达式来制定 lncRNA 序列样本,以真实反映其与相关靶标的本 质相关性。给定一个 lncRNA 序列 R,其最直接的表达为(Chen et al., 2015a)。
R¼n1n2n3n4n5n6n7 ?吗?吗?问 (2)
式中 L 为 lncRNA 的长度或其组成的核酸残基数目,Nis1 为第一 残基,2 n 为第二残基 3 , n 为第三残基,以此类推。由于所有现有的机器学习算法只能处理向量(Chou,2015),我们必须将 lncRNA 样本从其序列表达式(Eq. 2)转换为向量。但是在离散模型中定义 的向量可能会完全错过所有的序列顺序或模式信息。为了解决这 个问题,引入了 PseKNC(伪 k 元组核苷酸组成)(Chen 等人,2014),它是 PseAAC(伪氨基酸组成)(Chou, 2001 年, 2005 年)的扩展,可 用于处理 DNA/RNA 序列。从那时起,PseKNC 的概念在计算基 因组学/遗传学的许多领域得到了广泛和越来越多的应用,目的是 掌握对所研究的目标至关重要的各种不同的序列模式[参见, 例如 (Chen 等人, 2013,2015b;Feng et al., 2017a, 2018;郭等, 2014;卡 比尔和哈亚特,2016;林等人,2014;刘等, 2018a,b;邱等,2017b; 肖等, 2016;Yang et al., 2018)以及最近一篇综述论文中引用的一长串参考文献(Chou, 2017)]。根据一般的概念k 元组(或称为 K-mer)核苷酸组成具有重要的生物学意义(gandi等, 2014),并已广泛应用于 DNA/RNA 调控元件识别(Chen 等, 2017b;Feng et al., 2018;赵等,2017;朱等人,2015)。对酵母中含有 CG 二核苷酸的 8-mer 的进化机制和生物学功能的一些研究表明 (Jia et al., 2018), 8-mer 的分布具有独特的进化机制。为了尽可能准确地表征每个 lncRNA 序列,本研究提出了 8-mer 组成来描述 lncRNA 样品。因此,Eq3 中 PseKNC 的维数为 (4)其中 u-th 8-mer 由其中 u 和 L 分别表示 u-th 8- m er 的编号和样本序列的长度。因此,lncRNA 样本可以用下式给出的 65 536- D 向量定义 (6)
2.3. 特征选择
人们可能会注意到,如果 lncRNA 样本由 65536 维的向量表示,这 可能会导致以下三个问题(Ding et al., 2012;Feng et al., 2013;赖等, 2017;刘等, 2015;唐等, 2016b;王等, 2008;杨等, 2016;赵等人,2016、2017;Zhu et al., 2010):(i)冗余或不相关噪声产生较差的预测质量;(ii)过度拟合问题导致模型泛化能力极低;(iii)“维数灾难”或 “维数灾难”。幸运的是,这些问题可以通过特征选择方法得到改善。事实上,一些特征选择技术如主成分分析(PCA)(Du et al., 2017)、方差分析
2.4. 支持向量机(SVM)
SVM 是一种基于统计学习理论的机器学习算法,它可以通过最小 化结构风险来提高学习机的泛化能力,最小化经验风险和置信范 围。因此,即使在小样本情况下,通常也能取得较好的统计结果。作为一种强大的监督学习方法, SVM 在生物信息学中得到了广泛的应用[参见(蔡等, 2002,2003;陈等, 2016a;周和蔡,2002;艾山等, 2018;哈亚特和伊克巴尔, 2014;库马尔等人, 2015;Lai 等人,
2017;Mohabatkar 等, 2011;赵等人, 2017)]。本文使用 LIBSVM 3.21(Chang and Lin, 2011) 进行 预 测 , 可 以 从 http:// www.csie.ntu.edu.tw/?cjlin/libsvm/免费下载。由于它适合非线性分类,因此选择径向基函数(RBF)核作为核函数。对于多类分类,采用 one-versus-one (OVO)策略。为了构建最优模型,正则化参数 C和核宽度参数 C 通过使用网格的优化过程进行优化
其中 Nþ ð iÞ 为第 i 个子集中的 lnc R N A 样本总数, þ Nð iÞ 为 Nð iÞ 中 þ 被错误预测为其他位置的样本数量 ;N? ð iÞ 为除第 i 个位置以外的任意位置的 lnc R N A 样本总数, ? Nð iÞ 为 Nð iÞ 中? 被错误预测为第 i 个位置的样本数量 ;F 是关注对象的总数, d 是基准数据集中总样本的数量。
3 结果与讨论
3.1 预测精度
如第 2.2 节所述,每个 LncRNA 样本被制定为一个 65536 - d PseKNC 向量(Eq. 6)。通过对基准数据集进行 5 倍交叉验证来检查 iLoc-lncRNA 预测器的性能,我们观察到当 C9 ¼2 和 C¼2?15时,总体准确率为 69.77%。虽然高维特征向量可能包含更多的 LncRNA 样本信息,但它也不可避免地包含了大量的噪声,这会降低预测器的准确性。此外,使用高维向量来训练模型是非常耗时的。因此,要构建一个更精确的预测器,就需要从高维特征向量中排除噪声。为了实现这一点,Eqs. 7-10 中给出的二项分布方法可以用来做到这一点。通过研究 CL 为 99.99%的 iLoc-lncRNA预测器的性能,我们发现相应的模型可以将准确率从 69.77 提高到 72.06%。尽管如此,由于这些 8-mer 片段的数量如此之多,离我们的满意还差得很远
图 3 所示。在 3-D 空间中显示IFS 程序的绘图。当Eq. 3 的维度为C¼4107 时,经
5 次交叉验证达到 86.11%的峰值
小到许多重要的信息可能会丢失。因此,选择最优的特征数量来构建鲁棒且高效的预测模型至关重要。
我们使用 IFS 策略来构建最优特征子集。首先,特征子集从排 序特征集中 CL 值最大的 8-mer-vector 开始;然后,当添加第二个 CL 值第二大的 8-mer 时,产生一个新的特征子集。这个过程从最 高的 CL 值重复到最低的 CL 值,直到所有候选 8-mer 向量都被添 加。这样,总共收集了 65 536 个特征子集,并相应地建立了相同 数量的基于 svm 的模型。通过 5 折交叉验证测试研究了它们的预 测能力。当整体精度达到最大值时, 获得最优的特征集。以特征 维度为 x 坐标,1-CL 为 y 坐标,整体精度为 z 坐标,在 3-D 笛卡 尔坐标系下绘制相应的 IFS 曲线(图 3)。可以看出,当选择 CL 为 99.19%时,整体精度达到最大值 86.11%,8-mers 特征个数为 4107 个。换句话说,当 Eq. 3 的 PseKNC为 C¼107 时,模型将表现最佳。由此获得的基准数据集中每个蛋白质样品的 4107 个矢量分量见 support Information S2随后,在相同的基准数据集上使用严格的折刀测试,以检查新 提出的预测器 iLoc-lncRNA在 Eq 的 PseKNC为 C¼4107 时的性能。 因此,通过 iLoc-lncRNA预测 Sn、Sp、MCC和 OA(参见 Eq. 11)获 得的最终结果列于表 1 中,其中为了便于与 lnclocation (Zhen 等人, 2018)的相应结果进行比较,也给出了重新估计的结果。lnclocation 是用于相同目的的最先进的预测器。从表中可以看出, 从 Eq.中四个指标的测量来看,所提出的 iLoc-lncRNA 明显优于 lncLocator(Zhen 等人,2018)。特别是,所提出的预测器实现的整体精度比现有的最先进的预测器高 20%以上, 这意味着强大的新预测器将成为基础研究和药物开发中广泛使用的高通量工具。
3.2 Web-server 和用户指南
正如 Chou 和 Shen(2009)所指出的,用户友好和可公开访问的 web 服务器代表了开发实际更有用的预测器的未来方向。实际上,用户友好的
表 1。提出的预测器与现有预测器的比较位置 iLoc-lncRNAla ncLocator
Snc Spc MCCc OAc Snc Spc MCCc OAc(%)(%)(%)(%)(%)(%)(%)(%)(%)(%)细胞核 77.56 97.59 0.796 86.7238.15 92.17 0.357 66.50 细胞质 99.06 67.68 0.742 88.01 36.36 0.288 核糖
体 46.51 99.83 0.652 7.00 97.53 0.070 外泌体 16.67 1.00 0.400 4.00 97.27
0.015a 本文提出的预测因子。
b 现有的最先进的预测器(Zhen 等人, 2018)。
c 指标的 定 义 见 公式 11 。
图 4 所示。iLoc-LncRNA web 服务器http://lin-group.cn/server/iLoc-LncRNA
首页的半截图
近期一系列出版物中给出的 we b 服务器(Ch en 等人, 2017a, 2018b;贾 等人, 2015, 2016 a, b;梁等, 2017;刘等人, 2016, 2017 a, b, 2018a ;邱等人,
2016a, c ; 宋等, 2018 a; 宋等, 2018 c; 王等, 2017, 201 8 ; 徐等, 2013b,
2014; Y ang et al. , 2018)将大幅增加生物信息学工具的影响, 因为它们可以被广泛的实验科学家轻松使用 (C hou, 2017)。 鉴于此,我们还为新的 iL oc -lnc R N A 预测器建立了一个用户友好且可公开访问的 web 服务器。此外,为了最大限度地方便用户,下面给出了一个分步指南。
步骤 1 。打开 web 服务器 http://lin-group.cn/server/iLoc- LncRNA, 您将在计算机屏幕上看到 iLoc-LncRNA 的首页(图 4)。
步骤 2。将查询 RNA 序列键入或复制/粘贴到图 4 中心的输入 框中。输入序列应该是 FASTA 格式。然后点击提交按钮查看预测 结果。例如,如果使用 example 窗口中的四个查询 RNA 序列作为 输入,单击 Submit 按钮后,您将在计算机屏幕上看到以下显示。 (i)预测第一个查询 LncRNA 定位在 Nucleus 中。(ii)第二个查询细 胞质中的 LncRNA。(iii)第三个查询核糖体中的 LncRNA。(iv)第四 个查询外泌体中的 LncRNA。所有这些结果与实验观察完全一致。
步骤 4。点击引文按钮查找在开发 iLoc-LncRNA 预测器中发挥关键作用的相关论文。
第 5 步。点击帮助按钮查看相关说明和使用时的注意事项。
4 结论
本文引入了一种基于二项分布的特征选择技术来降低特征维度,以避免过拟合问题,排除冗余信息, 降低计算复杂度,提高模型的精度和泛化能力。事实上,一些传统的特征选择技术如方差分析(ANOVA)已经被用来优化特征。然而,这些技术通常适用于服从正态分布的数据。对于高维 k-mer 组合,特征服从二项分布。因此, 我们可以使用二项分布来进行特征选择。所提出的预测因子“ iLoc-lncRNA”在识别 lncrna 的亚细胞定位方面优于现有的最先进的预测因子,如表 1 中列出的令人信服的数据所清楚地表明。这一强大的预测器无疑将成为深入研究各种细胞生物学过程的高通量生物信息学工具,包括遗传标记、基因组重排、染色质修饰、细胞周期调控、转录和翻译。我们注意到, 这里提出的新方法也可能被用于处理许多其他生物系统。