lncLocator 2.0: a cell-line-specific subcellular localization predictor for long non-coding RNAs with interpretable deep learnin
关键词:长链非编码RNA亚细胞定位预测;可解释模型;词嵌入;端对端;
作者:Yang Lin , Xiaoyong Pan * and Hong-Bin Shen
期刊:Bioinformatics
年份:2022
论文原文: doi: 10.1093/bioinformatics/btab127
补充材料:数据集代码链接: https://github.com/Yang-J-LIN/lncLocator2
主要内容
1问题 :长非编码RNA(lncRNA)通常以组织特异性方式表达,lncRNA的亚细胞定位取决于其表达的组织或细胞系。以前预测lncRNA亚细胞定位的计算方法没有考虑到这一特性,它们为来自所有可用细胞系的汇集lncRNA训练了统一的机器学习模型。开发一种细胞系特异性计算方法来预测不同细胞系中lncRNA的位置是非常重要的。
2数据集:
TABLE 2.DETAILS OF THE TRAIN SET, DEVELOPMENT SET AND TEST SET OFINCRNAS IN 15 CELL LINESCELL LINETRAIN SETTEST SETDEV SET8315K562102498411419601954A549114691551GM12878135514161H1.HESC176116461215HELA.S39078934HEPG21833149112828HT1080112.5118993481755HUVEC1283513914728524IMR.90570MCF.7157992280179278791035840NCI.H4601264102431161NHEK1493SK.MEL.51168105007105787SK.N.DZ888162114034SKN.SH1876
3方法 :在这项研究中,我们提出了一种更新的细胞系特异性预测因子lncLocator 2.0,它训练每个细胞系的端到端深度模型,用于从序列预测lncRNA亚细胞定位。我们首先构建了15个细胞系的lncRNA亚细胞定位的基准数据集。然后,我们使用自然语言模型学习单词嵌入,这些学习的嵌入被馈入卷积神经网络、长短期记忆和多层感知器,以对亚细胞定位进行分类。lncLocator 2.0对不同的细胞系实现了不同的效果,并证明了训练细胞系特定模型的必要性。此外,我们采用积分梯度来解释lncLocator 2.0中提出的模型,并发现了一些决定lncRNA亚细胞定位的潜在模式,这表明lncRNA的亚细胞定位与某些特定核苷酸有关。
模型框架图:
ATCGATCGATCG...ATCGATPRETRAINED EMBEDDINGATCGATGATCGACGATCGATCGATCONVOLUTIONWORD EMBEDDINGQO...........000....000..........0000002TOO.....QQ....CYTOPLASMNUCLEUSMULTI-LAYER PERCEPTRONLONG SHORT-TERM MEMORY
4主要实验及结果
1、序列表示:
当 word2vec 处理一个序列时,word2vec 不知道核苷酸组合的内部结构。例如,word2vec 不知道 CTCACT 与 ACTGTA 相邻,也不知道 AAAAAA 和 AAAAAT 仅在最后一个核苷酸不同。因此,我们使用== GloVe 来学习嵌入,它能够理解核苷酸组合的内部结构==。我们首先选择TTTTTT进行分析,它在词汇表中频率第二高,具有明显的对称结构。我们计算 TTTTTT 和所有其他词向量之间的余弦距离。表 3 列出了具有最高相似性的前 10 个核苷酸组合。
TABLE 3. SIMILARITY ANALYSISOF TITTTT AND TTTTTG BASED ON THELEARNED EMBEDDINGSCOSINE DISTANCENUCCOMBCOSINE DISTANCENUCCOMBTACTTGTTGTTG0.973448340.71822561CGTTTG0.97066298TGTTGT0.694234390.92176875GTATTGCATCAT0.69407857TATTAT0.90673493TCGTTG0.692784820.90498589TCATCAACGTTG0.68936708CGATTG0.688580350.90430327GTTGTTTTTATAACTACT0.872390030.66433784TTTTCGATTATT0.870810460.655560350.86028089TTATTATTTCGT0.65108642CTTCTTCCGTTG0.807879980.64973300: 10 NUCLEOTIDE COMBINATIONS WITH THE HIGHEST SIMILARITYNOTE:THE LEFTARETTTTTT. THE RIGHT ARE 10 NUO NUCLEOTIDE COMBINATIONS WITH THE HIGHEST SIMI-TOLARITY TO TTTTG.CSDN @R1CELEE
通过表,我们发现与TTTTTT相似度最高的核苷酸组合在结构上都是对称的。
然后我们选择TTTTTG来分析没有对称结构的词向量。与TTTTTG相似度最高的前10个核苷酸组合如表3所示。相似度最高的词向量都包括TTT或TTG。这在一定程度上是由符号化造成的。这也说明word2vec能够很好地学习周围的核苷酸组合。此外,对于TTTTTT,其前10个相似核苷酸组合在嵌入空间中没有5个T,表明word2vec学习到了与纯序列相似性的一些差异。
2、lnc Location 2.0的有效性
在本实验中,我们研究了 lncLocator 2.0(GloVe + CNN + BiLSTM + MLP)对细胞系 H1.hESC 的 lncRNA 亚细胞定位的有效性。 lncLocator 2.0和其他baseline模型得到的AUROCs如表4所示。lncLocator 2.0优于老版本lncLocator,AUROC达到0.8472,相对lncLocator的AUROC为0.794,相对提升6.7%。我们还研究了具有不同组件的其他变体方法,证明模型的所有组件都有助于预测性能。 E BASELINE MODELS FOR THETABLE 4. RESULTS OF INCLOCATOR 2.0 AND THE BACELL LINE HI.HESCAUROCMETHOD0.7942INCLOCATOR0.744K-MER+MLPGLOVE + BILSTM + MLP0.76830.559DEEPLNCRNAINCLOCATOR 2.00.8472INCLOCATOR 2.0 WITH MULTI-TASK LEARNING0.8269INCLOCATOR 2.0 WITH PRETRAINING0.8466GLOVE, CNN, BILSTMINCLOCATOR2.0MLP.NOTE:OFANDCONSISTSINCLOCATOR 2.0S TRAINED ON 15 CELL LINES SIMULTAN-MULTI-TASK LEARNINGWITHISEOUSLY, SHARINGBILSTM. INCLOCATOR 2.0 WITH PRE-CNNOFANDPARAMETERSTRAINING IS PRETRAINED WITH CODING MRNAS.CSDN @R1CELEE
在我们的任务中,我们观察到预训练和多任务学习在提高预测有效性方面是无效的。这可能是由于以下原因:
(i)mRNA定位模式与lncRNA定位模式不同,对mRNA数据进行预训练无法获得更好的lncRNA数据初始参数;
(ii) 来自不同细胞系的 lncRNA 定位存在一定的特异性,通过多任务学习学习到的细胞系之间的共享参数可能会为某些细胞系引入一些噪声。
此外,我们将 lncLocator 2.0 与另一种基于深度学习的方法 DeepLncRNA 进行了比较,用于从细胞核中对细胞质进行分类。如表 4 所示,DeepLncRNA 的 AUC 为 0.559,低于 lncLocator 2.0。结果表明,跨细胞系训练的 DeepLncRNA 不能直接用于预测一种特定细胞系的 lncRNA 定位,这表明训练细胞系特异性模型的必要性。
此外,我们研究了 lncLocator 2.0 在来自其他 14 个细胞系的基准数据集上的有效性。我们对其他 14 种细胞系进行了与 H1.hESC 相同的模型优化。如表 5 所示,lncLocator 2.0 在 15 个细胞系中实现了不同的 AUROC,AUROC 值范围从最高的 0.8499 到A549 到 K562 中的最低值 0.6095。 K562、NCI.H460和SK.MEL.5的故障除了数据集中的噪声外,还有可能是数据集数量少、数据不平衡造成的。结果表明,有必要针对lncRNA定位预测器实施细胞系特异性方法,并且不同细胞系存在不同的定位模式。
TABLE 5.THE AUROC VALUES OF INCLOCATOR 2.0 IN 15 CELL LINESCELL LINEAUROC0.6095K562A5490.84990.6965GM128780.8472H1.HESCHELA.S30.72860.7038HEPG20.6553HT10800.6348HUVEC0.6499IMR.90MCF.70.6992NCI.H4600.6088NHEK0.7004SKMEL.50.61810.7041SK.N.DZ0.7728SKN.SHCSDN @R1CELEE
5分析
1、lncLocator 2.0能够检测与亚细胞定位相关的模式
我们首先做一个预测lncLocator 2.0的案例研究。我们从测试数据集中随机选择一个具有适当长度的lncRNA序列来演示解释结果ENST00000623312,其CNRCI为- 3.248,长度为492。lnc Localator 2.0的预测CNRCI值为- 1.2075。集成梯度法结合lncLocator 2.0生成的热图如图Figure 4所示 ATTTTTGTCCTTGCAGGACAAGAAGCCAGCTTCAGAGAGATTCTCCAGCATAACCATCATCYTOPLASMICCATCTGCTCAATGCCCAACGTCTCTCTCCCATGCTGCCTCCCTTTCTCTCTCACACACATAAAGTAAATGAATAATAATCTAGAACTTTTTCCATCTTGCAACTGGAACGGCACCACTGAACACCAGTCCCATTTCCCCCCCCCACCAGCCCCCCCCAAGCACCACCTTCTACTTGTCTGTGAATTAACTACTCTATTACCTCATGTAAGTAGTAGATATATATGTTGTTGTTIGGNEUTRALTGACTGGTTTATTTCACTTACCATAATGCCCCCTCAAGGCCGTCCCCCTGTACCAGGGGGTCAGAATTCCTAACTTTTAAAGGCTGAATAATAATTATTGTATGTATGTATATAACCATTCCTACTTTAAGAATTTATATTAAAGAAACATTTTCTACAAGTTCCCCAATAAACGTTTACTTCAGGAGTGTCNUCLEAR
图4 .根据lncLocator 2.0对ENST00000623312的亚细胞定位的预测,由Integrated Gradients生成的贡献热图。背景色表示贡献强度-绿色为细胞核,红色为细胞质,白色为中性。(该图的彩色版本可在生物信息学在线获取。)
绿色核苷酸代表分类为细胞质的贡献,红色核苷酸代表分类为细胞核的贡献。颜色越深,贡献度越大。
2、我们进一步对整个测试数据集进行分析以获得元解释,得到的结果如图 5 所示。对于图 5a 和 c,x
轴是核苷酸组合的索引,其中 AAA 以 0 和GGG以63为索引,y轴为核苷酸组合的位置,其中0代表30端,63代表50端。比较细胞质序列和核序列的结果,我们观察到细胞质序列的正贡献大于核序列,核序列的负贡献大于细胞质序列。我们可以看到统计结果与预测一致。 300200SUM OF CONTRIBUTION SCORES1000100-200-300-40010402060300503-MER INDEX300200SUM OF CONTRIBUTION SCORES100-100-200-300-40030020501060403-MER INDEXCSDN @R1CELEE
图5 .对测试数据集的贡献热图进行统计分析。( a )位于细胞质中的lncRNA的k - mer贡献向量的统计。( b )位于细胞质中的lncRNA的位置贡献向量的统计。( c )核内lncRNA的k - mer贡献向量的统计。( d )核内lncRNA位置贡献向量的统计
对k - mer贡献向量的统计表明,几乎所有的核苷酸组合都有正贡献或负贡献。位置贡献向量的统计表明,每个位置上的正贡献和负贡献没有显著差异。因此,我们建议该决定lncLocator 2.0主要基于一些特定的核苷酸组合,与它们的位置无关。lncLocator 2.0的优势在于相同的核苷酸组合并不像基于k - mer的模型那样具有同等的贡献。
为了进一步研究k - mer贡献向量,分别按照正贡献得分和负贡献得分对核苷酸组合进行排序。
正贡献得分最高的前10个核苷酸组合为TTT、AAA、TTG、TTA、GTT、ATT、TAA、GAA、AAT和AAG。 负贡献得分最高的前10个核苷酸组合为CCT、CCC、CTC、CCA、GCC、CTG、CAC、CAG、TCC和ACC。我们发现前10个组合不含胞嘧啶,多由腺嘌呤和胸腺嘧啶组成,而后10个组合多由胞嘧啶组成。
因此,我们发现一些具有高比例腺嘌呤和胸腺嘧啶的核苷酸组合会决定lncRNAs的细胞质定位,而一些具有高比例胞嘧啶的核苷酸组合会决定lncRNAs的细胞核定位。
为了验证发现的潜在规律,我们生成一个由长度为400的胸腺嘧啶组成的随机核苷酸序列,以及另一个由长度为400的胞嘧啶组成的随机核苷酸序列。然后我们使用lncLocator 2.0来预测它们的CNRCI。得到的CNRCI值分别为2.0716和2.3291,表明这两个序列在细胞质和细胞核中都有显著性。
6讨论:在这项研究中,我们比较了核苷酸序列的各种编码方法,包括onehot、word2vec、GloVeBERT,并研究了核苷酸序列的词向量的有效性。我们计算了不同词向量之间的余弦距离,并观察到word2vec和GloVe可以学习核苷酸组合的对称结构,具有相似成分的核苷酸组合具有相似的词向量。结果表明,词嵌入能够理解核苷酸组合的内部结构。然而,BERT在我们的数据集中并不收敛,这可能是由于数据集的稀缺性。与先前在跨细胞系的混合数据上训练的lncRNA位置预测器不同,本文提出了一种基于深度学习的细 胞系专用预测器lncLocator 2.0。lncLocator 2.0在15种细胞系中实现了不同的AUROC,展示了lncRNA在不同细胞系中定位的模式多样性。我们进一步研究了两种训练策略,预训练和多任务学习,发现它们在提高有效性方面是无效的。该结果进一步表明,针对不同细胞系训练细胞系特定模型的必要性。lncLocator 2.0在某些细胞系上的性能相对较差。K562和NCI。H460,未来应该投入更多的努力来提高他们的预测性能。一个潜在的方向是预训练,首先在性能较好的细胞系数据上训练模型,然后使用K562或NCI数据对训练好的模型进行微调。H460。我们使用集成梯度在lncLocator 2.0中展开深度模型的隐藏决策过程,结果表明我们的模型以类似于k - mer频率特征的方式执行,但包含了更多的上下文信息。在集成梯度生成的热图中进行了统计研究,显示有或没有胞嘧啶的一些核苷酸组合可能是lncRNA亚细胞定位的潜在决定因素之一。与其他现有方法相比,lncLocator 2.0的一个优势是能够发现一些潜在的与定位相关的序列模式。
7结论:在本研究中,我们提出了具有可解释深度学习的lncRNA的细胞系特异性亚细胞定位预测因子lncLocator 2.0。lncLocator 2.0针对每个细胞系中lncRNA的位置进行训练,并允许对15个细胞系进行定位预测。此外,我们利用积分梯度来解释黑匣子深度模型,并发现一些具有高比例胞嘧啶或胸腺嘧啶和腺嘌呤的核苷酸亚序列在H1.hESC的lncRNA亚细胞定位中起着关键作用,这表明lncRNA的亚细胞定位与一些特定模式有关,这得到了文献的支持。
讨论过程
● 问题1... 黄老师:如何将一个不定长的序列变成定长的向量?
● 回答:本文采用端对端模式进行训练,每次分别将单一序列进行编码放入模型训练
● 问题2...黄老师:梯度可解释性如何理解?
● 回答:本文选择集成梯度进行解释,当输入从基线值变为实际值时,INTEGRATED GRADIENTS对每个输入特征的输出梯度进行积分.定义如下:INTEGRATEDGRADS(X)OF(X (X-X))(3)DAOXICSDN &R1CELEE其中X是当前输入,F是模型函数,X是基线输入,表示特征输入的"缺失".下标表示第个特征的索引.集成渐变可以直接应用于INOLOCALOR20,每个向向置的每个特征部分配有一个面前分数,并将一个同向基的种于的直戴分数相机,以表示核苷酸组合的贡献分数.
● 问题3:热图是如何画出来的?
● 答:随机选择一个具有适当长度的lncRNA序列,使用3-mer分词,最后根据公式三,得到每一个词的权重得分,背景色表示贡献强度-绿色为细胞核,红色为细胞质,白色为中性,颜色越深表示贡献越大。
总结
优点
可解释性强,做了大量的分析实验,从特异性出发,发现了一些决定lncRNA亚细胞定位的潜在模式
存在问题
相对来说结果还不是很高,可以从特征层面进行改进
相应解决方法及任务
任务:1、使用池化方法将序列转化为统一长度,搭建具有创新性的深度学习网络结构
2、尝试使用一些特征方法
标签:长链,lncRNA,核苷酸,定位,rna,lncLocator,2.0,细胞系 From: https://blog.51cto.com/u_16216184/9024661