首页 > 其他分享 >用深度递归神经网络检测甲基化DNA结合的转录因子

用深度递归神经网络检测甲基化DNA结合的转录因子

时间:2023-12-20 23:05:54浏览次数:27  
标签:DNA 甲基化 神经网络 TFPM TFPNM 三肽 TFs

Detection of transcription factors binding to methylated DNA by deep recurrent neural network

关键词:deep recurrent neural network; methylated DNA; transcription factors; tripeptide; tripeptide word vector
作者:Hongfei Li , Yue Gong , Yifeng Liu , Hao Lin , Guohua Wang
期刊:Briefings in Bioinformatics
年份:2022
论文原文:
10.1093/bib/bbab533
补充材料:
网站链接:https://bioinfor.nefu.edu.cn/TFPM

主要内容

问题

转录因子(TFs)是一种特异性参与基因表达调控的蛋白质。在表观遗传学中,人们普遍认为甲基化的核苷酸可以阻止TFs与DNA片段的结合。然而,最近的研究证实,一些转录因子有能力与甲基化的DNA片段相互作用,从而进一步调控基因表达。虽然生化实验可以识别与甲基化DNA序列结合的TFs,但这些实验方法是耗时和昂贵的。机器学习方法为在不使用实验材料的情况下快速识别这些TFs提供了一个很好的选择。


方法

本研究旨在设计一个稳健的预测因子来检测甲基化DNA结合的转录因子。我们首先提出了使用三肽词向量 特 征来构建蛋白质样本。随后,基于具有长短期记忆的递归神经网络,设计了一个两步计算模型。第一步预测 因子区分转录因子和非转录因子。一旦蛋白质被预测为TFs,就使用第二步预测因子来判断转录因子是否能与甲基化的DNA结合。

模型流程框架图AGAPAA>109ET641MKHNFSLRLRVFNLNCW*'DIPYLSKHRTLPCSAHGSAERSALISADRMKRLALREARTELGRGIAQARWWAALFGYVMILGDAAFAAPSVV1945 PROTEIN SEQUENCESIN FASTA FORMATPROJECTIONTRIPEPTIDE WORD VECTORTE VS NTE:100-DTFPNM VS TFPM:200-DSKIP-GRAMPEIF THE SEQUENCE IS IDENTIFIED AS TFSNTFSTFS0.85>0.5 OR 0.15<0.5LSTMLSTMLSTMTFPNMOUTPUT LAYER128-DTFPMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM-*200-D200-D200-D100-D100-D100-DTRIPEPTIDETRIPEPTIDER:RSRRL-RL-1RLRL-2RL-IRIRIRZRRSRWORD VECTORR:RZRSWORD VECTORPROTEIN:ROTEIN

用深度递归神经网络检测甲基化DNA结合的转录因子_数据集


数据集

本文使用的训练数据和测试数据来自刘的工作。这些数据具有以下特征::(I)样品的长度不小于50个氨基酸残基;(II)这些序列不含模糊的氨基酸,如“B”、“X”或“Z”;(III)同一类别的序列同一性小于25%。有关数据的细节可以参考刘的作品。需要提到的是,TFs与甲基化DNA结合的原始数据是从MeDReaders 数据库中下载的。在基准数据集中,使用416个TFs和416个NTFs来训练已识别的TFs模型。将106个TFs和106个NTFs视为独立的数据集来验证模型的性能。此外,为了建立一个判断TFs是否有能力与甲基化DNA结合的模型,我们总共使用了106个TFPM和106个TFPNM作为训练数据。然后,在独立数据中分别包含69个TFPM和37个TFPNM,以进一步评价模型的性能。

数据来源:https://bioinfor.nefu.edu.cn/TFPM/

主要实验及结果

从蛋白质中预测转录因子

实验的第一步是建立一个预测模型来区分转录因子和NTFs。我们通过独立集测试验证了所提出的模型的性能,并将结果列在表1中。与已发表的模型的比较也记录在表中。总的来说,我们的模型比Liu的模型表现得更好。Acc和MCC分别增长了3.61%和0.0658,分别为86.36%和0.7275。

TABLE I, COMPARISON WITH THE PUBISHED RESUIS FOR DISCTIMINATING IFS FROM NTESED ON INDENDENT DATASETSN(%)SP(%)ACC(%)TFS VERSUS NTFSAUCMCC88.680.72720.9130OUR MODEL83.9686.63PUBLISHED MODEL[22]85.8580.1983.020.66140.9116AUC, AREA UNDER RECEIVER OPERATING CHARACTERISTIC (ROC) CURVE

用深度递归神经网络检测甲基化DNA结合的转录因子_数据_02


为了明确TFs和NTFs在一级结构上的差异,我们计算了416个TFs和416个NTFs之间不同三肽的数量,并通过单词云显示。显然,TF中最常见的三肽是AAA、GGG、SSS和PPP,其数量大于500,如图2A所示,这推断每个TF可能包含这些三肽。特别是在同一TF中,三肽AAA可能比其他三肽出现得更多。然而,在NTFs中,只有三肽EEE的数量大于样本的数量,以及其他三肽的数量,包括PPP、LLL、SSS等的值较低,差异较小。

LAA EDE ASASAALSGGGAAGISASCPPBKESPSAGAEKESSPGPGTSSGCSPAPEPEGSGAPSGAPSUSTMASSAAPSSDOPPPGG1000SILSLPGPPGGAGGYPAPGPGPLSLAAUBDADSSLSPEESRS TE WE SSCERLATTISGCP.TAA0P459PPP371SSS1276386EEEGGG766AAASSS592PGP352289LLL274579ELEPPPEEE314PAA306273ALS260EEL243301298AAAPSPPAPGAG300AND NTFS (B).THE TABLE RECORDS THE NUMBER OF TRIPEPTIDES.FIGURE 2. THIPEPTIDE WORD CLOUD OF TFS (A) AN

用深度递归神经网络检测甲基化DNA结合的转录因子_ide_03


本文研究了出现在不同位置的三肽。由于序列长度不均匀,每个序列被分为起始、中间和结束三个片段,其中计算前30个位点的三肽数。如图3所示,TFs和NTFs之间差异最大的前10个三肽用白色字体染色,列在表2中。在NTFs中,三肽题词的数量和类型(AAA、LLL、EEE、GGA、AAG等)。更多的是在序列的开始位置,而不是在中间位置(PPP、LLL等)。和末端(EEE、SSS等)的序列。在TFs中,以AAA为主的三肽分布在序列的起始位置和中间位置。一般来说,三肽AAA的比例最大,这可能对TFs的功能有更重要的影响。

NTFNTFNTF14TOP1TOP3TOP5TOP5TOP1TOP3TOP5TOPTOP3TOP2TOPTOP2121010COUNTCOUNTCOUNT10MIDDLE OF SEQUENCESEND OF SEQUENCESTFTFTOPTOP3TOP5TOP5TOP3TOPZTOP5TOP3TOP2TOP420.0TOP417.51515COUNT10.01010MIDDLE OF SEQUENCESEND OF SEGUENCESSTART OF SEQUENCESREPRESENT A LARGE DIFFERENCE IN THE NUMBER OF TF AND NTF. THE TRIPEPTIDES WITH BLACK INSCRIPTIONCURRENT POSITION. THE TRIPEPTIDES WITH WHITE INSCNPTION REPRMEAN LITTLE DIFFERENCE.

用深度递归神经网络检测甲基化DNA结合的转录因子_ide_04


TABLE 2. NUMBER OF TRIPEPTIDES WITH THE LARGER DIFFERENCE BETWEEN TFS AND NTFSGGGGAGSSSLLLPAAAGGEEEAAAPPPNAMEHHH2695921276766314306579120164300TFS386NTFS37135214411611945913720260193DIFFERENT1452212321841501441696221016TABLE 3, COMPARISON VITH THE PUBISHED NODEL FOR DISTINGUISHING IPPNM FON TEPM BASED ON INDENT DATASEAUCSP (%)SN(%)ACC(%)TFPM VERSUS TFPNMMCCOUR MODEL0.83240.483164.8773.5978.260.735664.8668.870.347171.01PUBLISHED MODEL[22]AUC, AREA UNDER RECEIVER OPERATING CHARACTERISTIC (ROC) CURVE.

用深度递归神经网络检测甲基化DNA结合的转录因子_ide_05


TFs是否与甲基化DNA结合的预测

一旦一个蛋白质通过第一个模型被确定为TF,就有必要探索该TF是否能够与甲基化的DNA结合。我们训练了一个模型,根据方法中的描述来识别这些TFs。从表3可以看出,我们的模型的性能指标都高于之前发表的模型,特别是ACC、MCC和AUC分别从68.87%、0.3471和0.735提高到73.59%、0.4831和0.832。如Liu等人所述,不同类型的TFs与甲基化或非甲基化DNA相互作用,在功能和一级结构上是相似的。准确获取TF的序列信息以参考它们的差异是非常必要的。我们的模型不仅考虑了残留物的组成,还考虑了位置信息,因此,我们的模型的预测精度被大大提高了。从图4中的单词云,可以发现大多数三肽出现在TFPM TFPNM,包括AAA, GGG, SSS,PPP,进一步说明了TFPM和TFPNM之间的相似性,但相同的数量和位置的差异的三肽序列可能是关键决定TF结合甲基化DNA。

根据TFPM和TFPNM不同位置的三肽类型,我们在图5中列出了序列起始、中间和末端每30个位置排列的5个三肽。所有TFPM和TFPNM中带有白色题词的三肽数量均有显著差异,记录见表4。在TFPM序列开始时,GGG是分布最多的三肽,其次是AAA。相反,AAA是最常见的,GGG在TFPNM中排名第二。三肽PGP出现在TFPM中而不是TFPNM中,位于序列开始时的第20位,表明特定位置的三肽可能影响TF是否与甲基化DNA结合。在序列的中间位置,AAA在TFPM和TFPNM中最为常见。在序列结束时,TFPM和TFPNM中带有白色题词的三肽数量显著减少,TFPNM中的AAA数量小于TFPNM中。总的来说,三肽AAA的数量和位置可能会发生确定TF是否与甲基化的DNA结合,以及其他特殊的三肽也会影响它。此外,丙氨酸的疏水性证实了Shen的结论,即疏水性影响TFs与甲基化位点的结合。

PCEDE:GPPSASSOPPSANPAPSSSSPSGAAGSCDACGSISSGGPGAQUEPCPAPEPSPAAGPPAAASCACPAASSPAACLIGSAGGSSTPSPAAS,GPELPPSGSPEPFIAGA SAAGSGAGAGGACPASPASCOP GAGLISTWASA-ASAAKECAALSSSIPGPAUL BRITE511PPP299223AAAGGG454SSSGGGAAA211260PAP122SSSEEE216120PPP113200AAG113GAG113GAGPAA105119AAG112PAA102AGG101AGA(A) AND TFPNM(B). THE TABLE RECORDS THE NUMBER OF TRIPEPTIDES.FIGURE 4.TRIPEPTIDE WORD CLOUD OF TFPM (A) A

用深度递归神经网络检测甲基化DNA结合的转录因子_数据集_06


TFPMTFPMTFPMTOPLTOPTOP1TOP3TOP3TOP3TOP5TOP5TOP2TOP2TOP410COUNTCOUNTCOUNT6MIDDLE OF SEQUENCESSTART OF SEQUENCESEND OF SEQUENCESTEPNMTFPNMTEPNMTOP5TOP1TOP1TOP5TOP3T0P3TOP3TOP5TOP2TOP2TOP41010COUNTCOUNT自由印刷和医院政综合学院的街道的街道自由44201440000400010年START OF SEGUENCESMIDDLE OF SEGUENCESEND OF SEQUENCESFIGURE S. DISTRIBUTION OF TRIPEPTIDES AT DIFFERENT POSITIONS OF TFPM AND TFPNM.

用深度递归神经网络检测甲基化DNA结合的转录因子_数据集_07



结论

转录因子与DNA的结合对靶基因有消极(抑制转录)或积极(激活转录)的影响。最近,一种新的相互作用机制被证实,TFs可以与甲基化DNA结合。由于这种关系的功能和原理仍然很神秘,因此判断TFs是否能与甲基化DNA结合是遗传表观遗传学的一个里程碑。因此,我们引入了一种基于检测转录因子的三肽词载体,并进一步区分转录因子是否能与甲基化DNA结合。实验结果证实,特异性三肽的位置和数量可能限制了TFs与甲基化DNA的结合。







标签:DNA,甲基化,神经网络,TFPM,TFPNM,三肽,TFs
From: https://blog.51cto.com/u_16216184/8911080

相关文章

  • P2 什么是神经网络
    深度学习指的是训练神经网络,有时候规模很大那么神经网络到底是什么???比方说我们现在有这么一张图 这张图叫:  HousingPricePrediction 我们有的数据是六个房子的面积和每平米的单价。我们现在知道了logestic回归模型,我们将数据输入这个模型,会拟合出一条穿过这些数据的......
  • 【Pytorch基础实战】第二节,卷积神经网络
    项目地址https://gitee.com/wxzcch/pytorchbase/tree/master/leason_2源码importtorchfromtorchimportnn,optimfromtorch.autogradimportVariablefromtorch.utils.dataimportDataLoaderfromtorchvisionimportdatasets,transforms#定义一些超参数batch_......
  • 神经网络优化篇:为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitti
    为什么正则化有利于预防过拟合呢?通过两个例子来直观体会一下。左图是高偏差,右图是高方差,中间是JustRight。现在来看下这个庞大的深度拟合神经网络。知道这张图不够大,深度也不够,但可以想象这是一个过拟合的神经网络。这是的代价函数\(J\),含有参数\(W\),\(b\)。添加正则项,它可......
  • matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类|附代码数据
    全文下载链接:http://tecdat.cn/?p=19751本示例说明如何使用长短期记忆(LSTM)网络对序列数据进行分类。最近我们被客户要求撰写关于LSTM的研究报告,包括一些图形和统计输出。要训练深度神经网络对序列数据进行分类,可以使用LSTM网络。LSTM网络使您可以将序列数据输入网络,并根据序列......
  • 经典卷积神经网络LeNet&AlexNet&VGG
    LeNetLeNet-5是一种经典的卷积神经网络结构,于1998年投入实际使用中。该网络最早应用于手写体字符识别应用中。普遍认为,卷积神经网络的出现开始于LeCun等提出的LeNet网络,可以说LeCun等是CNN的缔造者,而LeNet则是LeCun等创造的CNN经典之作网络结构图由下图所示: LeNet网络总共有......
  • 神经网络优化篇:详解正则化(Regularization)
    正则化深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少的网络误差。如果怀疑神经网络过度拟合了数据,即存在高......
  • 聊聊神经网络的优化算法
    优化算法主要用于调整神经网络中的超参数,使得训练数据集上的损失函数尽可能小。其核心逻辑是通过计算损失函数对参数的梯度(导数)来确定参数更新方向。SGDStochasticGradientDescent(随机梯度下降法):随机梯度下降算法是一种改进的梯度下降方法,它在每次更新参数时,只随机选择一个......
  • 神经网络优化篇:机器学习基础(Basic Recipe for Machine Learning)
    机器学习基础下图就是在训练神经网络用到的基本方法:(尝试这些方法,可能有用,可能没用)这是在训练神经网络时用到地基本方法,初始模型训练完成后,首先要知道算法的偏差高不高,如果偏差较高,试着评估训练集或训练数据的性能。如果偏差的确很高,甚至无法拟合训练集,那么要做的就是选择一个新......
  • PINN——加入物理约束的神经网络
    【摘要】基于物理信息的神经网络(Physics-informedNeuralNetwork,简称PINN),是一类用于解决有监督学习任务的神经网络,它不仅能够像传统神经网络一样学习到训练数据样本的分布规律,而且能够学习到数学方程描述的物理定律。与纯数据驱动的神经网络学习相比,PINN在训练过程中施加了物理......
  • deep - glu:卷积神经网络和Bi-LSTM模型的结合,使用ProtBert和手工特征来识别l
    Deepro-Glu:combinationofconvolutionalneuralnetworkandBi-LSTMmodelsusingProtBertandhandcraftedfeaturestoidentifyl会议时间:2022-10-30会议地点:腾讯会议关键词:lysineglutaryation,BERT,deeplearning,proteinlanguagemodels作者:XiaoWang期刊:Bioinform......