用深度递归神经网络检测甲基化DNA结合的转录因子

Detection of transcription factors binding to methylated DNA by deep recurrent neural network

关键词：deep recurrent neural network; methylated DNA; transcription factors; tripeptide; tripeptide word vector
作者：Hongfei Li , Yue Gong , Yifeng Liu , Hao Lin , Guohua Wang
期刊：Briefings in Bioinformatics
年份：2022
论文原文:
●10.1093/bib/bbab533
补充材料：
网站链接：https://bioinfor.nefu.edu.cn/TFPM

主要内容

问题

转录因子（TFs）是一种特异性参与基因表达调控的蛋白质。在表观遗传学中，人们普遍认为甲基化的核苷酸可以阻止TFs与DNA片段的结合。然而，最近的研究证实，一些转录因子有能力与甲基化的DNA片段相互作用，从而进一步调控基因表达。虽然生化实验可以识别与甲基化DNA序列结合的TFs，但这些实验方法是耗时和昂贵的。机器学习方法为在不使用实验材料的情况下快速识别这些TFs提供了一个很好的选择。

方法

本研究旨在设计一个稳健的预测因子来检测甲基化DNA结合的转录因子。我们首先提出了使用三肽词向量特征来构建蛋白质样本。随后，基于具有长短期记忆的递归神经网络，设计了一个两步计算模型。第一步预测因子区分转录因子和非转录因子。一旦蛋白质被预测为TFs，就使用第二步预测因子来判断转录因子是否能与甲基化的DNA结合。

模型流程框架图AGAPAA>109ET641MKHNFSLRLRVFNLNCW*'DIPYLSKHRTLPCSAHGSAERSALISADRMKRLALREARTELGRGIAQARWWAALFGYVMILGDAAFAAPSVV1945 PROTEIN SEQUENCESIN FASTA FORMATPROJECTIONTRIPEPTIDE WORD VECTORTE VS NTE:100-DTFPNM VS TFPM:200-DSKIP-GRAMPEIF THE SEQUENCE IS IDENTIFIED AS TFSNTFSTFS0.85>0.5 OR 0.15<0.5LSTMLSTMLSTMTFPNMOUTPUT LAYER128-DTFPMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM-*200-D200-D200-D100-D100-D100-DTRIPEPTIDETRIPEPTIDER:RSRRL-RL-1RLRL-2RL-IRIRIRZRRSRWORD VECTORR:RZRSWORD VECTORPROTEIN:ROTEIN

用深度递归神经网络检测甲基化DNA结合的转录因子_数据集

数据集

本文使用的训练数据和测试数据来自刘的工作。这些数据具有以下特征:：(I)样品的长度不小于50个氨基酸残基；（II）这些序列不含模糊的氨基酸，如“B”、“X”或“Z”；（III）同一类别的序列同一性小于25%。有关数据的细节可以参考刘的作品。需要提到的是，TFs与甲基化DNA结合的原始数据是从MeDReaders 数据库中下载的。在基准数据集中，使用416个TFs和416个NTFs来训练已识别的TFs模型。将106个TFs和106个NTFs视为独立的数据集来验证模型的性能。此外，为了建立一个判断TFs是否有能力与甲基化DNA结合的模型，我们总共使用了106个TFPM和106个TFPNM作为训练数据。然后，在独立数据中分别包含69个TFPM和37个TFPNM，以进一步评价模型的性能。

数据来源：https://bioinfor.nefu.edu.cn/TFPM/

主要实验及结果

从蛋白质中预测转录因子

实验的第一步是建立一个预测模型来区分转录因子和NTFs。我们通过独立集测试验证了所提出的模型的性能，并将结果列在表1中。与已发表的模型的比较也记录在表中。总的来说，我们的模型比Liu的模型表现得更好。Acc和MCC分别增长了3.61%和0.0658，分别为86.36%和0.7275。

TABLE I, COMPARISON WITH THE PUBISHED RESUIS FOR DISCTIMINATING IFS FROM NTESED ON INDENDENT DATASETSN(%)SP(%)ACC(%)TFS VERSUS NTFSAUCMCC88.680.72720.9130OUR MODEL83.9686.63PUBLISHED MODEL[22]85.8580.1983.020.66140.9116AUC, AREA UNDER RECEIVER OPERATING CHARACTERISTIC (ROC) CURVE

用深度递归神经网络检测甲基化DNA结合的转录因子_数据_02

为了明确TFs和NTFs在一级结构上的差异，我们计算了416个TFs和416个NTFs之间不同三肽的数量，并通过单词云显示。显然，TF中最常见的三肽是AAA、GGG、SSS和PPP，其数量大于500，如图2A所示，这推断每个TF可能包含这些三肽。特别是在同一TF中，三肽AAA可能比其他三肽出现得更多。然而，在NTFs中，只有三肽EEE的数量大于样本的数量，以及其他三肽的数量，包括PPP、LLL、SSS等的值较低，差异较小。

LAA EDE ASASAALSGGGAAGISASCPPBKESPSAGAEKESSPGPGTSSGCSPAPEPEGSGAPSGAPSUSTMASSAAPSSDOPPPGG1000SILSLPGPPGGAGGYPAPGPGPLSLAAUBDADSSLSPEESRS TE WE SSCERLATTISGCP.TAA0P459PPP371SSS1276386EEEGGG766AAASSS592PGP352289LLL274579ELEPPPEEE314PAA306273ALS260EEL243301298AAAPSPPAPGAG300AND NTFS (B).THE TABLE RECORDS THE NUMBER OF TRIPEPTIDES.FIGURE 2. THIPEPTIDE WORD CLOUD OF TFS (A) AN

用深度递归神经网络检测甲基化DNA结合的转录因子_ide_03

本文研究了出现在不同位置的三肽。由于序列长度不均匀，每个序列被分为起始、中间和结束三个片段，其中计算前30个位点的三肽数。如图3所示，TFs和NTFs之间差异最大的前10个三肽用白色字体染色，列在表2中。在NTFs中，三肽题词的数量和类型（AAA、LLL、EEE、GGA、AAG等）。更多的是在序列的开始位置，而不是在中间位置（PPP、LLL等）。和末端（EEE、SSS等）的序列。在TFs中，以AAA为主的三肽分布在序列的起始位置和中间位置。一般来说，三肽AAA的比例最大，这可能对TFs的功能有更重要的影响。

NTFNTFNTF14TOP1TOP3TOP5TOP5TOP1TOP3TOP5TOPTOP3TOP2TOPTOP2121010COUNTCOUNTCOUNT10MIDDLE OF SEQUENCESEND OF SEQUENCESTFTFTOPTOP3TOP5TOP5TOP3TOPZTOP5TOP3TOP2TOP420.0TOP417.51515COUNT10.01010MIDDLE OF SEQUENCESEND OF SEGUENCESSTART OF SEQUENCESREPRESENT A LARGE DIFFERENCE IN THE NUMBER OF TF AND NTF. THE TRIPEPTIDES WITH BLACK INSCRIPTIONCURRENT POSITION. THE TRIPEPTIDES WITH WHITE INSCNPTION REPRMEAN LITTLE DIFFERENCE.

用深度递归神经网络检测甲基化DNA结合的转录因子_ide_04

TABLE 2. NUMBER OF TRIPEPTIDES WITH THE LARGER DIFFERENCE BETWEEN TFS AND NTFSGGGGAGSSSLLLPAAAGGEEEAAAPPPNAMEHHH2695921276766314306579120164300TFS386NTFS37135214411611945913720260193DIFFERENT1452212321841501441696221016TABLE 3, COMPARISON VITH THE PUBISHED NODEL FOR DISTINGUISHING IPPNM FON TEPM BASED ON INDENT DATASEAUCSP (%)SN(%)ACC(%)TFPM VERSUS TFPNMMCCOUR MODEL0.83240.483164.8773.5978.260.735664.8668.870.347171.01PUBLISHED MODEL[22]AUC, AREA UNDER RECEIVER OPERATING CHARACTERISTIC (ROC) CURVE.

用深度递归神经网络检测甲基化DNA结合的转录因子_ide_05

TFs是否与甲基化DNA结合的预测

一旦一个蛋白质通过第一个模型被确定为TF，就有必要探索该TF是否能够与甲基化的DNA结合。我们训练了一个模型，根据方法中的描述来识别这些TFs。从表3可以看出，我们的模型的性能指标都高于之前发表的模型，特别是ACC、MCC和AUC分别从68.87%、0.3471和0.735提高到73.59%、0.4831和0.832。如Liu等人所述，不同类型的TFs与甲基化或非甲基化DNA相互作用，在功能和一级结构上是相似的。准确获取TF的序列信息以参考它们的差异是非常必要的。我们的模型不仅考虑了残留物的组成，还考虑了位置信息，因此，我们的模型的预测精度被大大提高了。从图4中的单词云，可以发现大多数三肽出现在TFPM TFPNM，包括AAA, GGG, SSS,PPP，进一步说明了TFPM和TFPNM之间的相似性，但相同的数量和位置的差异的三肽序列可能是关键决定TF结合甲基化DNA。

根据TFPM和TFPNM不同位置的三肽类型，我们在图5中列出了序列起始、中间和末端每30个位置排列的5个三肽。所有TFPM和TFPNM中带有白色题词的三肽数量均有显著差异，记录见表4。在TFPM序列开始时，GGG是分布最多的三肽，其次是AAA。相反，AAA是最常见的，GGG在TFPNM中排名第二。三肽PGP出现在TFPM中而不是TFPNM中，位于序列开始时的第20位，表明特定位置的三肽可能影响TF是否与甲基化DNA结合。在序列的中间位置，AAA在TFPM和TFPNM中最为常见。在序列结束时，TFPM和TFPNM中带有白色题词的三肽数量显著减少，TFPNM中的AAA数量小于TFPNM中。总的来说，三肽AAA的数量和位置可能会发生确定TF是否与甲基化的DNA结合，以及其他特殊的三肽也会影响它。此外，丙氨酸的疏水性证实了Shen的结论，即疏水性影响TFs与甲基化位点的结合。

PCEDE:GPPSASSOPPSANPAPSSSSPSGAAGSCDACGSISSGGPGAQUEPCPAPEPSPAAGPPAAASCACPAASSPAACLIGSAGGSSTPSPAAS,GPELPPSGSPEPFIAGA SAAGSGAGAGGACPASPASCOP GAGLISTWASA-ASAAKECAALSSSIPGPAUL BRITE511PPP299223AAAGGG454SSSGGGAAA211260PAP122SSSEEE216120PPP113200AAG113GAG113GAGPAA105119AAG112PAA102AGG101AGA(A) AND TFPNM(B). THE TABLE RECORDS THE NUMBER OF TRIPEPTIDES.FIGURE 4.TRIPEPTIDE WORD CLOUD OF TFPM (A) A

用深度递归神经网络检测甲基化DNA结合的转录因子_数据集_06

TFPMTFPMTFPMTOPLTOPTOP1TOP3TOP3TOP3TOP5TOP5TOP2TOP2TOP410COUNTCOUNTCOUNT6MIDDLE OF SEQUENCESSTART OF SEQUENCESEND OF SEQUENCESTEPNMTFPNMTEPNMTOP5TOP1TOP1TOP5TOP3T0P3TOP3TOP5TOP2TOP2TOP41010COUNTCOUNT自由印刷和医院政综合学院的街道的街道自由44201440000400010年START OF SEGUENCESMIDDLE OF SEGUENCESEND OF SEQUENCESFIGURE S. DISTRIBUTION OF TRIPEPTIDES AT DIFFERENT POSITIONS OF TFPM AND TFPNM.

用深度递归神经网络检测甲基化DNA结合的转录因子_数据集_07

结论

转录因子与DNA的结合对靶基因有消极（抑制转录）或积极（激活转录）的影响。最近，一种新的相互作用机制被证实，TFs可以与甲基化DNA结合。由于这种关系的功能和原理仍然很神秘，因此判断TFs是否能与甲基化DNA结合是遗传表观遗传学的一个里程碑。因此，我们引入了一种基于检测转录因子的三肽词载体，并进一步区分转录因子是否能与甲基化DNA结合。实验结果证实，特异性三肽的位置和数量可能限制了TFs与甲基化DNA的结合。

标签：DNA,甲基化,神经网络,TFPM,TFPNM,三肽,TFs
From： https://blog.51cto.com/u_16216184/8911080

用深度递归神经网络检测甲基化DNA结合的转录因子

Detection of transcription factors binding to methylated DNA by deep recurrent neural network

相关文章

赞助商

阅读排行