iDNA-ABT: advanced deep learning model for detecting DNA methylation with adaptive features and transductive information maximization
会议地点:腾讯会议
关键词:
作者:
期刊:Bioinformatics
年份:2022
论文原文:
补充材料:报告人博客链接:https://blog.csdn.net/qq_48480183/article/details/128047546?spm=1001.2014.3001.5501
主要内容
1问题 :DNA甲基化(5hmc, 6mA, 4mC)位点识别,17个数据集,样本比较多。
2方法:
a)模型方面:自适应Embedding(普通embedding+位置embedding)、借鉴Bert的框架,但并非使用 Bert的自监督来训练bert框架,仅仅是使用其自注意力的优势,该layer后面加全连接层,构建起了整体模型。
b)损失函数:普通的交叉熵+经验加权互信息, 并且文章验证了该损失函数的优势明显。
3主要实验及结果
1.IDNA-ABT与其他现有方法的性能比较为了街道我们是出的DNA.ABT的有效性,我们评估并比较了其他现有的方法,包括DNAMS.SNNRICESNAHDEEPLOREN,是,我们主要与DNA-MS进行比较,因为它是唯一的通用的最新(SOTA预测器,可以预测各种DNA甲基化类型.此外,我们还将其与我们方法的变体和DNA.AB进行了比较.IDNA.ABT和IAB的唯一区别是前是前着引入了额外的的TIM损失.IDNAABT的性能优于IDNA.AB.与DNAAB相比,DNA.ABTBSMCC平均提高2.93%.其中, DNA/ABT在4NC C中增加了20.97%在6MA.R增加了947%.在6MA.C中点283%.4MC.S.CEREVISIB6为238%.其中大多数量小数据策.另外,IDNA.ABT的平均ACO.SP,SN分别比KONA.AB高1.5%.208%500.9%.这表明,与原有的交叉植报失相比,我们整型中所引入的高效/TM最失可以改善,模型结果.这说明,利用互信息学习数据本身的分布情况,可以在一定程度上提高特征表示能力.其次,我们还将我们的质型与之前最先进的预测路DNAMS进行了评估和比较.我们在所有17个数据来上取得了更于的总体住能.4MC,C中, IDNAABTESMOCEDNAMISS 78-1337%. 4NC, 4NC,F.VBS 7B- F.VBS 7BSCAFISCATIENA A MS等10个数据中, , 554.64%. GMA.C;EQUISERFOLYPODADIA. RCHINENSIS. GMA.T'GMA.XOCBLS256.在其余数据集中,我们的MCC值增加了约1%,或与DNA.MS相当.总的来说,我们的整体MCC将加了3.93% 同样,总体ACC: SN,SP.F1, AUC分别比IDNA-MS高1.97%,1.69%,2.2.25%. 1.64%.第三,为了进一步证明我们类型的有效住,我们还在中比较了D8PPORENTHSNNRCESNABNABIOND,由于本文的模型是一个深度学习模型,所以我们也选择了两个深度学习模型进行比较,分别是4MC检测器和6MA检测器.
第三,为了进一步证明我们换型的有效性,我们还在中比较了008PLORENTDSNNRCEGNA的深度学习校型.由于本文的技型是一个深度学习模型,所以我们也选择了两个深度学习模型进行比较,分别是4MC检测器和6MA检测器.为了保证实验的公平住,在引断来上引断两个便型,并在独立测试集上进行评估,这两种方法部在数据续部分提出.与SNNRIOOGNA相比,我们在所有17个分类中表现更好,MCC值在0.7%-17.06%之同.总体而言,模型的平均ACC.SN,SP,AUG,FL,MCC分别比SNNRICE6MA提高了3.84%,2.15%,5.54%,2.16%,3.54%和7.69%.,此外,IDNAABT在17个分类中几乎所有指标都超过了DEEPTORRENT,在4MC.C中MCC值高于7%.C.GMA D, GMA R, GNA TODYPODADIUNJIBNA,XOCBLS256, 模型分别提高了平均ACC, SN, SP, SP, SP, SP, MCG43%, MCG43%,5.94%,2.71%,4.87%,3.02%和8.03%.第四,为了更元路地比较我们的预测因了,我们还比较了4MC.S中五个预刘因子的ROC由线和PR面BR面线.4MC.H,SHMC.M.GMA TOOYPODLADIUNFDSMA C具体结果见补充表S2,从图BAF可以看出,与DNAMS.DEEPLORRENT, SNNRICESNA三种方法相比,我们的预订照表现相对更好,尤其是DEGPTORENT, GNA.LOQLADIUNFOR.C上的AUCHA.09%.09%.09%.09%.09%.09%.09%.09%.09%.09%. 它也像以前的SOTAIDNA-MS和更好的6MA_TOOLYPOCLADIUM.然而,SHNC数据策是分布良好的,因此在分类上没有更大的差距,可以看出,我们换型的AUC和PR大大优于DNAAB,特别是在4MC S中.IDNA-ABT(AUC-0:754,AP三0.748)显著优于IDNA-AB(AUC-0:736,AP三0:726).
4分析
a):讨论了自适应embedding与常用六种特征编码性能比较我们分别在换型中输入六科特征编码来验证自适应该入的有效性.信得注意的是,自适应该入不涉及引断和测试,我们根据LOAN选择了核酸组成NAC),二连制编码CNAY),核有酸化学性质NOP),三核有酸电子,离子相与作用的热(EIP),二核有酸组成ONC和累计核目酸频率(ANF)6种常见的特征编码.BCANACMNARYNCPCANAABTANFONC0.959.7MCCMCCMCC0.6093S.CERMALALNITHLYPC,ELEGONSCEGNISETIFOBEH.SAPIENSM.MUSCULUS
b):训练过程中特征降维可视化
为了直观地展示我们想型的有效住,我门通过主成分分析PGA)(SHENS,2014有14)(SURENSHON,200D;SHE(LAURE的特征空间消化为二维空同,分别在图6种目了中进行了部分说明.值得注意的是,PCA是一种将见的发生降维方法,而.SNE是一种磨见的手线住障维方法,两者在样本中表现出HEROBS特征.-开始将正样本和负样本混合.随有引陈达代次数的特加,最终将工样本有晰地分成两类,可见我们的模型能够很好地区分样本点.DB6MA_F.VESCA5HMC.H.SAPIENS6MA_S.CEREVISIAE4MC_C.EQUISETIFOLIAF6MA_F.VESCA6MA_S.CEREVISIAE5HMC_H.SAPIENS4MC C.EQUISETIFOLIACSDN@给我辣条
5结论
讨论过程
a): 针对模型框架,讨论了Bert在文中如何使用的,经过查看代码,发现作者只是用到了Bert自注意力机制,模型的训练使用的是平时的BP传播,并非Bert的预训练。(集体)
b):针对损失函数,考虑之后是否在可能存在过拟合的模型中使用论文中所加的“互信息损失”。(郑佩杰)
总结
优点
存在问题
问题1...
●问题2...
●问题3...
相应解决方法及任务
任务: