Title:A deep multiple kernel learning-based higher-order fuzzy inference system for identifying DNA N4-methylcytosine sites
期刊:Information Sciences
中科院分区:一区(计算机科学技术)
影像因子:8.1↓ 0.133
文章链接:https://doi.org/10.1016/j.ins.2023.01.149
Websever:
Github:
摘要
n4 -甲基胞嘧啶(N4 - methylcytosin e, 4 mC) 作为一种 D NA 修饰, 在表观遗传调控中起着至关重要的作用。然而,现有的准确识别 4 mC 位点的实验方法效率低下, 而且消耗很大, 难以实现。尽管各种新的识别方法不断被提出, 但现有技术尚未完全成熟。与传统的基于支持向量机或 卷积神经网络的 4 mC 位置预测器相比, 我们提出了一种替代的计算方法。 在这项研究中, 我们提出了一种基于核化高阶模糊推理系统( KH FIS)和深度多核学习的方法, 称为 D MKL- HFIS,以提高 4 mC 位点识别 DN A 序列的准确性。我们使用 PSTNP 对基准数据集进行处理, 然后应用 KHFIS 得到多个模糊核矩阵。利用深度神经网络融合多个模糊核矩阵。 最后, 从融合矩阵中导出预测值。我们的方法与现有的主流计算方法进行了比较。在基准数据集( G. subt erraneus, D. mel anogast er , E. coli, a . thalian a 和 C. el egans )上, 我们的方法的准确性分别比最先进的方法高出 0.4 %, 0 .44 %, 1.5 1 %, 0 .55 %和 0 .25 %。与主流方法相比, 我们的方法显示出更高水平的准确性,因此可以被认为是一种有效的预测工具。
1.介绍
DNA 甲基化是一种可遗传的表观遗传修饰, 在疾病和细胞分化中起着至关重要的作用[32,18,41]。此外, 4mC 甲基化是原核生物中的一种甲基化[10,13]。由于这种表观遗传修饰,不仅使基因组变得更加多样化[31,50], 它还在许多生物学功能中发挥着深远的作用。在之前的研究中,4mC已被证明发挥了许多作用,包括调节 DNA 复制,调节细胞发育和印记基因组[14,2]。通过准确识别 4mC 位点,可以更有效地解决相关生物学问题[34]。
已经研究了几种鉴定 4mC 位点的实验方法, 包括单分子实时测序(SMRT)[8]。然而,这种方法不适用于广泛的物种和大规模基因组[1]。此外,还提出了其他几种实验方法,包括 Yu 等人提出的 4mC-TAB-seq[45]。同样需要注意的是,这些方法既昂贵又耗时。
机器学习和深度学习可以用来识别更多的 4mC 位点[25],如 Meta-4mCpred[26]、 4mCPred - svm[40]、 iDNA4mC[3]、 4mCPred[12]。他们使用了支持向量机(SVM)分类器。基于卷积神经网络(CNN)模型的典型预测因子包括 4mCCNN,由 Khanal 等人[17]提出;由 Liu 等人[22]提出的 DeepTorrent;以及由 Xu 等人[43]提出的 Deep4mC。尽管如此,当涉及到这些方法的预测性能和可解释性时, 仍然有相当大的改进空间。
模糊推理系统(Fuzzy inference systems, FIS)实现多个模糊规则[35]。FIS 由多个子规则组成,每个子规则都是目标问题的局部逼近。正则化常用于优化 FIS, 减少过拟合,提高泛化能力[38,23,6]。FIS 分为 if-部分和 then-部分,两个部分的参数训练是独立的。与普通 FIS 相比,核化高阶模糊推理系统(KHFIS)的子系统是非线性的[39]。此外, KHFIS 可以更有效地处理高维特征空间和有噪声样本的问题[6,48]。在这项研究中,我们提出了一种基于 KHFIS 和深度多核学习(DMKL-HFIS)的方法来提高 DNA 序列中 4mC 位点识别的准确性。为了实现信息的完整提取,我们使用 PSTNP 对基准数据集进行处理。使用 KHFIS 对特征向量进行模糊化,得到多个模糊核矩阵。然后利用深度神经网络对多个核矩阵进行融合。利用深度学习框架对核矩阵进行核融合,自适应学习核矩阵的权值。最后,通过融合矩阵得到预测值。将我们的预测器与现有的主流计算方法进行比较。结果表明, DMKL- HFIS 具有较高的性能。与 KHFIS 相比, DMKL-HFIS 在融合子集时, 根据每个子集的贡献来确定其权重。而且,通过多层特征抽象,这种方法可以更好地表示特征,提高模型的输出。作为与深度学习方法的一个关键区别,我们提出的模型是基于对模糊系统的改进,更具有可解释性。
本研究的贡献总结如下。
(1)我们提出了一个使用多个深度学习核的模型构造,以更有效的方式将深度学习和机器学习结合在一起。 (2)提出的模型增强了高阶模糊推理系统,提高了其泛化性。
(3) 使用深度学习, 该模型能够计算多个核的权值。
(4) 与高阶核模糊系统相比,本文提出的深度多核模糊系统表现出更好的性能和更高的精度。
下一节回顾一阶模糊推理系统(1-FIS)、高阶模糊推理系统(HFIS)和 MKL算法。第 3 节介绍了 KHFIS。在第 4 节中,我们详细阐述了提出的新 DMKL-HFIS模型。第 5 节介绍了特征提取方法。第 6 节描述了实验过程,然后列出了 DMKL-HFIS在基准数据集上的结果,并将其与其他现有方法进行了比较。最后,第 7 节总结了本文,并对未来的研究进行了展望。
2.相关工作
在本节中,我们介绍了一些关于模糊推理系统和多核学习的预备知识。
2.1. 一阶模糊推理系统
模糊推理系统实现多个模糊规则[35]。它们结合多个子规则来近似最终结果,其中每个子规则都是客观问题[4]的局部近似。在这里, 我们引入经典一阶模糊推理系统[29]中的 if 部分和 then 部分。
2.2.高阶模糊推理系统
有很多公式不好弄,麻烦看原文
2.3. 多核学习
利用 MKL 将不同权值的多个核进行组合。MKL 主要应用于支持向量机[49]。MKL 的目标是确定线性组合给定核的最优方法[21]。
3.核化高阶模糊推理系统
KHFIS也分为 if-part 和 then-part[7,9]。与 1-FIS和 HFIS类似,FCM 用于估计参数的 和
标签:DNA,位点,KHFIS,HFIS,DMKL,4mC,模糊推理,n4 From: https://blog.51cto.com/u_16216184/7005043