论文解读：《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》

标签：DNA 位点 KHFIS HFIS DMKL 4mC 模糊推理 n4

Title:A deep multiple kernel learning-based higher-order fuzzy inference system for identifying DNA N4-methylcytosine sites

期刊：Information Sciences

中科院分区：一区（计算机科学技术）

影像因子：8.1↓ 0.133

文章链接:https://doi.org/10.1016/j.ins.2023.01.149

Websever:

Github:

摘要

n4 -甲基胞嘧啶(N4 - methylcytosin e, 4 mC) 作为一种 D NA 修饰，在表观遗传调控中起着至关重要的作用。然而，现有的准确识别 4 mC 位点的实验方法效率低下，而且消耗很大，难以实现。尽管各种新的识别方法不断被提出，但现有技术尚未完全成熟。与传统的基于支持向量机或卷积神经网络的 4 mC 位置预测器相比，我们提出了一种替代的计算方法。在这项研究中，我们提出了一种基于核化高阶模糊推理系统( KH FIS)和深度多核学习的方法，称为 D MKL- HFIS，以提高 4 mC 位点识别 DN A 序列的准确性。我们使用 PSTNP 对基准数据集进行处理，然后应用 KHFIS 得到多个模糊核矩阵。利用深度神经网络融合多个模糊核矩阵。最后，从融合矩阵中导出预测值。我们的方法与现有的主流计算方法进行了比较。在基准数据集( G. subt erraneus, D. mel anogast er , E. coli, a . thalian a 和 C. el egans )上，我们的方法的准确性分别比最先进的方法高出 0.4 %， 0 .44 %， 1.5 1 %， 0 .55 %和 0 .25 %。与主流方法相比，我们的方法显示出更高水平的准确性，因此可以被认为是一种有效的预测工具。

1.介绍

DNA 甲基化是一种可遗传的表观遗传修饰，在疾病和细胞分化中起着至关重要的作用[32,18,41]。此外， 4mC 甲基化是原核生物中的一种甲基化[10,13]。由于这种表观遗传修饰，不仅使基因组变得更加多样化[31,50]，它还在许多生物学功能中发挥着深远的作用。在之前的研究中，4mC已被证明发挥了许多作用，包括调节 DNA 复制，调节细胞发育和印记基因组[14,2]。通过准确识别 4mC 位点，可以更有效地解决相关生物学问题[34]。

已经研究了几种鉴定 4mC 位点的实验方法，包括单分子实时测序(SMRT)[8]。然而，这种方法不适用于广泛的物种和大规模基因组[1]。此外，还提出了其他几种实验方法，包括 Yu 等人提出的 4mC-TAB-seq[45]。同样需要注意的是，这些方法既昂贵又耗时。

机器学习和深度学习可以用来识别更多的 4mC 位点[25]，如 Meta-4mCpred[26]、 4mCPred - svm[40]、 iDNA4mC[3]、 4mCPred[12]。他们使用了支持向量机(SVM)分类器。基于卷积神经网络(CNN)模型的典型预测因子包括 4mCCNN，由 Khanal 等人[17]提出;由 Liu 等人[22]提出的 DeepTorrent;以及由 Xu 等人[43]提出的 Deep4mC。尽管如此，当涉及到这些方法的预测性能和可解释性时，仍然有相当大的改进空间。

模糊推理系统(Fuzzy inference systems, FIS)实现多个模糊规则[35]。FIS 由多个子规则组成，每个子规则都是目标问题的局部逼近。正则化常用于优化 FIS，减少过拟合，提高泛化能力[38,23,6]。FIS 分为 if-部分和 then-部分，两个部分的参数训练是独立的。与普通 FIS 相比，核化高阶模糊推理系统(KHFIS)的子系统是非线性的[39]。此外， KHFIS 可以更有效地处理高维特征空间和有噪声样本的问题[6,48]。在这项研究中，我们提出了一种基于 KHFIS 和深度多核学习(DMKL-HFIS)的方法来提高 DNA 序列中 4mC 位点识别的准确性。为了实现信息的完整提取，我们使用 PSTNP 对基准数据集进行处理。使用 KHFIS 对特征向量进行模糊化，得到多个模糊核矩阵。然后利用深度神经网络对多个核矩阵进行融合。利用深度学习框架对核矩阵进行核融合，自适应学习核矩阵的权值。最后，通过融合矩阵得到预测值。将我们的预测器与现有的主流计算方法进行比较。结果表明， DMKL- HFIS 具有较高的性能。与 KHFIS 相比， DMKL-HFIS 在融合子集时，根据每个子集的贡献来确定其权重。而且，通过多层特征抽象，这种方法可以更好地表示特征，提高模型的输出。作为与深度学习方法的一个关键区别，我们提出的模型是基于对模糊系统的改进，更具有可解释性。

本研究的贡献总结如下。

(1)我们提出了一个使用多个深度学习核的模型构造，以更有效的方式将深度学习和机器学习结合在一起。 (2)提出的模型增强了高阶模糊推理系统，提高了其泛化性。

(3) 使用深度学习，该模型能够计算多个核的权值。

(4) 与高阶核模糊系统相比，本文提出的深度多核模糊系统表现出更好的性能和更高的精度。

下一节回顾一阶模糊推理系统(1-FIS)、高阶模糊推理系统(HFIS)和 MKL算法。第 3 节介绍了 KHFIS。在第 4 节中，我们详细阐述了提出的新 DMKL-HFIS模型。第 5 节介绍了特征提取方法。第 6 节描述了实验过程，然后列出了 DMKL-HFIS在基准数据集上的结果，并将其与其他现有方法进行了比较。最后，第 7 节总结了本文，并对未来的研究进行了展望。

2.相关工作

在本节中，我们介绍了一些关于模糊推理系统和多核学习的预备知识。

2.1. 一阶模糊推理系统

模糊推理系统实现多个模糊规则[35]。它们结合多个子规则来近似最终结果，其中每个子规则都是客观问题[4]的局部近似。在这里，我们引入经典一阶模糊推理系统[29]中的 if 部分和 then 部分。

2.2.高阶模糊推理系统

有很多公式不好弄，麻烦看原文

2.3. 多核学习

利用 MKL 将不同权值的多个核进行组合。MKL 主要应用于支持向量机[49]。MKL 的目标是确定线性组合给定核的最优方法[21]。

3.核化高阶模糊推理系统

KHFIS也分为 if-part 和 then-part[7,9]。与 1-FIS和 HFIS类似，FCM 用于估计参数的和

标签：DNA,位点,KHFIS,HFIS,DMKL,4mC,模糊推理,n4
From： https://blog.51cto.com/u_16216184/7005043