首页 > 其他分享 >论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》

论文解读:《基于深度多核学习的用于识别 DNA n4 -甲基胞嘧啶位点的高阶模糊推理系统》

时间:2023-08-08 10:37:05浏览次数:40  
标签:DNA 位点 KHFIS HFIS DMKL 4mC 模糊推理 n4

Title:A deep multiple kernel learning-based higher-order fuzzy inference system for identifying DNA N4-methylcytosine sites

期刊:Information Sciences

中科院分区:一区(计算机科学技术)

影像因子:8.1↓ 0.133

文章链接:https://doi.org/10.1016/j.ins.2023.01.149

Websever:

Github:

摘要

n4 -甲基胞嘧啶(N4 - methylcytosin e, 4 mC) 作为一种 D NA 修饰, 在表观遗传调控中起着至关重要的作用。然而,现有的准确识别 4 mC 位点的实验方法效率低下, 而且消耗很大, 难以实现。尽管各种新的识别方法不断被提出, 但现有技术尚未完全成熟。与传统的基于支持向量机或 卷积神经网络的 4 mC 位置预测器相比, 我们提出了一种替代的计算方法。 在这项研究中, 我们提出了一种基于核化高阶模糊推理系统( KH FIS)和深度多核学习的方法, 称为 D MKL- HFIS,以提高 4 mC 位点识别 DN A 序列的准确性。我们使用 PSTNP 对基准数据集进行处理, 然后应用 KHFIS 得到多个模糊核矩阵。利用深度神经网络融合多个模糊核矩阵。 最后, 从融合矩阵中导出预测值。我们的方法与现有的主流计算方法进行了比较。在基准数据集( G. subt erraneus, D. mel anogast er , E. coli, a . thalian a 和 C. el egans )上, 我们的方法的准确性分别比最先进的方法高出 0.4 %, 0 .44 %, 1.5 1 %, 0 .55 %和 0 .25 %。与主流方法相比, 我们的方法显示出更高水平的准确性,因此可以被认为是一种有效的预测工具。

1.介绍

DNA 甲基化是一种可遗传的表观遗传修饰, 在疾病和细胞分化中起着至关重要的作用[32,18,41]。此外, 4mC 甲基化是原核生物中的一种甲基化[10,13]。由于这种表观遗传修饰,不仅使基因组变得更加多样化[31,50], 它还在许多生物学功能中发挥着深远的作用。在之前的研究中,4mC已被证明发挥了许多作用,包括调节 DNA 复制,调节细胞发育和印记基因组[14,2]。通过准确识别 4mC 位点,可以更有效地解决相关生物学问题[34]。

已经研究了几种鉴定 4mC 位点的实验方法, 包括单分子实时测序(SMRT)[8]。然而,这种方法不适用于广泛的物种和大规模基因组[1]。此外,还提出了其他几种实验方法,包括 Yu 等人提出的 4mC-TAB-seq[45]。同样需要注意的是,这些方法既昂贵又耗时。

机器学习和深度学习可以用来识别更多的 4mC 位点[25],如 Meta-4mCpred[26]、 4mCPred - svm[40]、 iDNA4mC[3]、 4mCPred[12]。他们使用了支持向量机(SVM)分类器。基于卷积神经网络(CNN)模型的典型预测因子包括 4mCCNN,由 Khanal 等人[17]提出;由 Liu 等人[22]提出的 DeepTorrent;以及由 Xu 等人[43]提出的 Deep4mC。尽管如此,当涉及到这些方法的预测性能和可解释性时, 仍然有相当大的改进空间。

模糊推理系统(Fuzzy  inference  systems,  FIS)实现多个模糊规则[35]。FIS 由多个子规则组成,每个子规则都是目标问题的局部逼近。正则化常用于优化 FIS, 减少过拟合,提高泛化能力[38,23,6]。FIS 分为 if-部分和 then-部分,两个部分的参数训练是独立的。与普通 FIS 相比,核化高阶模糊推理系统(KHFIS)的子系统是非线性的[39]。此外, KHFIS 可以更有效地处理高维特征空间和有噪声样本的问题[6,48]。在这项研究中,我们提出了一种基于 KHFIS 和深度多核学习(DMKL-HFIS)的方法来提高 DNA 序列中 4mC 位点识别的准确性。为了实现信息的完整提取,我们使用 PSTNP 对基准数据集进行处理。使用 KHFIS 对特征向量进行模糊化,得到多个模糊核矩阵。然后利用深度神经网络对多个核矩阵进行融合。利用深度学习框架对核矩阵进行核融合,自适应学习核矩阵的权值。最后,通过融合矩阵得到预测值。将我们的预测器与现有的主流计算方法进行比较。结果表明, DMKL- HFIS 具有较高的性能。与 KHFIS 相比, DMKL-HFIS 在融合子集时, 根据每个子集的贡献来确定其权重。而且,通过多层特征抽象,这种方法可以更好地表示特征,提高模型的输出。作为与深度学习方法的一个关键区别,我们提出的模型是基于对模糊系统的改进,更具有可解释性。

本研究的贡献总结如下。

 (1)我们提出了一个使用多个深度学习核的模型构造,以更有效的方式将深度学习和机器学习结合在一起。 (2)提出的模型增强了高阶模糊推理系统,提高了其泛化性。

(3) 使用深度学习, 该模型能够计算多个核的权值。

(4) 与高阶核模糊系统相比,本文提出的深度多核模糊系统表现出更好的性能和更高的精度。

下一节回顾一阶模糊推理系统(1-FIS)、高阶模糊推理系统(HFIS)和 MKL算法。第 3 节介绍了 KHFIS。在第 4 节中,我们详细阐述了提出的新 DMKL-HFIS模型。第 5 节介绍了特征提取方法。第 6 节描述了实验过程,然后列出了 DMKL-HFIS在基准数据集上的结果,并将其与其他现有方法进行了比较。最后,第 7 节总结了本文,并对未来的研究进行了展望。

2.相关工作

在本节中,我们介绍了一些关于模糊推理系统和多核学习的预备知识。

 2.1. 一阶模糊推理系统

模糊推理系统实现多个模糊规则[35]。它们结合多个子规则来近似最终结果,其中每个子规则都是客观问题[4]的局部近似。在这里, 我们引入经典一阶模糊推理系统[29]中的 if 部分和 then 部分。 

2.2.高阶模糊推理系统

有很多公式不好弄,麻烦看原文

2.3. 多核学习

利用 MKL 将不同权值的多个核进行组合。MKL 主要应用于支持向量机[49]。MKL 的目标是确定线性组合给定核的最优方法[21]。

3.核化高阶模糊推理系统

KHFIS也分为 if-part 和 then-part[7,9]。与 1-FIS和 HFIS类似,FCM 用于估计参数的  

标签:DNA,位点,KHFIS,HFIS,DMKL,4mC,模糊推理,n4
From: https://blog.51cto.com/u_16216184/7005043

相关文章

  • 论文解读:《利用生成性深度学习预测用于DNA编辑的设计者重组酶》》
    期刊:naturecommunications影响因子:16.6↓1.094中科院分区:1区摘要位点特异性酪氨酸型重组酶是基因组工程的有效工具,首个工程化变体已显示出治疗潜力。到目前为止,设计重组酶对新DNA靶位点选择性的适应主要是通过定向分子进化的迭代循环实现的。虽然有效,定向分子进化方法是费力和耗......
  • DO-41封装整流二极管 1N4001G~1N4007G 型号齐全
    整流二极管1000V、1A,一般选用什么型号?最好DO-41封装!同样是DO-41封装反向电压1000V,1N4007和1N4007G有什么区别?1N4007G参数怎么看?价格多少?供货周期要多久?方便发下产品规格书吗?……针对上述提及的问题,整流二极管厂家东沃电子(DOWOSEMI)一一耐心为您解答。1)1000V1A整流二极管型号有哪些?......
  • SnapGene - DNA序列生物分析 5.3.1 mac/win版
    SnapGene是一款用于DNA序列分析和生物学实验设计的专业软件。它提供了强大的功能和直观的界面,帮助科学家和研究人员在分子生物学领域进行高效的实验规划和分析。下面将为您详细介绍SnapGene的特点和功能。点击获取SnapGenemac/win版 DNA序列编辑:SnapGene提供了易于......
  • 修改Keil uvison4 字体样式
    1.点击扳手配置2.点击Colors&Fonts,选择其中的8051:EditorCFiles,选择Text,点击右侧的CourierNew...3.在里面就可以调节字体了......
  • iptables实战-SNAT|DNAT|负载均衡
    一、路由转发与SNAT实验环境说明:debian机器位于内网,有一个网卡ens38,ip地址172.16.1.2/24,网关为172.16.1.1(router的eth2)router机器位于内网和外网的边界,有2个网卡eth1和eth2,eth1地址192.168.124.247接外网,网关192.168.124.1;eth2地址172.16.1.1,连接debian在网卡配置正确的情况下,......
  • 易基因:单细胞DNA甲基化与转录组分析揭示猪生发泡卵母细胞成熟的关键调控机制|项目文章
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。在哺乳动物中,窦卵泡内的生发泡(germinalvesicle,GV)卵母细胞可以保持数月或数年的静止状态。促黄体生成素(luteinizinghormone,LH)激增促进了减数分裂(meiosis)恢复,使卵母细胞获得受精后和早期胚胎发育能力。同时还需......
  • 【867】pgAdmin4 无法加载 loading 的问题解决
    ref:LoadingpgAdmin4v7.4...whileopeningpgAdminIhadthesameproblemwheninstallingpgAdminviathepostgresql-15.3-3-windows-x64installer.Solution:uninstallPostgreSQL;reinstallPostgreSQLbutinthecomponentsselection,uncheckPGAdmin;......
  • NGS实验室质控-DNA污染控制方法篇(引用)
    NGS实验室质控-DNA污染控制方法篇 本篇主要和大家分享有关NGS检测体细胞突变时判断DNA污染的方法。  一、FDA产品-MSK-IMPACT的DNA污染控制方法 1)判断样本交叉污染(samplemix-up) 计算参考样本和待查样本间的“不一致比例”,即在参考样本中纯合基因......
  • HJ63 DNA序列
    1.题目读题HJ63 DNA序列  考查点 2.解法思路 代码逻辑 具体实现 自行实现publicclassHJ063{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);System.out.println(getDnaBeginner(sc.nextLine(),I......
  • CpG islands (CGI), CpG Shores, CpG Shelves, Open sea in DNA methylation
    https://life-epigenetics-methylprep.readthedocs-hosted.com/en/latest/docs/introduction/introduction.htmlCpGregions以外的区域称为opensea......