首页 > 其他分享 >An integrated method for predicting binding sites of protein-RNA interactions based on data balancin

An integrated method for predicting binding sites of protein-RNA interactions based on data balancin

时间:2023-12-24 10:03:17浏览次数:31  
标签:based interactions 特征 RNA MCC 分类器 方法 性能 SREPRHot


会议地点:腾讯会议
关键词:数据平衡;蛋白质-RNA相互作用
作者:Tong Zhou, Jie Rong, Yang Liu, Weikang Gong, Chunhua Li
期刊:Bioinformatics
年份:2022
论文原文:https://academic.oup.com/bioinformatics/article-abstract/38/9/2452/6543608补充材料:

主要内容

问题 :

识别蛋白质-RNA相互作用中的结合位点对于理解其潜在的识别机制和药物设计至关重要。这些实验方法有许多局限性,因为它们通常是耗时耗力的。因此,迫切需要开发一种有效有效的方法。

在这里,作者提出了SREPRHot,一种预测位点的方法,定义为丙氨酸突变产生结合自由能变化2.0千卡/摩尔的残基。为了解决数据集的不平衡问题,利用合成少数过采样技术(SMOTE)生成少数样本,以实现数据集的平衡。此外,除了传统的特征外,还使用了两种新的特征,即作者之前开发的残差界面倾向和使用节点加权网络获得的拓扑特征,并提出了一种有效的随机分组特征选择策略,结合两步方法来确定最优特征集。最后,采用堆叠集成分类器建立了该模型。结果表明,SREPRHot在独立测试数据集上的SEN、MCC和AUC分别为0.900、0.557和0.829。对比研究表明,SREPRHot具有较好的应用性能。

1方法

1.1 首先提取Physicochemical characteristics of amino acids、Secondary structural features、Depth index and protrusion index、Solvent accessible surface area、Position-specific scoring matrix、Solvent exposure features、Residue interface propensity、Residue topological features from AAN这八种特征。

1.2 通过 SMOTE策略来解决样本不平衡的问题

1.3 结合MRMR和决策树来进行特征筛选

1.4 通过堆叠策略来构建模型

FEATURE EXTRACTIONDATA PREPARATIONINTERFACE RESIDUESSISEGUENCE FEATUREDBAMEPNIREDUNDANCYREMOVALLITERATURE58 PROTEIN-RNACOMPLEXESSTRUCTURALFEATURESMOTEMODEL CONSTRUCTION AND PREDITCTIONHOTSPOT(4AG22 KCAL/MOL)FEATURE SELECTION-NON-HOTSPOT(AAG<2 KCAL/MOL)STACKING ENSEMBLECLASSIFIERROUND1FEATUIE A1LWO-SLEPRFFEGLURE B1MELHODFEALUSE C1...ROUND2...ROUND3.....ROUND5...ROUND6........ROUND8...ROUND9.... ROUND10LRSVMCOUNT&CHOOSEGTBPROTEIN-RNA COMPLEX18 FEATURESFIG. 1. FRAMEWORK OF SREPRHOT FOR IDENTIFYING BINDING HOTS IN PIN PROTEIN-RNACSDN@SUPER齐INTERACTIONS

An integrated method for predicting binding sites of protein-RNA interactions based on data balancin_数据集



2主要实验及结果

通过SMOTE方法来解决正负样本不平衡的问题。使用热点值DDG为2.0千卡/mol的准则导致正负样本之间的高度不平衡,使得特征选择和模型构建主要以负样本为主,不利于模型构建。采用SMOTE算法在训练集中生成少数(正)类样本来平衡数据。为了探索是否样本比例1:1可以提高模型性能,我们比较结果得到的模型训练平衡数据打击和随机重复过采样技术(简单的复制操作),和初始不平衡的,如表1所示。

TABLE 1. FREDICHON RESUTS ROM MODETS TRED AN BELANCED TRANDON DATES BY SMOTE ANDON REPEAT OVESTECHNERESPECTIVELY,AND ON THE INITIAL IMBALANCED ONEF1AUCMCCACCSENSPEPREDATAIMBALANCED0.4920.2540.8740.0760.3710.2940.4902410.5130.2640.691三0.1370.7950.0920.8740.0940.8250.0780.6330.1760.6420.215 BALANCED BY RANDOM0.780兰0.0960.601230.5150.167REPEAT OVERSAMPLING0.8333091BALANCED BY SMOTE0.84701130.800.2270.6460.1710.602310.8481450.5810.208

An integrated method for predicting binding sites of protein-RNA interactions based on data balancin_数据集_02


从表1中可以看出,与在不平衡数据上训练的模型的结果相比,在不平衡数据上训练的模型的相应结果有了明显的改善。此外,在SMOTE处理的数据集上训练的模型比随机重复过采样处理的模型预测效果更好,SEN、MCC和AUC分别提高了26.4%、12.8%和8.7%。我们认为,这种改进的原因是,随机重复过采样技术生成的样本只是原始正样本的副本,而没有增加任何新信息,这可能会导致一定程度的过拟合。

2.2 为了探究随机分组策略和新算法的优势,比较了四种经典方法mRMR、RF、Boruta和SFS的性能,以及我们的随机分组策略结合两步方法的性能。结果如表2所示。

TABL PREDITION RESULTS OFTHE MODELS USING STATUR FEATURE SALECTON METHODS ANDOM GROUPING STATESY WITWO-STEP METHODMCCSENAUCACCF1PRESPEMETHODMRMR(-)0.8610.1020.840.0610.55402050.5270.2310.47202010.6250.3140.8070.1050.67302370.8230.0890.853131MRMR(+)0.61810.1310.8050.1360.61022250.5230.175RF(-)0.8360.1000.580.3650.5220.3420.79810.1910.870011100.4460.3400.5340.318RF(+)0.857士0.0980.5801800.830.1260.50710.2070.6150.2420.5840.1880.8850.0920.5860.281BORUTA(-)0.6830.3580.8450.067士0.2960.8120.1350.5340.2880.503士0.8830.084BORUTA(+)0.59202370.620.1880.88910.1070.8220.1320.5410.2490.693士0.248士0.0990.849SFS(-)0.8370.0920.55710.1880.810.0860.809士0.1280.6650.2420.48202070.576士0.180SFS(+)0.6210.1980.6280.2990.5882180.837士0.2040.8680.0730.50102650.821士0.0810.5250.2920.848132TWO-STEP(-)0.7680.2920.8431370.5220.2980.8310.1170.59110.2790.8480.1450.5810.2080.602312310.800.2270.6460.171TWO-STEP(+)0.8470.1130.8333091NOTE:(+) AND(-):WITH AND VITHOUT RANDOM GROUPING STRATESY, MRMR, MININUM REDUNDANCY MAXINUM RELEYANC:CE;RF, RRANDOM FOREST, SFS, SEQUENTIAL FOR-CSDN@SUPER齐WARD SELECTION.

An integrated method for predicting binding sites of protein-RNA interactions based on data balancin_数据集_03


如表2所示,在没有随机分组策略的特征选择方法中,两步法的性能最好。此外,考虑到该策略,每种方法的性能都有一定程度的提高,特别是在SEN、F1和MCC分数方面。因此,我们提出的随机分组策略结合了一个两步算法,为我们的模型选择最优特征,其表现明显优于其他方法。我们推测可能的原因是两步法考虑了特征之间的互补性,减少了过拟合,随机分组策略在一定程度上减少了离群样本对特征选择的影响。

通过随机分组策略结合两步算法进行降维后,我们最终得到了18个特征的最优集,如补充表S5所示。在18个特征中,9个特征是基于序列的四种类型(氨基酸的理化特征、PSSM、溶剂暴露特征和IP),其他9个特征是基于其他3种类型(DPX和CX、SASA和拓扑特征)。需要指出的是,我们选择了我们提出的残基IP和节点加权AAN中的两个拓扑特征作为最优特征,据我们所知,这是首次用于蛋白质-rna热点预测。IP表示一种氨基酸出现在界面上的倾向,而热点则是一种特殊的结合位点,我们认为这可能是IP有助于预测结合界面上的热点的原因。在拓扑特征方面,一些研究证明,考虑网络中节点的异质性有助于功能残差的识别。

我们需要选择一个合适的机器学习方法来建立我们的模型。为此,我们在训练数据集上使用10倍交叉验证,比较了6个经典分类器的性能,结果如补充表S6所示。与分类器kNN、自适应增强和极限梯度增强(XGBoost)相比,GTB、RF和SVM在PRE、F1和MCC分数方面表现最好。鉴于此,我们采用GTB、RF和SVM三个分类器作为我们SEC的第一层分类器,LR作为第二层输出最终结果,这在一定程度上降低了过拟合的风险。结果表明,SEC的性能一般远远优于其他分类器,ACC、PRE、F1、MCC和AUC分别为0.833、0.602、0.646、0.581和0.848。因此,SEC由于其优越的性能而被用作SREPRHot的机器学习分类器。

为了精确估计SREPRHot,在训练数据集上重复了10倍交叉验证,得到ACC、SEN、F1、MCC和AUC值分别为0.818 6 0.016、0.814 6 0.036、0.638 6 0.022、0.565 6 0.023和0.859 6 0.019。结果表明,该模型的性能是相对稳定和稳健的。

此外,还比较了SREPRHot在独立测试数据集上的性能与现有方法PrabHot、XGBPRH和HotSPRing的性能,结果如表3所示。

TABLE 3.COMPARISON OF SREPRHOT WITH EXISTING METHODS ON INDE-PENDENT TESTING DATASETMCCF1AUCPREMETHODSENSPE0.870XGBPRH0.9090.8330.7330.6610.868(1.0 KCAL/MOL)0.7420.817PRABHOT(1.0 KCAL/0.7930.4530.6970.655MOL)HOTSPRING0.6580.2580.5520.6330.6040.655(1.0KCAL/MOL)0.8290.5570.4740.6210.900SREPRHOT0.792(2.0 KCAL/MOL)CSDN@SUPER齐

An integrated method for predicting binding sites of protein-RNA interactions based on data balancin_数据集_04


需要指出的是,前两种方法是用于预测DDG阈值为1.0千卡/mol的热点地区,后者用于预测一个残基突变的DDG范围。XGBPRH的开发者Deng等人为了比较XGBPRH和HotSPRing的性能,采用了1.0千卡/摩尔的阈值。表3中与HotSPRing对应的结果来自文献,因为HotSPRing目前还不可用。从表3中可以看出,XGBPRH的性能一般最好,SEN、MCC和AUC分别为0.909、0.661和0.868。考虑到我们的方法采用了更严格的DDG 2.0 kcal/mol的标准,SREPRHot取得了良好的性能,SEN、MCC和AUC分别达到0.900、0.557和0.829。比较表明,我们的方法显示出了很好的性能,可以作为使用1.0千卡/摩尔的方法的补充。

3分析

4结论

有效预测蛋白质-rna相互作用中的结合热点对于理解其特定的识别和相互作用机制至关重要。本文提出了一种新的识别结合热点的SREPRHot识别方法,该方法以预测蛋白残基的18个特征作为输入,并给出其分类结果作为输出。为了解决采用更严格的热点标准DDG为2.0千卡/摩尔而不是1.0千卡/摩尔导致的数据类不平衡问题,采用SMOTE算法生成少数(正)类样本,达到数据类平衡。除了传统的序列特征和结构特征外,还提取了两种新的特征类型,即我们开发的残差IP和节点加权AAN中的拓扑特征作为候选特征。从中,我们提出的随机分组特征选择策略结合两步法,挑选出一个最优特征集。最后,采用叠加集成模型通过LR组合三个性能良好的分类器GTB、RF和SVM来构建分类方法。与现有的方法相比,SREPRHot取得了较好的性能。我们认为,我们的方法是预测绑定热点的一个新的开始,并且所提出的对数据进行预处理和选择最优特征的策略也可以作为未来预测工作的参考。

标签:based,interactions,特征,RNA,MCC,分类器,方法,性能,SREPRHot
From: https://blog.51cto.com/u_16216184/8953490

相关文章

  • 如果你希望打包的Python脚本在运行时不显示命令行窗口,你可以在使用`auto-py-to-exe`进
    auto-py-to-exe是一个基于Eel和PyInstaller构建的工具,可以通过简单的UI界面将Python项目中的.py文件打包为.exe文件¹。以下是使用auto-py-to-exe的步骤:环境要求:Python环境需要大于或等于2.7¹。模块安装:在命令行中输入以下命令来安装auto-py-to-exe¹:pipinstallauto-py-to-exe或......
  • 解密视频魔法:将ExternalOES纹理转化为TEXTURE_2D纹理
    在使用OpenGLES进行图形图像开发时,我们常使用GL_TEXTURE_2D纹理类型,它提供了对标准2D图像的处理能力。这种纹理类型适用于大多数场景,可以用于展示静态贴图、渲染2D图形和进行图像处理等操作。另外,有时我们需要从Camera或外部视频源读取数据帧并进行处理。这时,我们会使用GL_TEXT......
  • 【WPF】 BasedOn的用法
    BasedOn用于样式的继承。这里的已经继承了一个样式  此时,我们想在Resource中让他附加新的样式,但是这样不成功  修改如下:去掉了之前的样式选择  我们使用BasedOn让其叠加样式 ......
  • 易基因: RNA m7G甲基化修饰的生物学功能及其在癌症中的作用|综述
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。m7G修饰是RNA转录后修饰之一,存在于许多不同类型的RNA中。通过对RNA中m7G修饰的准确鉴定,揭示了m7G在基因表达调控和不同生理功能中的作用。越来越多的证据表明,m7G修饰在癌症发生中至关重要。本文综述了m7G的检测技......
  • ERROR: Could not build wheels for opencv-python, which is required to install py
    目录系统环境问题描述问题解决问题二参考文章系统环境#macOS系统版本$sw_versProductName:MacOSXProductVersion:10.14.4BuildVersion:18E2035#Python版本$python--versionPython3.9.13问题描述安装opencv-python报错,安装失败#安装opencv-python的命令......
  • Externalizable接口实现序列化与反序列化
    Externalizable接口实现序列化与反序列化packagecom.example.core.mydemo.java;importcom.example.core.mydemo.json2.GsonUtils;importjava.io.*;/***Externalizable接口实现序列化与反序列化**Serialization(序列化):将java对象以一连串的字节保存在磁盘文件......
  • Hierarchical Clustering-based Personalized Federated Learning for Robust and Fai
    任务:人类活动识别任务HumanActivityRecognition----HAR指标:系统准确性、公平性、鲁棒性、可扩展性方法:1.提出一个带有层次聚类(针对鲁棒性和公平的HAR)个性化的FL框架FedCHAR;通过聚类(利用用户之间的内在相似关系)提高模型性能的准确性、公平性、鲁棒性。2.提高FedCHAR的......
  • Could not build wheels for pillow, which is required to install pyproject.toml-b
     参考来源,致敬大佬。ERROR:CouldnotbuildwheelsforPillow,whichisrequiredtoinstallpyproject.toml-basedprojects-CSDN博客报错:Couldnotbuildwheelsforpillow,whichisrequiredtoinstallpyproject.toml-basedprojects的解决-CSDN博客 本人小白......
  • Sw-YoloX An anchor-free detector based transformer for sea surface object detect
    Sw-YoloXAnanchor-freedetectorbasedtransformerforseasurfaceobjectdetection基于Transformer用于海上目标检测的无锚检测器:Sw-YoloX1)由于不同海洋状态下的活体和漂浮物体数据稀缺且昂贵,我们基于2022年1月至3月在中国厦门的实际海面测量,构建了XM-10000基准数据集。......
  • Object Tracking Network Based on Deformable Attention Mechanism
    ObjectTrackingNetworkBasedonDeformableAttentionMechanismLocallibrary初读印象comment::(DeTrack)采用基于可变形注意力机制的编码器模块和基于自注意力机制的编码器模块相结合的方式进行特征交互。基于可变形注意力机制的编码器可以在不聚焦所有像素的情况下精......