会议地点:腾讯会议
关键词:数据平衡;蛋白质-RNA相互作用
作者:Tong Zhou, Jie Rong, Yang Liu, Weikang Gong, Chunhua Li
期刊:Bioinformatics
年份:2022
论文原文:https://academic.oup.com/bioinformatics/article-abstract/38/9/2452/6543608补充材料:
主要内容
问题 :
识别蛋白质-RNA相互作用中的结合位点对于理解其潜在的识别机制和药物设计至关重要。这些实验方法有许多局限性,因为它们通常是耗时耗力的。因此,迫切需要开发一种有效有效的方法。
在这里,作者提出了SREPRHot,一种预测位点的方法,定义为丙氨酸突变产生结合自由能变化2.0千卡/摩尔的残基。为了解决数据集的不平衡问题,利用合成少数过采样技术(SMOTE)生成少数样本,以实现数据集的平衡。此外,除了传统的特征外,还使用了两种新的特征,即作者之前开发的残差界面倾向和使用节点加权网络获得的拓扑特征,并提出了一种有效的随机分组特征选择策略,结合两步方法来确定最优特征集。最后,采用堆叠集成分类器建立了该模型。结果表明,SREPRHot在独立测试数据集上的SEN、MCC和AUC分别为0.900、0.557和0.829。对比研究表明,SREPRHot具有较好的应用性能。
1方法
1.1 首先提取Physicochemical characteristics of amino acids、Secondary structural features、Depth index and protrusion index、Solvent accessible surface area、Position-specific scoring matrix、Solvent exposure features、Residue interface propensity、Residue topological features from AAN这八种特征。
1.2 通过 SMOTE策略来解决样本不平衡的问题
1.3 结合MRMR和决策树来进行特征筛选
1.4 通过堆叠策略来构建模型
FEATURE EXTRACTIONDATA PREPARATIONINTERFACE RESIDUESSISEGUENCE FEATUREDBAMEPNIREDUNDANCYREMOVALLITERATURE58 PROTEIN-RNACOMPLEXESSTRUCTURALFEATURESMOTEMODEL CONSTRUCTION AND PREDITCTIONHOTSPOT(4AG22 KCAL/MOL)FEATURE SELECTION-NON-HOTSPOT(AAG<2 KCAL/MOL)STACKING ENSEMBLECLASSIFIERROUND1FEATUIE A1LWO-SLEPRFFEGLURE B1MELHODFEALUSE C1...ROUND2...ROUND3.....ROUND5...ROUND6........ROUND8...ROUND9.... ROUND10LRSVMCOUNT&CHOOSEGTBPROTEIN-RNA COMPLEX18 FEATURESFIG. 1. FRAMEWORK OF SREPRHOT FOR IDENTIFYING BINDING HOTS IN PIN PROTEIN-RNACSDN@SUPER齐INTERACTIONS
2主要实验及结果
通过SMOTE方法来解决正负样本不平衡的问题。使用热点值DDG为2.0千卡/mol的准则导致正负样本之间的高度不平衡,使得特征选择和模型构建主要以负样本为主,不利于模型构建。采用SMOTE算法在训练集中生成少数(正)类样本来平衡数据。为了探索是否样本比例1:1可以提高模型性能,我们比较结果得到的模型训练平衡数据打击和随机重复过采样技术(简单的复制操作),和初始不平衡的,如表1所示。
TABLE 1. FREDICHON RESUTS ROM MODETS TRED AN BELANCED TRANDON DATES BY SMOTE ANDON REPEAT OVESTECHNERESPECTIVELY,AND ON THE INITIAL IMBALANCED ONEF1AUCMCCACCSENSPEPREDATAIMBALANCED0.4920.2540.8740.0760.3710.2940.4902410.5130.2640.691三0.1370.7950.0920.8740.0940.8250.0780.6330.1760.6420.215 BALANCED BY RANDOM0.780兰0.0960.601230.5150.167REPEAT OVERSAMPLING0.8333091BALANCED BY SMOTE0.84701130.800.2270.6460.1710.602310.8481450.5810.208
从表1中可以看出,与在不平衡数据上训练的模型的结果相比,在不平衡数据上训练的模型的相应结果有了明显的改善。此外,在SMOTE处理的数据集上训练的模型比随机重复过采样处理的模型预测效果更好,SEN、MCC和AUC分别提高了26.4%、12.8%和8.7%。我们认为,这种改进的原因是,随机重复过采样技术生成的样本只是原始正样本的副本,而没有增加任何新信息,这可能会导致一定程度的过拟合。
2.2 为了探究随机分组策略和新算法的优势,比较了四种经典方法mRMR、RF、Boruta和SFS的性能,以及我们的随机分组策略结合两步方法的性能。结果如表2所示。
TABL PREDITION RESULTS OFTHE MODELS USING STATUR FEATURE SALECTON METHODS ANDOM GROUPING STATESY WITWO-STEP METHODMCCSENAUCACCF1PRESPEMETHODMRMR(-)0.8610.1020.840.0610.55402050.5270.2310.47202010.6250.3140.8070.1050.67302370.8230.0890.853131MRMR(+)0.61810.1310.8050.1360.61022250.5230.175RF(-)0.8360.1000.580.3650.5220.3420.79810.1910.870011100.4460.3400.5340.318RF(+)0.857士0.0980.5801800.830.1260.50710.2070.6150.2420.5840.1880.8850.0920.5860.281BORUTA(-)0.6830.3580.8450.067士0.2960.8120.1350.5340.2880.503士0.8830.084BORUTA(+)0.59202370.620.1880.88910.1070.8220.1320.5410.2490.693士0.248士0.0990.849SFS(-)0.8370.0920.55710.1880.810.0860.809士0.1280.6650.2420.48202070.576士0.180SFS(+)0.6210.1980.6280.2990.5882180.837士0.2040.8680.0730.50102650.821士0.0810.5250.2920.848132TWO-STEP(-)0.7680.2920.8431370.5220.2980.8310.1170.59110.2790.8480.1450.5810.2080.602312310.800.2270.6460.171TWO-STEP(+)0.8470.1130.8333091NOTE:(+) AND(-):WITH AND VITHOUT RANDOM GROUPING STRATESY, MRMR, MININUM REDUNDANCY MAXINUM RELEYANC:CE;RF, RRANDOM FOREST, SFS, SEQUENTIAL FOR-CSDN@SUPER齐WARD SELECTION.
如表2所示,在没有随机分组策略的特征选择方法中,两步法的性能最好。此外,考虑到该策略,每种方法的性能都有一定程度的提高,特别是在SEN、F1和MCC分数方面。因此,我们提出的随机分组策略结合了一个两步算法,为我们的模型选择最优特征,其表现明显优于其他方法。我们推测可能的原因是两步法考虑了特征之间的互补性,减少了过拟合,随机分组策略在一定程度上减少了离群样本对特征选择的影响。
通过随机分组策略结合两步算法进行降维后,我们最终得到了18个特征的最优集,如补充表S5所示。在18个特征中,9个特征是基于序列的四种类型(氨基酸的理化特征、PSSM、溶剂暴露特征和IP),其他9个特征是基于其他3种类型(DPX和CX、SASA和拓扑特征)。需要指出的是,我们选择了我们提出的残基IP和节点加权AAN中的两个拓扑特征作为最优特征,据我们所知,这是首次用于蛋白质-rna热点预测。IP表示一种氨基酸出现在界面上的倾向,而热点则是一种特殊的结合位点,我们认为这可能是IP有助于预测结合界面上的热点的原因。在拓扑特征方面,一些研究证明,考虑网络中节点的异质性有助于功能残差的识别。
我们需要选择一个合适的机器学习方法来建立我们的模型。为此,我们在训练数据集上使用10倍交叉验证,比较了6个经典分类器的性能,结果如补充表S6所示。与分类器kNN、自适应增强和极限梯度增强(XGBoost)相比,GTB、RF和SVM在PRE、F1和MCC分数方面表现最好。鉴于此,我们采用GTB、RF和SVM三个分类器作为我们SEC的第一层分类器,LR作为第二层输出最终结果,这在一定程度上降低了过拟合的风险。结果表明,SEC的性能一般远远优于其他分类器,ACC、PRE、F1、MCC和AUC分别为0.833、0.602、0.646、0.581和0.848。因此,SEC由于其优越的性能而被用作SREPRHot的机器学习分类器。
为了精确估计SREPRHot,在训练数据集上重复了10倍交叉验证,得到ACC、SEN、F1、MCC和AUC值分别为0.818 6 0.016、0.814 6 0.036、0.638 6 0.022、0.565 6 0.023和0.859 6 0.019。结果表明,该模型的性能是相对稳定和稳健的。
此外,还比较了SREPRHot在独立测试数据集上的性能与现有方法PrabHot、XGBPRH和HotSPRing的性能,结果如表3所示。
TABLE 3.COMPARISON OF SREPRHOT WITH EXISTING METHODS ON INDE-PENDENT TESTING DATASETMCCF1AUCPREMETHODSENSPE0.870XGBPRH0.9090.8330.7330.6610.868(1.0 KCAL/MOL)0.7420.817PRABHOT(1.0 KCAL/0.7930.4530.6970.655MOL)HOTSPRING0.6580.2580.5520.6330.6040.655(1.0KCAL/MOL)0.8290.5570.4740.6210.900SREPRHOT0.792(2.0 KCAL/MOL)CSDN@SUPER齐
需要指出的是,前两种方法是用于预测DDG阈值为1.0千卡/mol的热点地区,后者用于预测一个残基突变的DDG范围。XGBPRH的开发者Deng等人为了比较XGBPRH和HotSPRing的性能,采用了1.0千卡/摩尔的阈值。表3中与HotSPRing对应的结果来自文献,因为HotSPRing目前还不可用。从表3中可以看出,XGBPRH的性能一般最好,SEN、MCC和AUC分别为0.909、0.661和0.868。考虑到我们的方法采用了更严格的DDG 2.0 kcal/mol的标准,SREPRHot取得了良好的性能,SEN、MCC和AUC分别达到0.900、0.557和0.829。比较表明,我们的方法显示出了很好的性能,可以作为使用1.0千卡/摩尔的方法的补充。
3分析
4结论
有效预测蛋白质-rna相互作用中的结合热点对于理解其特定的识别和相互作用机制至关重要。本文提出了一种新的识别结合热点的SREPRHot识别方法,该方法以预测蛋白残基的18个特征作为输入,并给出其分类结果作为输出。为了解决采用更严格的热点标准DDG为2.0千卡/摩尔而不是1.0千卡/摩尔导致的数据类不平衡问题,采用SMOTE算法生成少数(正)类样本,达到数据类平衡。除了传统的序列特征和结构特征外,还提取了两种新的特征类型,即我们开发的残差IP和节点加权AAN中的拓扑特征作为候选特征。从中,我们提出的随机分组特征选择策略结合两步法,挑选出一个最优特征集。最后,采用叠加集成模型通过LR组合三个性能良好的分类器GTB、RF和SVM来构建分类方法。与现有的方法相比,SREPRHot取得了较好的性能。我们认为,我们的方法是预测绑定热点的一个新的开始,并且所提出的对数据进行预处理和选择最优特征的策略也可以作为未来预测工作的参考。
标签:based,interactions,特征,RNA,MCC,分类器,方法,性能,SREPRHot From: https://blog.51cto.com/u_16216184/8953490