MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING
通过提示学习进行多级蛋白质结构预训练
期刊:ICLR2023
作者:浙江大学团队
背景
蛋白质可以关注不同的结构水平来实现其功能。 蛋白质结构有四个不同的层次,第一级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构,第三季描述自然折叠的三维结构,第四级是由多个氨基酸组成的蛋白质聚体。
大多数现有的功能预测方法都采用一级或三级结构作为输入,无意中忽略了蛋白质结构的其他级别。
相关工作
Protein Representation Models(从一级结构出发)
●Asgari& Mofrad (2015); Yang et al. (2018) apply word embedding algorithms to obtain protein representations.
● Dalkiran et al. (2018); Ozturk et al. (2018) use one-dimensional convolutional neural networks to predict the functions.
● Alley et al. (2019); Elnaggar et al.(2021); Rives et al. (2021) explore whether the pre-training and fine-tuning paradigm, the transformer architectures, and the objective functions can effectively transfer from natural languages to proteins.
●Zhang et al. (2021) align the amino acid sequence and the text sequence to obtain informative protein representation.
Protein Representation Models(从三级结构出发)
●Hermosilla et al. (2020); Somnath et al.(2021); Ganea et al. (2021); Zhang et al. (2022) 构建蛋白质图并利用消息传递神经网络来生成结构感知表示。
●Bepler & Berger (2021)采用接触图预测和结构相似性预测来预训练蛋白质模型。
缺陷:
少有工作使用四级结构来丰富蛋白质表征。
两个挑战:
how to design proper pre-training tasks for different protein structures?
how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase?
作者工作
●提出了一种新的提示引导的多任务预训练和微调框架。
●通过提示引导的多任务预训练,我们学习多个提示信号来引导模型(称为 PromptProtein)专注于不同级别的结构。
●设计了一个即时微调模块,为下游任务提供利用各个级别的结构信息的按需灵活性。功能预测和蛋白质工程方面的大量实验表明
●这是第一个基于提示的预训练蛋白质模型。
The architecture overview of PromptProtein
MASLSCV[MASKJDKMVVTMASLSCVSDKMVVTPROMPT-AWAREFITNESSPREDICTIONLPHA-CARBONARAMETERSTABILITYPREDICTIONPROMPT-AWARENCTIONANNOTATIORPROMPTPOOLLNTERACTIONMASKLANGUAGE[MLM][CRD]TRANSFOMERTRANSFOMERPREDICTION夏MODELINGCOMPOSEDDIVERSEPREDICTIONASLSCVMASKLDPROMPTO(.)SHARING[PPI]TASKSRP个QHP(ARFS
SHIFTEDRIGHT)PROBABILITIESADD&NORMMULTI-HEADPOSITIONALADD&NORMPOSITIONALMULTI-HEADADD&NORMMULTI-HEADOUTPUTSENCODINGMASKEDATTENTIONFORWARDEMBEDDINGOUTPUTEMBEDDINGADD&NORMLNPUTSATTENTIONENCODINGADD&NORMFONWARDOUTPUTSOFTMAXATTENTIONLINEARNXNXFEEDINPUTFEED
方法
PROMPT-AWARE ATTENTION MODULE
Attention mask
SKIPCONNECTIONATTENTIONMASK0123PSOFTMAXSCALEMATMUL一MATMULLINEARLINEARLINEAR9P03012A090P88
EPANDEAM三1.OTHERS
Skip connection
)ATTN(HS),H9十(1-万(+1)(2)一9%N分
PROTEIN MULTI-LEVEL STRUCTURES LEARNING
为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务
Masked language modeling
此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记;
NEPEXPPUHPGMX(HP)=-LOGG(GHP)A(GHP)三EXPPYHP)GY(3)
Alpha-Carbon Coordinate Prediction(α-碳坐标预测)
二级结构可以从蛋白质 3D 坐标推断出来,因此我们使用 α-C 坐标预测任务来学习二级和三级结构
CCAP(HN)=MISE(Z,KABSH(R(HP))).4)
Protein-Protein Interaction prediction(蛋白质相互作用预测)
预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用
CE(GMN,P(UMN)HRM),MEAN(ATTNMNHN)),HEW(HEW)TAN(ATTN.NHPLNCPPI(HP-SIGMOIDATTNM.NM.NEN5)MEMEAN工D
KABSHROTATION工GROUND-TRUTHSTRUCTUREOOOOCPREDICTEDSTRUCTUREPAIRATTENTIONREPRESENTATIONLIPPI]PROTEINSPROJECTION[CRDRF5PROTEINPAIR-AWARELINEARO
PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING
对应三个预训练任务,提示可以实例化为三个token之一:MLM,CRD,PPIPEPE
提示引导的多任务预训练的目标函数可以表示为:
C=A1CMMHMM十C3CPPR(HIPPRL).十A2CCRDH[CRD6)
当我们预训练具有多个任务的模型(如公式 6)时,模型参数 ψ 和提示 p 都得到优化。这样,模型不一定需要学习所有任务的最优表示,而只需要学习每个任务各自的最优表示。
DATA:INPUTPROTEINR,PROMPTPOOLPEP={MLM],CRDPPI,TASKOBJECTIVESCPTETHEMODELPARAMETERS/=少->(AP.(VTLP)ACCORALGORITHML:PROMPT-GUIDEDMULTI-TASKPRE-TRAININGCOMPUTETHELOSSCN(HN)ACCORDINGTOEQUATION3,4OR5//FCONTAINLLAYERSPROMPT-AWAREATTENTIONMODULEPDATETHEPROMPTPARAMETERSPEP-APVPLPLNITIALIZETHETASK-SPECIFCINPUTPE3PRESULT:MODELPARAMETERSCOMPUTETHEFEATUREHNEFA(NWHILENOTCONVERGEDOFORPEPDOTHELEARNNGRATEC.ENDFORENDWHILE
LEAMEDPROMPTPOOLP=MLMCRD,PPI,PRE-TRAINEDMODELPARAMETERS,UPDATETHEPROMPT-TUNINGMODULEPARAMETERS0=F-VELPDATA:INPUTPROTEIN,DOWNSTREAMTASKOBJECTLPALGORITHM2:PROMPT-GUIDEDFINE-TUNINGUTECOMBINEDPROMPTPETE(PARESULT:PROMPT-TUNINGMODULEPARAMETERS0.OMPUTETHEIOSSCMELP(HMCOMPUTETHEFEATUREHPEF(WPNITIALIZETHEINPUTMEWPWHIENOTCONVERGEDOTHELEARMINGRATEC.ENDWHILE
结果与分析
PRE-TRAINING SETUP
对于一级结构,我们使用 UniRef50,它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(PDB),其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息,我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中,蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集,其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。
DOWNSTREAM TASK DATASETS
ABLE4:STATISTICSOFTHEDOWNSTREAMDATASETS.ENZYMECOMMISSIONGB1(1-VS-RESTGENEONTOLOGCLASSIFICATIONFLUORESCENCETHERMOSTABILITYCLASSIFICATIONGB12-VS-REST)AAV1-VS-RESTREGRESSIONREGRESSION53.679REGRESSION#VALIDATIONREGRESSION27.217REGRESSION21.446REGRESSION81.413#TESTREGRESSION24.81712.8395.36229.902STABILITYDATASET3.323SABDAB2.447TRAIN3.314TASK8.3061.1708.7041.7291.9194515.551273.416992948
Model performance on EC numbers and GO terms prediction tasks
How do prompts determine the processing pathways of structural information?
在图 4(a) 中,可视化了不同神经层的三个预训练提示的跳跃权重,并计算这些跳跃权重的 Pearson 相关性
(A)CONNECTIONSKIPVISUALIZATION(B)PROMPTCORRELATION[CRD]-0.4[PP-O.7[PP]-0.40.0[MLM[CRD.70.81.21.01.01.00.71.0301.03310200.90.8
Can PromptProtein learn multi-level structures?
图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组
图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。
在图 5(c) 中,我们通过传统的多任务预训练可视化氨基酸嵌入,并突出显示丝氨酸(一类氨基酸)。嵌入尝试同时合并多个结构特征,这导致模式不清晰。
RD]GUIDEDEMBEDDINGWITHOUTPROMPT-GUIDEDEMBEDDINGMLM]GUIDEDEMBEDDINGHYDROPHOBLCALPHATICCHAROEDACIDICCHARGEDACIDICALPHA-HELIXDISOBETA-SHEECHARGEDBASIC(C)DNN5皇号(BVVORDER(A)FLUNIQUE1QOYDDRPTVWWYY
Do downstream tasks benefit from the acquired information on-demand by prompt tuning?
为了进一步分析提示引导微调的重要性,作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。
BINDINGAFFINITYPREDICTIONTASK(SABDAB)PPI+CRDMLM+CRDMLM+PPIALL0.520.62.580.50NONE0.56MLMPPL0.54CRD0.60
这些结果证明,并非预训练中的所有结构信息都对下游任务有益,并且通过即时调整自适应地组合获取的信息可以带来更好的性能。
结论
在本文中,我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架,我们提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的 PTPM 相比,所提出的方法可以产生令人满意的改进。
若有收获,就点个赞吧