首页 > 其他分享 >通过提示学习进行多级蛋白质结构预训练

通过提示学习进行多级蛋白质结构预训练

时间:2023-12-10 12:05:25浏览次数:30  
标签:训练 提示 多级 al et 蛋白质 氨基酸 结构

MULTI-LEVEL PROTEIN STRUCTURE PRE-TRAINING WITH PROMPT LEARNING

通过提示学习进行多级蛋白质结构预训练

期刊:ICLR2023
作者:浙江大学团队

背景

蛋白质可以关注不同的结构水平来实现其功能。 蛋白质结构有四个不同的层次,第一级是由氨基酸组成的蛋白质序列,第二级是指局部折叠结构,第三季描述自然折叠的三维结构,第四级是由多个氨基酸组成的蛋白质聚体。

大多数现有的功能预测方法都采用一级或三级结构作为输入,无意中忽略了蛋白质结构的其他级别。


相关工作

Protein Representation Models(从一级结构出发)

Asgari& Mofrad (2015); Yang et al. (2018) apply word embedding algorithms to obtain protein representations.

Dalkiran et al. (2018); Ozturk et al. (2018) use one-dimensional convolutional neural networks to predict the functions.

Alley et al. (2019); Elnaggar et al.(2021); Rives et al. (2021) explore whether the pre-training and fine-tuning paradigm, the transformer architectures, and the objective functions can effectively transfer from natural languages to proteins.

Zhang et al. (2021) align the amino acid sequence and the text sequence to obtain informative protein representation.

Protein Representation Models(从三级结构出发)

Hermosilla et al. (2020); Somnath et al.(2021); Ganea et al. (2021); Zhang et al. (2022) 构建蛋白质图并利用消息传递神经网络来生成结构感知表示。

Bepler & Berger (2021)采用接触图预测和结构相似性预测来预训练蛋白质模型。

缺陷:

少有工作使用四级结构来丰富蛋白质表征。



两个挑战:

how to design proper pre-training tasks for different protein structures?


how to efficiently integrate these tasks in the pre-training phase and transfer the implicit protein structure knowledge for function prediction in fine-tuning phase?


作者工作

●提出了一种新的提示引导的多任务预训练和微调框架。

●通过提示引导的多任务预训练,我们学习多个提示信号来引导模型(称为 PromptProtein)专注于不同级别的结构。

●设计了一个即时微调模块,为下游任务提供利用各个级别的结构信息的按需灵活性。功能预测和蛋白质工程方面的大量实验表明

●这是第一个基于提示的预训练蛋白质模型。


The architecture overview of PromptProtein

MASLSCV[MASKJDKMVVTMASLSCVSDKMVVTPROMPT-AWAREFITNESSPREDICTIONLPHA-CARBONARAMETERSTABILITYPREDICTIONPROMPT-AWARENCTIONANNOTATIORPROMPTPOOLLNTERACTIONMASKLANGUAGE[MLM][CRD]TRANSFOMERTRANSFOMERPREDICTION夏MODELINGCOMPOSEDDIVERSEPREDICTIONASLSCVMASKLDPROMPTO(.)SHARING[PPI]TASKSRP个QHP(ARFS

通过提示学习进行多级蛋白质结构预训练_多任务


SHIFTEDRIGHT)PROBABILITIESADD&NORMMULTI-HEADPOSITIONALADD&NORMPOSITIONALMULTI-HEADADD&NORMMULTI-HEADOUTPUTSENCODINGMASKEDATTENTIONFORWARDEMBEDDINGOUTPUTEMBEDDINGADD&NORMLNPUTSATTENTIONENCODINGADD&NORMFONWARDOUTPUTSOFTMAXATTENTIONLINEARNXNXFEEDINPUTFEED

通过提示学习进行多级蛋白质结构预训练_多任务_02



方法

PROMPT-AWARE ATTENTION MODULE

Attention mask

SKIPCONNECTIONATTENTIONMASK0123PSOFTMAXSCALEMATMUL一MATMULLINEARLINEARLINEAR9P03012A090P88

通过提示学习进行多级蛋白质结构预训练_ci_03


EPANDEAM三1.OTHERS

通过提示学习进行多级蛋白质结构预训练_ci_04


Skip connection

)ATTN(HS),H9十(1-万(+1)(2)一9%N分

通过提示学习进行多级蛋白质结构预训练_多任务_05



PROTEIN MULTI-LEVEL STRUCTURES LEARNING

为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务

Masked language modeling

此任务使用所有可用的氨基酸标记来恢复屏蔽的氨基酸标记;

NEPEXPPUHPGMX(HP)=-LOGG(GHP)A(GHP)三EXPPYHP)GY(3)

通过提示学习进行多级蛋白质结构预训练_二级_06


Alpha-Carbon Coordinate Prediction(α-碳坐标预测)

二级结构可以从蛋白质 3D 坐标推断出来,因此我们使用 α-C 坐标预测任务来学习二级和三级结构

CCAP(HN)=MISE(Z,KABSH(R(HP))).4)

通过提示学习进行多级蛋白质结构预训练_ci_07


Protein-Protein Interaction prediction(蛋白质相互作用预测)

预测第 m 个和第 n 个蛋白质是否可以在批量数据中相互作用

CE(GMN,P(UMN)HRM),MEAN(ATTNMNHN)),HEW(HEW)TAN(ATTN.NHPLNCPPI(HP-SIGMOIDATTNM.NM.NEN5)MEMEAN工D

通过提示学习进行多级蛋白质结构预训练_ci_08


KABSHROTATION工GROUND-TRUTHSTRUCTUREOOOOCPREDICTEDSTRUCTUREPAIRATTENTIONREPRESENTATIONLIPPI]PROTEINSPROJECTION[CRDRF5PROTEINPAIR-AWARELINEARO

通过提示学习进行多级蛋白质结构预训练_ci_09



PROMPT-GUIDED MULTI-TASK PRE-TRAINING AND FINE-TUNING

对应三个预训练任务,提示可以实例化为三个token之一:MLM,CRD,PPIPEPE

通过提示学习进行多级蛋白质结构预训练_多任务_10


提示引导的多任务预训练的目标函数可以表示为:

C=A1CMMHMM十C3CPPR(HIPPRL).十A2CCRDH[CRD6)

通过提示学习进行多级蛋白质结构预训练_多任务_11


当我们预训练具有多个任务的模型(如公式 6)时,模型参数 ψ 和提示 p 都得到优化。这样,模型不一定需要学习所有任务的最优表示,而只需要学习每个任务各自的最优表示。


DATA:INPUTPROTEINR,PROMPTPOOLPEP={MLM],CRDPPI,TASKOBJECTIVESCPTETHEMODELPARAMETERS/=少->(AP.(VTLP)ACCORALGORITHML:PROMPT-GUIDEDMULTI-TASKPRE-TRAININGCOMPUTETHELOSSCN(HN)ACCORDINGTOEQUATION3,4OR5//FCONTAINLLAYERSPROMPT-AWAREATTENTIONMODULEPDATETHEPROMPTPARAMETERSPEP-APVPLPLNITIALIZETHETASK-SPECIFCINPUTPE3PRESULT:MODELPARAMETERSCOMPUTETHEFEATUREHNEFA(NWHILENOTCONVERGEDOFORPEPDOTHELEARNNGRATEC.ENDFORENDWHILE

通过提示学习进行多级蛋白质结构预训练_二级_12



LEAMEDPROMPTPOOLP=MLMCRD,PPI,PRE-TRAINEDMODELPARAMETERS,UPDATETHEPROMPT-TUNINGMODULEPARAMETERS0=F-VELPDATA:INPUTPROTEIN,DOWNSTREAMTASKOBJECTLPALGORITHM2:PROMPT-GUIDEDFINE-TUNINGUTECOMBINEDPROMPTPETE(PARESULT:PROMPT-TUNINGMODULEPARAMETERS0.OMPUTETHEIOSSCMELP(HMCOMPUTETHEFEATUREHPEF(WPNITIALIZETHEINPUTMEWPWHIENOTCONVERGEDOTHELEARMINGRATEC.ENDWHILE

通过提示学习进行多级蛋白质结构预训练_二级_13


结果与分析

PRE-TRAINING SETUP

对于一级结构,我们使用 UniRef50,它是具有 50% 序列同一性的 UniRef90 种子序列的聚类。对于二级和三级结构信息,我们使用蛋白质数据库(PDB),其中包括通过实验方法获得的200,000个蛋白质3D结构。对于四级结构信息,我们使用包含氨基酸序列和蛋白质蛋白质相互作用对的 STRING 数据集。在 STRING 数据集中,蛋白质相互作用分为 7 类。我们从 STRING 中选择了纯物理相互作用子集,其中包含来自 14,095 个物种的 6500 万个蛋白质序列和 27 亿个蛋白质-蛋白质相互作用对。


DOWNSTREAM TASK DATASETS

ABLE4:STATISTICSOFTHEDOWNSTREAMDATASETS.ENZYMECOMMISSIONGB1(1-VS-RESTGENEONTOLOGCLASSIFICATIONFLUORESCENCETHERMOSTABILITYCLASSIFICATIONGB12-VS-REST)AAV1-VS-RESTREGRESSIONREGRESSION53.679REGRESSION#VALIDATIONREGRESSION27.217REGRESSION21.446REGRESSION81.413#TESTREGRESSION24.81712.8395.36229.902STABILITYDATASET3.323SABDAB2.447TRAIN3.314TASK8.3061.1708.7041.7291.9194515.551273.416992948

通过提示学习进行多级蛋白质结构预训练_多任务_14



Model performance on EC numbers and GO terms prediction tasks

通过提示学习进行多级蛋白质结构预训练_二级_15




How do prompts determine the processing pathways of structural information?

在图 4(a) 中,可视化了不同神经层的三个预训练提示的跳跃权重,并计算这些跳跃权重的 Pearson 相关性

(A)CONNECTIONSKIPVISUALIZATION(B)PROMPTCORRELATION[CRD]-0.4[PP-O.7[PP]-0.40.0[MLM[CRD.70.81.21.01.01.00.71.0301.03310200.90.8

通过提示学习进行多级蛋白质结构预训练_ci_16


Can PromptProtein learn multi-level structures?

图 5(a) 说明了以 [MLM] 为条件的氨基酸嵌入。我们观察到蛋白质中的氨基酸嵌入根据其类型进行分组

图 5(b) 说明了以 [CRD] 为条件的氨基酸嵌入。我们发现氨基酸沿着蛋白质中的序列在二维空间中线性排列。为了获得表示和结构之间更准确的关系,我们比较了蛋白质接触图和嵌入的坐标。它们之间的强相关性表明 CRD 目标可以有效地了解蛋白质 3D 结构的信息。

在图 5(c) 中,我们通过传统的多任务预训练可视化氨基酸嵌入,并突出显示丝氨酸(一类氨基酸)。嵌入尝试同时合并多个结构特征,这导致模式不清晰。

RD]GUIDEDEMBEDDINGWITHOUTPROMPT-GUIDEDEMBEDDINGMLM]GUIDEDEMBEDDINGHYDROPHOBLCALPHATICCHAROEDACIDICCHARGEDACIDICALPHA-HELIXDISOBETA-SHEECHARGEDBASIC(C)DNN5皇号(BVVORDER(A)FLUNIQUE1QOYDDRPTVWWYY

通过提示学习进行多级蛋白质结构预训练_二级_17



Do downstream tasks benefit from the acquired information on-demand by prompt tuning?

为了进一步分析提示引导微调的重要性,作者对 SAbDab 数据集上的结合亲和力预测任务进行了消融研究。

BINDINGAFFINITYPREDICTIONTASK(SABDAB)PPI+CRDMLM+CRDMLM+PPIALL0.520.62.580.50NONE0.56MLMPPL0.54CRD0.60

通过提示学习进行多级蛋白质结构预训练_二级_18


这些结果证明,并非预训练中的所有结构信息都对下游任务有益,并且通过即时调整自适应地组合获取的信息可以带来更好的性能。



结论

在本文中,我们将提示的概念从 NLP 扩展到蛋白质表示。我们提出了即时引导的多任务预训练和微调框架。通过这个框架,我们提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的 PTPM 相比,所提出的方法可以产生令人满意的改进。



标签:训练,提示,多级,al,et,蛋白质,氨基酸,结构
From: https://blog.51cto.com/u_16216184/8758547

相关文章

  • Windows 11命令提示符cmd,默认路径修改
    前言全局说明cmd命令提示符终端,启动默认目录是当前用户的目录下。为了方便使用,默认修改成其他路径一、cmd默认路径默认路径是%USERPROFILE%,如果为空“就使用父路径”二、设置成环境变量值路径%TEMP%设置后,记得点保存效果:如何获取系统变量和系统变量列表:https://......
  • 禁止sublime text3提示更新
    每次打开软件都提示更新,觉得很烦,尝试几种方法去阻止其提示更新。一、软件设置方法:在settings里添加"update_check":false或者"update_check":"never"结果:无效二、编辑hosts文件方法:在C:\Windows\System32\Drivers\etc\hosts底部添加127.0.0.1www.sublimetext.com结果:有......
  • 锐捷交换机---配置提示信息命令 banner
    banner【命令功能】banner命令用来配置提示信息。nobanner命令用来取消提示信息的配置。defaultbanner命令用来恢复缺省配置。缺省情况下,未配置提示信息。【命令格式】banner { exec | incoming | login | motd | privilege-mode | prompt-timeout | sl......
  • 交叉编译提示ModuleNotFoundError: No module named 'packaging'
    如果你的目标环境中的python是通过交叉编译自行生成的,可能会遇到这个提示在你已经完成python的交叉编译后,你就需要crossenv,然后完成对应库的适配 #Makecrossenvpipinstallcrossenvpython3-mcrossenv--without-pip$crosspy/bin/python3/your/cross-env #Activate......
  • linux使用tail,grep查看文件,提示配到二进制文件 (标准输入)
    环境centos7.9背景最近在linux下使用cat,tail等查看日志时会报《配到二进制文件(标准输入)》,然后就没有任何输出,通常这些日志是中文英文混打印的如使用vi进日志后能查看中文格式的内容原因那是因为在Linux系统中,使用tail和grep命令来查找中文格式的log时,遇到《Binaryfil......
  • 深度系统(Deepin)开机无法登录,提示等待一千五百分钟
    深度系统(Deepin)20.0,某次开机无法登录,提示等待一千五百分钟。?????????用电脑这么多年,头一回遇到这种事情。我做了什么?答案是什么都没做。如果多次输错密码,你锁个10分钟,还可以接受。问题是我什么都没做居然就锁电脑25小时!正好客户催着更新软件!没辙,等了一晚上,第二天下午两点,可以登录了。然后......
  • delphi 提示 Access violation at address 014CA924 in module 'EBD.exe'. Read of ad
    通过类似Accessviolationataddress014CA924inmodule'EBD.exe'.Readofaddress0D1A0000提示查看代码出错的行。1、开启map project -> options -> Linker -> Map file 选择detailed2、查看ImageBase 3、计算地址崩溃行偏移 = 崩溃地址(Crash Addre......
  • android之使用可编辑和不可编辑的提示/文本编辑文本之Android
    请您参考如下方法: 整个东西不是编辑文本,而是布局。您可以按如下方式实现该效果。 Java<LinearLayoutandroid:id="@+id/container"android:layout_width="match_parent"android:layout_height="wrap_content"android:orientation="horizo......
  • MATLAB|学习小提示
    一些小小小提示遇到问题怎么办不要怕提问,谁都是新手过来的,matlab程序我是自学的从来也没人教过我,我不懂就百度解决的,作为初学者,你遇到的问题,其他人也大多遇到过,绝大多数百度可以解决。但是在提问之前,可以看看作为一个过来人给你们的一点经验勇于自己尝试不能程序一出错,就直接......
  • phpstudyV8安装thinkcmf提示rewrite伪静态不支持解决方法 php项目中需要使用伪静态打
    使用phpstudyV8安装thinkcmf提示rewrite伪静态不支持,解决方法php项目中需要使用伪静态打开网页进行本地测试时,也可使用该方法解决 找了很多方法都无效,这个方法管用,记录一下。步骤一:服务器部署好的程序需要在本地再做二开时在phpstudy里总是打不开后台,这时候一般都是伪静态的......