首页 > 其他分享 >ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA

ICML 2024|用于统一分子建模的多尺度蛋白质语言模型ESM-AA

时间:2024-06-06 10:36:03浏览次数:23  
标签:AA ICML 尺度 2024 残基 ESM 模型 蛋白质

多模态蛋白质语言模型是一个新兴的方向。 《Multi-scale Protein Language Model for Unified Molecular Modeling》是一篇发表在ICML 2024的文献,作者是 Kangjie Zheng、Siyu Long、Tianyu Lu、Junwei Yang、Xinyu Dai、Ming Zhang、Zaiqing Nie、Wei-Ying Ma 和 Hao Zhou。文章的蛋白质语言模型涉及到氨基酸序列和分子结构的多模态信息,提供了一个整合的思路。

摘要

蛋白质语言模型在蛋白质工程领域展现出巨大潜力。然而,现有的蛋白质语言模型主要在残基(氨基酸)尺度上运作,这限制了它们提供原子尺度信息的能力。这种限制阻碍了我们充分利用蛋白质语言模型在涉及蛋白质和小型分子的应用程序中的潜力。因此,作者提出了一种新方法ESM-AA(ESM All-Atom),它通过预训练多尺度代码切换蛋白质序列,并使用多尺度位置编码来捕捉残基和原子之间的关系,从而实现了原子尺度和残基尺度统一的分子建模。实验结果表明,ESM-AA在蛋白质分子任务中超越了先前的方法,展示了蛋白质语言模型的充分利用。进一步的调查揭示了通过统一分子建模,ESM-AA不仅获得了分子知识,还保留了对蛋白质的理解。

引言

蛋白质语言模型在蛋白质工程中展现出巨大潜力,它们在预训练大规模蛋白质序列时能够捕获生化和共同进化知识。这在多个领域取得了显著成就,包括蛋白质结构预测、蛋白质适应度预测和蛋白质设计等。然而,现有的蛋白质语言模型主要在残基尺度上运作,不提供原子尺度的信息。为了充分利用蛋白质语言模型在涉及大分子(蛋白质)和小型分子的应用程序中的潜力,需要将外部小型分子模型纳入考虑。作者提出了ESM-AA,它通过预训练多尺度代码切换蛋白质序列,并使用多尺度位置编码来描述残基和原子之间的关系,实现了多尺度统一分子建模。

方法

文献提出了提出一个多尺度预训练模型ESM-AA,它通过以下两个主要步骤实现多尺度统一分子建模:1. 在多尺度代码切换蛋白质序列上进行预训练;2. 使用多尺度位置编码描述残基和原子之间的关系。

image

多尺度预训练过程概述

模型架构的关键特点和组件如下:

  1. 多尺度预训练(Multi-scale Pre-training):

    • 代码切换蛋白序列(Code-Switch Protein Sequence): 模型通过随机“解压缩”(unzipping)部分残基(氨基酸)到它们的组成原子,并为每个解压缩的原子分配坐标,从而在蛋白质序列中引入原子级别的信息。
    • 多尺度位置编码(Multi-scale Position Encoding, MSPE): 为了在代码切换序列中描述残基和原子之间的复杂位置关系,ESM-AA设计了一种多尺度位置编码,包括残基尺度位置编码(Residue Scale Position Encoding, RSPE)和原子尺度位置编码(Atom Scale Position Encoding, ASPE)。
  2. 残基尺度位置编码(Residue Scale Position Encoding, RSPE):

    • 基于现有的编码方法,如Rotary Position Embedding (RoPE),用于描述残基之间的相对位置关系。
    • 对于同一残基中的原子,重用该残基的位置编码,避免引入模糊的位置信息。
  3. 原子尺度位置编码(Atom Scale Position Encoding, ASPE):

    • 使用空间距离矩阵和高斯核(Gaussian Kernel)直接对原子的3D位置进行编码,以描述原子之间的关系。
  4. 变换器编码器(Transformer Encoder):

    • ESM-AA采用了标准的Transformer架构,其中位置编码被集成到自注意力层中。
    • 自注意力计算时,原子尺度位置编码被视作自注意力层的偏置项(bias term)。
  5. 预训练任务(Pre-training Objectives):

    • 掩码语言建模(Masked Language Modeling, MLM): 模型需要预测被掩盖(masked)的残基或原子。
    • 成对距离恢复(Pair-wise Distance Recovery, PDR): 模型需要从被噪声污染的原子坐标中恢复准确的原子间欧几里得距离。
  6. 多尺度掩码语言建模(Multi-scale MLM):

    • 模型同时对残基尺度和原子尺度的标记进行掩码和预测。
  7. 成对距离恢复(Pair-wise Distance Recovery, PDR):

    • 模型需要从被噪声污染的原子坐标中恢复准确的原子间距离。
  8. 模型参数化(Parameterization):

    • ESM-AA使用12层堆叠的Transformer层,每层有20个注意力头。
    • 模型维度和前馈维度分别为480和1920。
  9. 输入处理:

    • 模型可以接受蛋白质或分子作为输入,但在预训练中,输入是未配对的蛋白质或分子数据。
  10. 输出:

    • 模型输出可以用于多种下游任务,如蛋白质结构预测、蛋白质适应度预测、蛋白质设计等。

image

包括多尺度掩蔽语言建模和成对距离恢复的多尺度预训练框架

image

多尺度位置编码框架

ESM-AA模型架构的创新之处在于它能够同时处理蛋白质的残基尺度和原子尺度信息,并通过统一的建模方法提高了蛋白质-分子任务的性能。这种多尺度建模策略使得ESM-AA能够更全面地理解和预测蛋白质及小分子的结构和功能。

实验结果

作者在蛋白质和小型分子的混合数据上预训练ESM-AA,并在多种基准测试上对其进行微调,以验证其性能。主要结果包括:

  1. 性能提升: ESM-AA在蛋白质分子任务中的表现超越了以往的方法。这表明通过统一的分子建模方法,可以充分利用蛋白质语言模型的潜力。

  2. 多尺度建模: ESM-AA成功实现了在原子尺度和残基尺度上的统一建模。通过预训练多尺度代码切换蛋白质序列,并使用多尺度位置编码,模型能够同时捕获残基间和原子间的关系。

  3. 实验验证: 通过一系列实验,作者验证了ESM-AA在多种基准测试上的有效性。这些基准测试包括蛋白质结构预测、蛋白质适应度预测、蛋白质设计等任务。

  4. 保留蛋白质理解: 尽管ESM-AA被设计为多尺度模型,它仍然保留了对蛋白质的深入理解。这通过在蛋白质特定任务(如二级结构预测和接触预测)上与ESM-2模型相似或更好的性能来证明。

  5. 分子任务的表现: 当将ESM-AA应用于标准分子基准测试时,它也超越了几个特定于分子的模型,这突出了统一分子建模的潜力。

  6. 可视化分析: 通过对ESM-AA和ESM-2+Uni-Mol学习到的表示进行可视化比较,结果表明ESM-AA模型能够创建更一致的语义表示,包括蛋白质和分子数据。

  7. 在虚拟筛选基准测试中的性能: ESM-AA在虚拟筛选基准测试中表现出强大的性能,即使在零样本设置下,也接近最先进的方法DrugCLIP。

  8. 蛋白质功能注释任务的性能: ESM-AA在蛋白质功能注释任务上的表现与结构蛋白质表示模型相当或更好,即使没有结构信息输入。

  9. 消融研究: 文献中的消融研究表明,多尺度位置编码、预训练目标和训练数据等各个组成部分对ESM-AA方法的有效性至关重要。

这些结果表明,ESM-AA模型不仅在理论上是创新的,而且在实际应用中也是有效的,能够处理蛋白质和分子的复杂交互,并在多种生物学和化学任务中表现出色。

总结

蛋白质语言模型已广泛应用于多个领域,包括蛋白质结构预测、蛋白质适应度预测和蛋白质设计。统一分子建模扩展了蛋白质语言模型在残基和原子尺度上有效运作的能力,从而增强了它们在这些任务中的适用性。此外,统一分子建模也为蛋白质-小分子相互作用领域的研究开辟了新的途径。基于此,作者提出了ESM-AA,这是一个多尺度蛋白质语言模型,通过预训练多尺度代码切换蛋白质序列和使用多尺度位置编码来描述残基和原子之间的关系,实现了多尺度统一分子建模。实验结果表明,ESM-AA在蛋白质-分子任务中超越了先前的方法,并且有效地将分子知识整合到蛋白质语言模型中,同时没有牺牲对蛋白质的理解。

相关链接

[1] 文献:https://arxiv.org/abs/2403.12995v2

[2] 审稿意见:https://openreview.net/pdf?id=MBIGXMT0qC

标签:AA,ICML,尺度,2024,残基,ESM,模型,蛋白质
From: https://www.cnblogs.com/shiyanhe/p/18221760

相关文章

  • 2024年腾讯云618玩法攻略大全,让你一薅到底!
     重要事情说三遍,2024年腾讯云618活动来了,它来了,它真来了!!今年直接干到骨折价格,云服务器秒杀0.5折起;代金券抵扣折上折;爆品产品88元专区选购、618神秘彩蛋... 关键的关键是,老用户也能享受! 多重福利堪称丧心病狂,但是想全拿完,还是的花点时间研究。废话不多说,教你如何快、准、狠薅腾......
  • 【2024-06-05】贴身感受
    20:00梅子留酸软齿牙,芭蕉分绿与窗纱。日长睡起无情思,闲看儿童捉柳花。                                                 ——《闲居初夏午睡起》杨万里·宋连续两天陪......
  • 2024年6月 AWVS -24.4.27详细安装教程附下载教程含windows和linux多版本
    免责声明请勿利用文章内的相关技术从事非法测试。由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任,请务必遵守网络安全法律法规。本文仅用于测试,请完成测试后24小时删除,请勿用于商业用途。如文中内容涉及侵权......
  • 【高质量】2024年数学建模国赛A题保奖思路(点个关注,后续会更新)
    您的点赞收藏是我继续更新的最大动力!一定要点击如下的卡片链接,那是获取资料的入口!点击链接加入群聊【2024国赛资料合集】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=i9iTpd5r3L546ho71Fv5Ml5JNPODziWg&authKey=0vIFaOH5PnDnmvvkstjxvIoD6S919ufxy2Y7AxbtgmgESZAFaSOwqlP73Jx......
  • 【软件插件】SketchUP插件-最新版坯子插件2024 v3.2.2(支持SketchUp2012-2024版本)安装
    下载链接:https://r0vr8xquwul.feishu.cn/docx/MXC5dUMZroLibaxYgZ3cmkyinDe详细图文教程:https://www.yuque.com/zhefengerhuanzaigua/bld6x5/kc2baq1msy6dehb3软件介绍坯子插件库是为SketchUp(草图大师)用户推出的一款插件管理工具,我们知道在使用sketchup进行模型设计的时候是......
  • .NET周刊【6月第1期 2024-06-02】
    国内文章一文带你了解.NET能做什么?https://www.cnblogs.com/Can-daydayup/p/18214473.NET是一个免费、开源、跨平台的开发平台框架,广泛应用于桌面、Web、移动、云服务、游戏、物联网、大数据和人工智能等领域开发。它支持C#、VisualBasic、F#等多种编程语言,其中C#最为常用,通过......
  • Springboot框架开发与实用篇之热部署 2024详解
    开发与实用手动启动热部署热部署(HotDeployment)指的是在应用程序正在运行的情况下,对其进行更新或修改并将这些变更应用到正在运行的应用程序中的过程。通常情况下,传统的部署方式需要停止应用程序、部署更新,然后重新启动应用程序才能使更新生效。而热部署则允许在无需停止应用......
  • 如何批量复制文件名?文件名批量提取的5个工具!(2024新)
    在数字化时代,我们经常需要处理大量的文件,其中批量复制文件名或批量提取文件名成为一项常见的任务。这不仅可以提高我们的工作效率,还能使文件管理更为有序。本文将介绍五种2024年最新的文件名批量提取工具,帮助你轻松完成文件名批量复制和提取的任务。文件名批量提取复制方法一......
  • 【专题】2024客户端游戏市场营销发展报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=36402原文出处:拓端数据部落公众号报告合集显示,中国客户端游戏市场在2023年创新高,达到662.83亿元,表明精品化和跨端生态趋势对市场的推动作用。报告合集强调客户端游戏的独特优势,如精品内容、视听体验和操作反馈等,促进了市场稳定增长。客户端游戏生......
  • 科研日记3【2024-06-05】
    文献阅读2021年伊朗谢里夫理工大学ZamaniH等人在IEEETAP上的QualityImprovementofMillimeter-WaveImagingSystemsUsingOptimizedDualPolarizedArrays[1]背景:使用极化分集天线,可提高系统的SNR和可靠性;交叉极化和共极化数据分别保留了图像的边缘和平滑部分,利用共极......