摘要
预测目标蛋白质与小分子药物之间的结合亲和力对于加快药物研究和设计过程至关重要。为了实现精确有效的亲和力预测,在药物研发过程中需要使用计算机辅助方法。近十年来,人们开发了多种计算方法,其中深度学习是最常用的方法。我们收集了几种深度学习方法,并将其分为卷积神经网络(CNN)、图神经网络(GNN)和变形器(Transformers)进行分析和讨论。首先,我们对不同的深度学习方法进行了分析,重点关注它们的特征构建和模型架构。我们讨论了每种模型的优缺点。随后,我们在 PDBbind v.2016 核心集上使用四种深度学习方法进行了实验。我们评估了它们在不同亲和力区间的预测能力,并对每个模型的正确和错误预测样本进行了统计和可视化分析。通过可视化分析,我们尝试结合四个模型的优势,与当前最先进的方法相比,预测亲和度的均方根误差(RMSE)提高了 1.6%(绝对值降低到 1.101),皮尔逊相关系数(R)提高了 2.9%(绝对值提高到 0.894)。最后,我们讨论了当前深度学习方法在亲缘预测中面临的挑战,并提出了解决这些问题的潜在方案。
关键词:蛋白质配体亲和力 结合亲和力预测 深度学习 集合模型
1.引言
蛋白质负责生物体内的各种生命活动,人体细胞内的蛋白质多达 30 亿个[1]。然而,蛋白质在体内无法单独工作,必须与其他分子(称为配体)结合[2,3]。这些配体与蛋白质的特定部分(称为蛋白质袋)相互作用,以实现各种生理功能 [4]。在结合过程中,配体不断改变形状,以达到与蛋白质口袋的最佳匹配。亲和力是用来评估蛋白质与配体之间结合强度的一种方法,亲和力越高,表明两者之间的联系越紧密。
蛋白质与配体的相互作用对多种生物过程至关重要,例如抗体-抗原识别[3]、细胞-细胞通讯[5]和信号转导[6]中的相互作用。异常的相互作用可导致多种疾病,因此透彻了解这些相互作用背后的机制对促进新药开发非常重要[7]。然而,药物发现过程复杂且耗时[8],因此有必要开发高效准确的计算方法[9,10]来预测蛋白质与配体之间的亲和力,加速药物发现[11]。
蛋白质与配体的相互作用对多种生物过程至关重要,例如抗体-抗原识别[3]、细胞-细胞通讯[5]和信号转导[6]中的相互作用。异常的相互作用可导致多种疾病,因此透彻了解这些相互作用背后的机制对促进新药开发非常重要[7]。然而,药物发现过程复杂且耗时[8],因此有必要开发高效准确的计算方法[9,10]来预测蛋白质与配体之间的亲和力,加速药物发现[11]。然而,这种方法的过程起初相对复杂。最近出现的深度学习方法不仅在效果上与这种方法不相上下,甚至有过之而无不及,而且在节省时间方面也显示出巨大的优势。
随着深度学习在图像识别和自然语言处理领域的发展,研究人员越来越多地探索其在潜在候选药物识别中的应用,并取得了显著成果。Jiménez 等人[18,19]、Li 等人[20]和 Wang 等人[21]利用三维卷积神经网络[22](3D-CNN)预测蛋白质与配体的结合亲和力,该方法利用了蛋白质和配体的三维结构信息。Nguyen等[23]、Jones等[24]和Jiao等[25]利用图神经网络[26](GNN)完成了蛋白质和配体的亲和力预测,该方法分别考虑了蛋白质的三维结构信息和配体的结构信息。Hu等人[27]采用图注意网络[28](GAT)模型提取蛋白质和配体的二维结构信息,然后应用Transformer[29]模型进一步提取蛋白质的序列信息,力求纳入更多的蛋白质信息。
我们收集了一些预测蛋白质配体亲和性的方法,包括传统方法和深度学习方法。我们发现深度学习方法比传统方法更有效,因此我们将重点介绍流行的深度学习方法,它们可分为三类:卷积神经网络方法、图神经网络方法和变换器方法。我们将首先解释各种深度学习算法所使用的特征构建技术和模型架构,以及它们各自的使用案例。然后,我们将使用 PDBbind 基准数据集比较这些方法的性能。最后,我们将详细分析四种算法,并讨论它们在预测蛋白质配体亲和力方面的各自优势。我们希望通过这些研究,提供有关深度学习方法的进展及其在解决蛋白质配体亲和性预测相关问题方面的有效性的有用信息。
2.深度学习方法分析
目前,最常用于蛋白质配体亲和力预测的深度学习技术可分为三类:卷积神经网络、图神经网络和变形器。这些模型大多将亲和力视为连续值,并将其作为回归任务来处理。我们接下来介绍的模型都是这样的。在本节中,我们将了解这三类方法的特点,考察它们的模型构建过程,并分析它们的应用场景。表 1 列出了相关深度学习方法的摘要。
2.1.基于卷积神经网络的方法
Cang 等人[30]提出了元素特异性持久同源性(ESPH)方法,利用一维拓扑不变式来表示蛋白质和配体的三维空间结构。这种方法有效降低了计算复杂度。随后,他们开发了一种名为 TopologyNet 的多任务、多通道拓扑神经网络,利用融合学习提高模型性能。TopologyNet 的工作原理是将三维结构信息转换为一维表征,这会导致一些信息损失。此外,由于该模型采用一维卷积神经网络进行特征学习,因此与三维网络相比,整个模型框架更为简单。然而,将三维结构压缩到一维往往会导致信息丢失,然后再使用简单的一维卷积神经网络来学习信息不完整的特征,结果可能会更糟。事实上,已经有很多基于三维空间结构输入并通过三维卷积处理的优秀模型。这也意味着,我们可以直接使用三维神经网络来处理空间结构,从而获得更好的结果。
Jimenez 等人[18]首次提出利用三维结构描述符来构建蛋白质和配体的特征。首先,构建一个 16 的三维网格,作为容纳蛋白质和配体的容器。然后以配体坐标的平均值为几何中心点,计算出蛋白质和配体的相对坐标。然后,他们只提取三维网格中具有相对坐标的蛋白质和配体结构(整个配体基本上都在网格中)进行特征构建。对于蛋白质,DeepSite 主要参考 AutoDock4 [32]定义的原子类型。然后,他们融合了周围网格中的原子信息,并通过下式计算出每个原子的贡献率:
其中,r 表示当前原子的体素与其他体素之间的欧氏距离,表示当前原子类型的范德华半径。构建特征后,将其输入深度卷积神经网络(DCNN)进行训练。这种方法利用具有有限特征通道的特征描述符和简单的深度卷积神经网络,从蛋白质配体复合物中提取特征,并最终预测亲和性。
受 DeepSite 的启发,J Jimenez 等人再次提出了 模型[19],如图 1(a)所示。他们调整了 DeepSite 的描述符集,以更好地描述蛋白质和配体,包括 8 个特征通道:它们包括 8 个特征通道:亲水通道、芳香通道、受体通道、供体通道、正离子通道、负离子通道、金属通道和排除体通道。在特征构建过程中,他们构建了一个 24 的三维网格,而不是 16 ,其他特征构建过程与 DeepSite 类似。然后,他们尝试了多种经典卷积神经网络架构,包括 ResNet [33]、VGG [34] 和 SqueezeNet [35]。最终,他们发现 SqueezeNet 模型的架构取得了最佳效果。通过采用改进的特征表示和探索各种经典卷积神经网络架构,他们的目标是涵盖各种可能性。然而,与测试过的经典架构相比,他们的研究并未取得任何重大改进。
Stepniewska-Dziubinska 等人[31]的特征构建过程与 DeepSite 和 KDEEP 类似。他们方法的主要区别在于使用了更大的特征描述子集(19 个描述子)来表示蛋白质和配体中的原子。此外,他们还构建了一个尺寸为 20 的三维网格。如图 1(b)所示,他们定义了一个三层三维卷积神经网络来学习特征,最后通过三个全连接层完成亲和力预测,这就是 Pafnucy。总之,Pafnucy 通过采用额外的特征描述子,纳入了更全面的蛋白质和配体信息,使模型能够更有效地从蛋白质配体复合物中提取关键信息。
Li 等人[20]引入了由 12 个描述符组成的特征表示来构建蛋白质配体特征。在特征构建过程中,他们采用了 32 三维网格来容纳蛋白质配体复合物。蛋白质和配体中每个原子的贡献都是通过与 DeepSite 相同的公式计算得出的。他们从各种轻量级网络架构[36-38]中汲取灵感,提出了一种新颖的轻量级三维卷积神经网络。这种网络架构在不显著增加模型复杂度的情况下提高了预测性能。这些方法深入探讨了各种特征描述符和卷积神经网络在亲缘预测中的作用,从而推动了深度学习在亲缘预测方面的进展。
Wang 等人[21]结合 特征表示方法[19],使用 HTMD [39]中改进的特征描述符来构建特征。为了构建蛋白质特征,研究人员分析了每个原子的物理和化学性质,并相应地将它们分配到特定的通道中。这一过程包括根据原子的属性对原子进行分类,并将其分配到适当的通道。为了构建配体的特征,他们采用了 SMARTS 所定义的原子类型,这是一个用于在化学信息学中指定分子模式的软件包。用于构建配体特征的名为 "特征工厂 "的开源工具包是通过 RDKit [40] 实现的,它可以提取配体中每个原子的化学特征。在整个实验过程中,研究人员还探索了构建三维网格的不同体素尺寸。最终,他们确定 24 的网格大小最适合他们的目的。
在 Wang 的研究中,除了增强特征描述器之外,还提出了一种名为 saCNN(空间注意力 CNN)的新型端到端卷积神经网络架构。如图 1(c)所示,该架构包含空间注意力机制。通过应用注意力机制,该模型可以为不同的体素分配权重,使其更加关注重要的原子对或空间结构。这反过来又使模型能够通过优先处理关键信息来学习更深刻的特征。saCNN 中使用的注意力机制的灵感来自 CBAM [41]。通过将注意力机制整合到三维卷积神经网络中,saCNN 模型不仅改进了现有的特征描述器,还促进了模型内部的学习。
2.2.基于图神经网络的方法
Nguyen 等人[23]以蛋白质序列为文本,用单击向量表达蛋白质的特征。同时,他们利用 RDKit 软件[40]将配体的 SMILES 代码转化为分子图,并提取了 5 条信息作为配体的特征表示。然后,他们分别构建了一维卷积神经网络和图神经网络模型来学习蛋白质和配体的特征,最后将两者的隐层特征连接起来实现亲和力预测。在用图神经网络建立配体模型时,他们尝试了四种不同的模型,包括 GCN [42]、GAT [28]、GIN [43] 和 GAT-GCN 变体。它们分别将配体和蛋白质视为二维分子图和一维序列进行特征学习。虽然用于表示分子化学式的数据格式 SMILES 和用于特征表示的蛋白质序列数据很容易获得,但它们缺乏蛋白质-配体复合物的空间结构信息,这可能会导致模型性能下降,因为蛋白质-配体的相互作用发生在三维空间中。越来越多的工作倾向于处理和学习空间结构,这也在一定程度上表明空间结构信息在亲和力预测中确实发挥着重要作用。
Jones 等人[24]使用三维描述符来表示蛋白质并构建三维空间特征。这一过程与基于卷积的方法相似,但只关注蛋白质的三维特征。配体被视为空间分子图,原子表示为节点,共价键和非共价键表示为边。为便于特征学习,卷积神经网络和图神经网络分别用于处理蛋白质和配体数据。然后将蛋白质和配体的特征进行融合,以交换它们之间的信息。该模型充分利用了蛋白质的三维空间结构信息和配体的二维结构信息,但模型的结构仍然相对简单,而且在配体建模过程中没有加入关注机制,这给模型准确权衡每个原子节点的重要性带来了挑战。
Jiao 等人[25]以图的形式描述了输入的特征。整个配体被视为一个图网络,原子代表节点,化学键作为连接这些节点的边。图网络中的节点特征和边特征由 RDKit 工具构建。节点特征由各种原子属性组成,包括原子类型、度数、化合价、芳香度、形式电荷和自由基电子。而边缘特征则包括键类型、芳香度、共轭度和环信息。在蛋白质方面,根据 Torng 等人的做法[44],采用了类似的方法。蛋白质口袋中的每个残基都被视为一个节点,距离在 11 以内的残基之间建立一条边。节点和边的特征来自 AAindex [45-47],这是一个开源数据库,包含氨基酸的各种理化性质。
随后,Jiao 等人[25]提出了一种边缘门控图神经网络模型,称为 egGNN,将边缘视为门控单元来控制图中节点的流动,如图 1(d)所示。该模型以一种新颖的方式整合了边缘信息,可以学习不同相邻节点的重要性(由不同化学键连接的相同原子的重要性是不同的)。通过利用多头机制,该模型增强了稳定性。此外,与传统图模型相比,gGNN 模型采用了 ReZero 机制,可以训练更深的层。这种机制提高了模型的可扩展性,确保了模型有效处理复杂数据集的能力。eggGNN不仅在特征构建过程中使用了更多的节点特征来描述蛋白质和配体,还提出了一种新的可扩展图神经网络模型框架,以促进边和节点的加权融合。
ReZero,这是一个小型的体系结构添加,它动态地加快优质梯度和任意深层信号的传播。这个想法很简单:ReZero初始化每个层为恒等映射。对于每一层,我们为输入信号x引入一个残差连接和一个用于调节当前网络层输出F(x)的可训练参数α。即:
在开始训练的时候α=0。这使得在网络训练初期,F这个变换函数中所有参数的梯度都会消失(因为乘以0了嘛,xi+1=xi),但在训练的初始阶段会动态地演化到合适的值。我们在图1中演示了体系结构。
2.3.基于转换器的方法
在表征蛋白质时,Hu 等人[27]同时应用了序列信息和二维结构信息,在一定程度上充分学习了蛋白质。同时,他们将配体视为 SMILES,也应用了其二维结构信息。蛋白质和配体的二维特征表示降低了数据稀疏性和计算成本。然后,他们应用转换器对蛋白质序列进行预训练,并将 GAT 模型应用于蛋白质和配体的二维结构,以预测蛋白质-配体的亲和力。他们探讨了不同维度的蛋白质数据对模型的影响,并在蛋白质和配体中应用了注意力机制,使模型更容易找到关键信息。然而,蛋白质和配体的空间结构信息仍然缺乏,存在一定程度的信息损失。
由于蛋白质序列可以很容易地从蛋白质序列数据库中获取,如包含多个子数据库的 UniProt [48],因此将 Transformer 模型应用于蛋白质是合适的。然而,Transformer 训练往往需要大量的计算资源,耗时较长,而且使用蛋白质序列信息会丢失其空间结构信息,使得空间上相邻的原子无法反映在序列中。蛋白质三维结构数据库很少。然而,由于 Alphafold2 的出现[49,50],蛋白质的结构可以被准确而快速地获得。因此,在大量蛋白质结构的基础上,我们可以很容易地使用三维卷积神经网络对蛋白质进行建模,其速度比 Transformer 更快,而且可以完整地保留蛋白质的空间结构信息。在获得蛋白质的三维空间结构信息后,还可以获得蛋白质的二维结构信息,因此可以使用图神经网络进行建模,其速度会比卷积神经网络更快。
3 .结果
本文重点介绍4种深度学习技术:KDEEP [ 19 ]、Pafnucy [ 31 ]、egGNN [ 25 ]和saCNN [ 21 ]。我们进行了实验来比较和对比这些方法,以确定它们各自的优点和缺点。这对于创建成功的预测蛋白-配体结合亲和力的模型至关重要。
3.1.数据集
为了提供存储在蛋白质数据库[51](PDB)中的各类生物分子复合物的实验测定结合亲和力数据,建立了 PDBbind 数据库[52]。该数据库在弥合这些复合物的能量信息和结构信息之间的差距方面发挥了关键作用,使分子识别、药物发现及相关领域的各种计算和统计研究成为可能。PDBbind 数据集提供了这些复合物的能量和结构信息之间的重要联系,有助于分子识别、药物发现等方面的各种计算和统计研究。根据解离度(Kd)、抑制度(Ki)、半浓度(IC50)和分辨率等因素,PDBbind 数据集可分为普通集和精制集,可简单理解为普通质量和高质量。共有 17342 个蛋白质-配体复合物(不包括在 PDBbind 数据集中出现过的复合物)。
3.2.性能和相关性分析
首先,为了探讨各种模型在亲和预测中的性能,我们选择了模型预测值与真实亲和值(标签)之间的皮尔逊相关系数和均方根误差(RMSE)作为衡量指标。我们列出了一些目前具有代表性的方法。如图 2 所示,saCNN 和 egGNN 方法在这两项指标上都名列前茅,分列第一和第二位。同时,KDEEP 和 Pafnucy 也在这两个指标上表现出色。这不仅表明基于三维卷积的 KDEEP 和 Pafnucy 在亲缘预测任务中表现出色,还表明利用空间注意力的 saCNN 和利用图神经网络的 egGNN 确实能进一步提高模型的亲缘预测性能。
其次,为了全面比较四种方法的预测性能,我们为每种方法绘制了相关散点图,如图 3 所示。X 轴代表每种方法产生的预测值,Y 轴代表蛋白质和配体之间的真实亲和值。对角线表示完美预测,即预测值与真实值完全一致。因此,预测值和真实值的分布越接近对角线,说明该方法的预测越准确。经比较,KDEEP 与对角线有明显偏差,而且,当真实亲和值越高时,偏差越明显,表明预测性能越差。Pafnucy 则倾向于更贴近对角线,尽管在真实亲和值相对较低时也会出现一些偏差。此外,从分布的角度来看,当亲和值超过 10 时,KDEEP 和 Pafnucy 的预测值往往较小。这种差异可能是由于这一特定范围的训练数据有限,导致模型在这一区域的学习不完整。至于 egGNN 和 saCNN,与 KDEEP 和 Pafnucy 相比,这两个模型的表现相对较好,它们之间的总体差异并不显著。不过,值得注意的是,当真实亲和值在 4 到 8 的范围内时,saCNN 略占优势。
3.3.不同区间的分析
为了探索每种方法在不同蛋白质配体亲和力范围内的预测能力,亲和力值被分为 2 到 12 之间的五个区间。计算了每种方法的精确度、回收率和 F1 分数,并绘制成图 4 (a)。从图中可以看出,当蛋白质和配体之间的亲和力超过 8 时,egGNN 的表现非常出色。另一方面,KDEEP 在预测这些范围内的亲和力时面临挑战,因此没有出现在图中的相应部分。当亲和力值在 2 到 8 的范围内时,saCNN 方法表现出卓越的性能。此外,当亲和力值超过 10 时,所有模型的召回率都相对较低,这表明很少有方法能准确预测超过这一阈值的蛋白质配体亲和力。然而,它们的精确度仍然相对较高,这表明尽管大多数方法在预测高亲和力相互作用时都很吃力,但在此范围内所作的预测相对可靠。
图 4 (b)收集了每种方法的真阳性和假阳性样本,并用韦恩图表示。从图的左侧可以看出,每种方法的唯一阳性样本数量几乎相同。这表明每种方法都有自己独特的优势和长处,这可能是由于每种方法采用了不同的策略。这些优势在某些样本中尤为明显。从图的右侧可以看出,与 saCNN 和 egGNN 相比,KDEEP 和 Pafnucy 表现出更多的独特假阳性样本。这表明空间注意力和图神经网络在提取蛋白质配体复合物的特征方面具有优势,从而提高了模型的性能和泛化能力。
图 4(a)彰显了每种方法的独特优势,从图 4(a)中我们得到启发,假设将这些方法集合起来,可以在不同类型的样本中得到更可靠的结果。我们认为这四种模型在蛋白质配体结合亲和力预测方面表现出色,而且各有特点。例如,KDEEP 和 Pafnucy 都建立在三维卷积的基础上,但后者使用了更多的特征描述符(19 个描述符)来表示原子。另一方面,saCNN 和 egGNN 分别基于空间注意力和图神经网络构建。它们的结合不仅弥补了彼此在蛋白质配体复合物特征提取方面的不足,还增强了模型的容错性。为了验证这一假设,我们将这四个模型整合为一个名为 4Assemble 的组合模型,并在 PDBbind v.2016 核心集上进行了实验。实验结果如表 2 所示。结果表明,4Assemble 模型的相关系数为 0.894,均方根误差为 1.101,超过了每种单独方法的性能。我们的假设是,正是因为不同模型的融合达到了互补效果,才使得模型具有更强的泛化能力。例如,三维卷积不能很好地考虑全局信息的学习,而空间注意力可以在一定程度上补充三维卷积不能学习全局信息的问题,同时图神经网络可以帮助学习数据的拓扑结构信息。据我们所知,这些结果优于文献中报道的任何现有方法。这些发现证实了我们的假设,即整合多种模型可以充分利用每种方法的优势,从而提高预测性能。值得强调的是,我们在组合过程中给四个模型分配了相同的权重。
3.4.可视化
为了更具体地了解各种方法之间的差异,我们进行了可视化实验,并在图 5 中展示了实验结果。我们选取了每种方法都能较好预测的四个代表性样本,以深入了解蛋白质和配体的结合状态以及小分子的结构特征。每个例子都是根据四个模型预测的亲和值选出的,确保每个模型都有一个表现最好的例子。从图 5(a)中可以看出,KDEEP 在分子结构较小的样本上表现良好。这表明 KDEEP 在预测这类样品的亲和力方面可能具有特殊优势。图 5(b) 显示,Pafnucy 在预测蛋白质和链状结构分子的亲和力方面表现出色。这种亲和力预测能力可能归功于 Pafnucy 所捕捉到的与这类分子结构相关的特定特征。再看图 5(c),很明显,egGNN 对具有多个环的分子表现出更优越的性能。这可能与 egGNN 采用的图模型有关,该模型有助于有效整合分子图中的信息,从而捕捉环状结构的相关特征。最后,图 5(d)描述了分子被包围在蛋白质中的情况。在这种情况下,saCNN 在准确预测结合状态方面优于其他方法。saCNN 的优势可归因于它利用了具有空间注意力的三维卷积网络,从而有效地学习了蛋白质和配体的空间关系和位置信息。值得注意的是,由于图 5 代表了 KDEEP、Pafnucy、saCNN 和 egGNN 的最佳情况,因此 4Assemble 模型的性能可能并非绝对最佳。尽管如此,其性能还是可以接受的,并且表现出了显著的稳定性。
4.讨论
尽管在预测蛋白质配体结合亲和力方面取得了进展,但仍有一些困难需要解决。图 6 显示了每种方法的真实值和预测值的分布,很明显,所有四种方法在亲和力较小或较大的样本上的性能都较弱。这可能是由于在这一范围内缺乏数据,导致模型无法学习具有极端亲和力的样本的相关特征。为了解决这个问题,建议在模型训练过程中重点关注这部分数据。加权或数据增强可用于改善这些样本的学习过程,使模型能更好地捕捉较小或较大亲和值的基本特征。加权或数据增强在 CV 领域取得了巨大成功。例如,谷歌在 2019 年提出的 AutoAugment [53],就是基于对图像进行裁剪、旋转和翻译,并通过相应操作的概率搜索来找到最佳增强策略。包括随后提出的Fast AutoAugment[54]和Population Based Augmentation[55],都在一定程度上加快了AutoAugment的速度,取得了很好的效果。尽管目前在亲缘预测领域还没有通用的加权和增强方法,但我们相信类似的方法迟早会出现,我们也在研究相关的加权和增强方法。通过应对这些挑战并遵循本综述中给出的建议,研究人员可以进一步提高蛋白质配体结合亲和力预测模型的性能。
5.结论
蛋白质-配体结合亲和力预测是加快药物开发过程的关键因素。本文研究了利用深度学习技术预测蛋白质配体亲和力的方法。基于卷积神经网络的模型能够捕捉蛋白质和配体的三维结构信息,而注意力机制的加入则进一步提高了其学习能力。另一方面,基于变形器的模型只能学习蛋白质和配体的序列信息,从而丢失了宝贵的空间信息。图神经网络则善于通过构建简单的图特征来捕捉二维结构信息。本研究测试了四种深度学习方法,发现每种模型在不同的亲和力区间都有明显的优缺点。通过分析每个模型预测正确或错误的复合物,可以进一步了解它们的预测特点。蛋白质-配体结合位点的可视化也有助于阐明每种模型的优势。最后,通过加权整合开发了一个集合模型,结合了所有四个模型的预测结果,显示出更强的结合亲和力预测能力。这种整合方法充分利用了每个单独模型的独特优势,从而提高了预测性能。这项研究有助于理解和应用深度学习方法进行蛋白质配体结合亲和力预测。
标签:配体,卷积,模型,神经网络,亲和力,蛋白质 From: https://blog.csdn.net/m0_67511537/article/details/143759477