期刊:Bioinformatics
中科院分区:1Q
影像因子:6.937
一、摘要
动机:表征药物-蛋白质相互作用对于药物发现的高通量筛选至关重要。基于深度学习的方法引起了人们的关注,因为它们无需人工试错即可预测药物蛋白质相互作用。然而,由于数据标记需要大量资源,可用的蛋白质数据量相对较小,从而降低了模型性能。在这里,我们提出了两种方法来构建深度学习框架,该框架在带有小标记数据集的情况下表现出卓越的性能。
结果:首先,我们使用迁移学习来编码蛋白质序列和预训练模型,该模型以无监督的方式训练一般序列表示。其次,我们使用贝叶斯神经网络通过估计数据的不确定性来制作稳健的模型。我们得到的模型在预测分子和蛋白质之间的相互作用方面比以前的基线表现更好。我们还表明,贝叶斯推理的量化不确定性与置信度有关,可用于筛选 DPI 数据点。
二、数据集与方法
数据集:BindingDB 数据集 、人类数据集 和秀丽隐杆线虫数据集
BindingDB 数据集:包含位点-C50、EC50 和 Ki 正样本:39747、负样本:31218
Human and C. elegans:训练集包含 28,240 个正交互和 21,915 个负交互。验证集包括 2,831 个正交互和 2,776 个负交互。测试集包含 2,706 个正交互和 2,802 个负交互。分成4个子集。
平衡和不平衡数据集,其中正负样本的比例分别为 1:1 和 1:3。人类数据集包含 1,052 种独特分子和 852 种独特蛋白质之间的 3,369 次正相互作用; C. elegans 数据集包含 1,434 个独特分子和 2,504 个独特蛋白质之间的 4,000 个正相互作用。此外,我们使用 80%/10%/10% 的训练/验证/测试随机拆分和五重交叉验证策略。
方法-模型构建
输入数据是一对由蛋白质序列和药物 SMILES 字符串组成的字符串。输入数据通过嵌入层被编码为一对表示向量。然后将这些蛋白质和药物表示向量连接起来并通过完全连接的层,从而对相互作用进行二元预测。在每个训练周期中,将该预测与基本事实进行比较,并使用反向传播算法调整模型参数以减少两者之间的差异。为了实现 BNN,我们在除了预训练层、连接层和最终的全连接层之外的每一层都应用了 dropout 层。如图:
编辑
方法-特征提取
无监督方式进行训练,使用注意力机制转换架构,建立了三个模型:Trans6、Trans12 和 Trans34
它们分别用 6、12 和 34 个变压器层进行了预训练。
药物特征提取:输入的SMILES字符串构建了一个相应的分子图,采用图交互网络模型。
具体步骤:使用 Pytorch 1.5.1 (Paszke et al. (2019)) 实现我们提出的模型。训练过程使用 Adam 优化器(Kingma 和 Ba (2014))在所有数据集上最多进行 200 个 epoch,学习率为 0.001,batch size 为 32。GraphNet 在分子特征提取器和 MLP 中的隐藏层维度在分类器中分别是 256 和 512。蛋白质和药物特征提取器的层数均设置为 3。L2 正则化系数为 0.001。这些超参数在广泛的范围内被搜索
三、结论
在这项研究中,我们提出了一种新的贝叶斯深度学习框架,该框架具有预训练的蛋白质序列模型来预测药物-蛋白质相互作用。对三个公共数据集的实验表明,我们提出的模型始终如一地输出提高的预测精度。我们对模型性能的估计表明,贝叶斯神经网络对加性噪声具有高度鲁棒性,这解释了所提出模型的卓越性能。此外,根据我们模型输出的预测不确定性,可以评估置信水平,然后可以将其用于筛选数据集以查找不可靠的数据点。