抗乳腺癌候选药物的优化建模
乳腺癌是女性癌症高发性恶性肿瘤,近年来发病率和死亡率逐年上升,严重危害了女
性健康。如何使用数学模型辅助专家高效研发抗乳腺癌药物具有重要意义。本文通过构建化合物的定量结构-活性关系(QSAR)模型来筛选潜在活性化合物,使其不仅具有较好的生物活性,同时在人体内具备良好的药代动力学性质和安全性。具体做法如下:
针对问题1,为了筛选出1974个化合物的729个分子描述符中对生物活性影响最显著的前 20 个变量,建立了分步集成筛选模型,首先对所有分子描述符利用方差信息分别对整型变量和浮点型变量进行无关特征过滤,剩余341维特征;接着,使用相关性系数分步对描述符类内与类间的冗余特征过滤,得到137维特征;然后采用集成式特征筛选模型选出重要性排名前 20 名的分子描述符。具体来说,集成式筛选模型分别选用了过滤式特征筛选中的Spearman系数法,距离相关系数法和嵌入式特征筛选中的随机森林法和弹性网络法,将四种方法给出的特征重要性集成并排序,选择出排名前 20 名的分子描述符;最后,对选出的显著变量使用 Spearman 系数进行独立性验证,并将集成特征筛选法与各个特征筛选法得出主要变量送入主流机器学习预测方法中对比回归性能,验证了筛选出的20个变量的代表性,证明了分步集成特征筛选模型的有效性与优势。
针对问题2,题目要求在选择不超过20个分子描述符变量的前提下,构建化合物的生物活性定量预测模型。此题为问题一的延申,我们选取了问题一中得出的 20 个特征作为化合物生物活性定量预测模型的输入, 生物活性值作为模型的预测目标。首先,我
们观察了题目给出的训练集与测试集的原始分布;接着构建了基于Stacking的集成学习预测模型和基于深度森林(Deep Forest)的预测模型,并使用TPE方法对模型参数调优;最后,通过详细的对比实验验证了Deep Forest模型不仅更高的预测性能,而且训练时间更短,最终选取深度森林预测模型作为化合物的生物活性定量预测模型,并对测试集中 50 种化
合物的 | 和 | 值进行预测。 |
针对问题3, 根据化合物的729个分子描述符,对化合物ADMET的5个性质(Caco-2、CYP3A4、hERG、HOB、MN)分别进行二分类预测。本题没有限制特征的数量,基于对模型简单、通用、特征提取能力强大的考量,构建了基于原型网络的小样本学习分类模型。首先,对样本中的ADMET性质进行数据分析,发现了化合物ADMET性质中的CYP3A4, HOB, MN 存在明显的类别不平衡现象,为此,采用 Borderline-SMOTE 过采样算法进行处理;接着,考虑到神经网络强大的非线性特征提取能力,将其作为原型网络的嵌入函数,
自动提取特征并利用反向传播算法拟合嵌入函数的参数空间;本问选取了第一问中剔除了类内类间冗余特征的137个变量作为原型网络的输入特征,对模型训练并可视化优化过程
1
与分类结果,并对测试集中 50 个化合物的 ADMET 性质进行预测。 最后,使用 MIV 算法得出本题建立的原型网络对137个自变量的特征重要性排序,并分别计算出影响每个原型网络分类器的前20个显著特征。
针对问题4,为了寻找化合物的哪些分子描述符对抑制ERα具有更好的生物活性且使得化合物具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好),
建立了基于初始值优化的粒子群算法的多目标混合整数规划模型,将化合物的 值和
ADMET 性质作为组合优化目标,一共选取了 137 个分子描述符作为模型的决策变量,由于决策变量的取值范围难以通过专家经验确定,所以选取了 1974 个样本中分子描述符的最大取值和最小取值作为决策变量的取值范围,并且对137个分子描述符中整型变量进行整型约束。由于搜索空间较大,所以对粒子群算法进行了优化,对初始值的选取融合了专
家经验,最后得出23个分子描述符对化合物的 值影响较大,并给出了它们的取值或
取值范围,同时证明了改进粒子群算法的有效性。
最后我们将问题4优化模型得出的23个分子描述符、问题2预测模型采用的20个分子描述符和问题 3 中原型网络分类模型得出的 61 个分子描述符之间进行了重叠性分析并绘制了维恩图,发现有部分分子描述符之间存在交集,且MDEC-23、SaasC和C3SP2这三个分子描述符在四个问题中均出现,这直接证明了其对化合物性质影响较大,并侧面说明了问题1,2,3,4模型的有效性。
关键词:QSAR,分步集成筛选模型,深度森林(Deep Forest),原型网络,粒子群优化
标签:分子,特征,模型,华为,建模,描述符,化合物,2021,筛选 From: https://blog.csdn.net/2401_82505179/article/details/142906863