首页 > 其他分享 >2021年华为杯数学建模竞赛D题论文和代码

2021年华为杯数学建模竞赛D题论文和代码

时间:2024-10-13 23:46:36浏览次数:9  
标签:分子 特征 模型 华为 建模 描述符 化合物 2021 筛选

 抗乳腺癌候选药物的优化建模

乳腺癌是女性癌症高发性恶性肿瘤,近年来发病率和死亡率逐年上升,严重危害了女

性健康。如何使用数学模型辅助专家高效研发抗乳腺癌药物具有重要意义。本文通过构建化合物的定量结构-活性关系(QSAR)模型来筛选潜在活性化合物,使其不仅具有较好的生物活性,同时在人体内具备良好的药代动力学性质和安全性。具体做法如下:

对问题1,为了筛选出1974个化合物的729个分子描述符中对生物活性影响最显著的前 20 个变量,建立了分步集成筛选模型,首先对所有分子描述符利用方差信息分别对整型变量和浮点型变量进行无关特征过滤,剩余341维特征;接着,使用相关性系数分步对描述符类内与类间的冗余特征过滤,得到137维特征;然后采用集成式特征筛选模型选出重要性排名前 20 名的分子描述符。具体来说,集成式筛选模型分别选用了过滤式特征筛选中的Spearman系数法,距离相关系数法和嵌入式特征筛选中的随机森林法和弹性网络法,将四种方法给出的特征重要性集成并排序,选择出排名前 20 名的分子描述符;最后,对选出的显著变量使用 Spearman 系数进行独立性验证,并将集成特征筛选法与各个特征筛选法得出主要变量送入主流机器学习预测方法中对比回归性能,验证了筛选出的20个变量的代表性,证明了分步集成特征筛选模型的有效性与优势。

          对问题2,题目要求在选择不超过20个分子描述符变量的前提下,构建化合物的生物活性定量预测模型。此题为问题一的延申,我们选取了问题一中得出的 20 个特征作为化合物生物活性定量预测模型的输入,                                                    生物活性值作为模型的预测目标。首先,我

们观察了题目给出的训练集与测试集的原始分布;接着构建了基于Stacking的集成学习预测模型和基于深度森林(Deep Forest)的预测模型,并使用TPE方法对模型参数调优;最后,通过详细的对比实验验证了Deep Forest模型不仅更高的预测性能,而且训练时间更短,最终选取深度森林预测模型作为化合物的生物活性定量预测模型,并对测试集中 50 种化

合物的

值进行预测。

对问题3, 根据化合物的729个分子描述符,对化合物ADMET的5个性质(Caco-2、CYP3A4、hERG、HOB、MN)分别进行二分类预测。本题没有限制特征的数量,基于对模型简单、通用、特征提取能力强大的考量,构建了基于原型网络的小样本学习分类模型。首先,对样本中的ADMET性质进行数据分析,发现了化合物ADMET性质中的CYP3A4, HOB,  MN 存在明显的类别不平衡现象,为此,采用 Borderline-SMOTE 过采样算法进行处理;接着,考虑到神经网络强大的非线性特征提取能力,将其作为原型网络的嵌入函数,

自动提取特征并利用反向传播算法拟合嵌入函数的参数空间;本问选取了第一问中剔除了类内类间冗余特征的137个变量作为原型网络的输入特征,对模型训练并可视化优化过程

1

与分类结果,并对测试集中 50 个化合物的 ADMET 性质进行预测。 最后,使用 MIV 法得出本题建立的原型网络对137个自变量的特征重要性排序,并分别计算出影响每个原型网络分类器的前20个显著特征。

          对问题4,为了寻找化合物的哪些分子描述符对抑制ERα具有更好的生物活性且使得化合物具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好),

建立了基于初始值优化的粒子群算法的多目标混合整数规划模型,将化合物的                                                                                                         值和

ADMET 性质作为组合优化目标,一共选取了 137 个分子描述符作为模型的决策变量,由于决策变量的取值范围难以通过专家经验确定,所以选取了 1974 个样本中分子描述符的最大取值和最小取值作为决策变量的取值范围,并且对137个分子描述符中整型变量进行整型约束。由于搜索空间较大,所以对粒子群算法进行了优化,对初始值的选取融合了专

家经验,最后得出23个分子描述符对化合物的                                                                                                         值影响较大,并给出了它们的取值或

取值范围,同时证明了改进粒子群算法的有效性。

最后我们将问题4优化模型得出的23个分子描述符、问题2预测模型采用的20个分子描述符和问题 3 中原型网络分类模型得出的 61 个分子描述符之间进行了重叠性分析并绘制了维恩图,发现有部分分子描述符之间存在交集,且MDEC-23SaasCC3SP2这三个分子描述符在四个问题中均出现,这直接证明了其对化合物性质影响较大,并侧面说明了问题1,2,3,4模型的有效性。

关键词:QSAR,分步集成筛选模型,深度森林(Deep Forest),原型网络,粒子群优化

标签:分子,特征,模型,华为,建模,描述符,化合物,2021,筛选
From: https://blog.csdn.net/2401_82505179/article/details/142906863

相关文章

  • 2021年华为杯数学建模竞赛E题论文和代码
     草原放牧策略研究本文研究了多因素影响下的草原生态环境演化与放牧策略的关系,通过机理分析分别构建了放牧策略对土壤湿度、植被生物量、土壤化学性质影响模型,以此为基础得到了未来土壤湿度和土壤化学物质含量的预测值,并通过分析得到能够实现可持续发展的最优放牧策略和不......
  • 小北的技术博客:探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试
    前言    哈喽哈喽,这里是zyll~,北浊.(大家可以亲切的呼唤我叫小北)智慧龙阁的创始人,一个在大数据和全站领域不断深耕的技术创作者。今天,我想和大家分享一些关于华为昇腾CANN训练营以及AI技术创新的最新资讯和实践经验~(初级证书还没拿到的小伙伴,可以先参考小北的这篇技术博......
  • 图像文本对比模型实践——CLIP——2021
    图像文本对比模型实践——CLIP——20211.论文启发点详细内容(文+图)clip原理的极简版:用图像编码器把图像编码成向量a;用文本编码器把文本编码成向量b;计算a·b,如果a和b来自一对儿配对的图和文字,则让a·b向1靠近;如果a和b来自不配对儿的图和文字,则让a·b向......
  • 未发表的原创模型!三类典型需求响应负荷的标准化建模+共享储能提升灵活性(Matlab代码实
      ......
  • YOLOv9分割改进 ,YOLOv9分割改进主干网络为华为EfficientNet,助力涨点
    YOLOv9分割改进前训练结果:YOLOv9分割改进后训练结果:摘要卷积神经网络(ConvNets)通常在固定的资源预算下开发,然后在有更多资源时进行扩展以提高准确性。在本文中,我们系统地研究了模型扩展,并发现仔细平衡网络深度、宽度和分辨率可以带来更好的性能。基于这一观察,提出......
  • 2021年华为杯数学建模竞赛C题论文和代码
    基于神经元Hodgkin-Huxley模型的脑深部电刺激治疗帕金森病的建模研究帕金森病作为一种全球常见的精神退行性疾病,日趋成为中老年人正常生活的一大威胁。目前缓解帕金森病症状的治疗方法主要有三种:药物治疗、手术治疗和脑深度刺激。脑深度刺激作为一种副作用小、安全性高的新方......
  • 2021年华为杯数学建模竞赛D题论文和代码
    抗乳腺癌候选药物的优化建模在研发治疗乳腺癌药物的过程中,能拮抗ERα活性的化合物是治疗乳腺癌的重要候选药物,同时也要考虑到化合物在人体内具备良好的药代动力学性质和安全性(ADMET性质),如果吸收性能、代谢速度、毒副作用等性质不佳,依然很难成为药物。本文对给定的1974个化......
  • 八个案例教程带你从0到1入门blender教程 学习笔记 案例1-建模
    一、学习Blender的教程链接案例1:萌三兄弟_建模_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Bt4y1E7qn/?p=5&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=d0ea58f1127eed138a4ba5421c577eb1二、开始制作小黄人并学习blender基础知......
  • 华为交换机配置-GARP配置
    一.GARP1.前置知识GARP是一种通用属性注册协议,包括GVRP和GMRP两种应用,其中GVRP类似于思科的VTP协议2.注册模式1.Normal模式:允许此端口动态注册,注销vlan,传播动态vlan和静态vlan的信息。最常用的模式2.Fixed模式:禁止此端口动态注册、注销vlan,只传播静态VLAN的信息3.Forbidden......
  • 2013年国赛高教杯数学建模A题车道被占用对城市道路通行能力的影响解题全过程文档及程
    2013年国赛高教杯数学建模A题车道被占用对城市道路通行能力的影响  车道被占用是指因交通事故、路边停车、占道施工等因素,导致车道或道路横断面通行能力在单位时间内降低的现象。由于城市道路具有交通流密度大、连续性强等特点,一条车道被占用,也可能降低路段所有车道的......