首页 > 其他分享 >【2024datawhale 分子AI预测赛笔记】数据挖掘速通Baseline -分类/回归

【2024datawhale 分子AI预测赛笔记】数据挖掘速通Baseline -分类/回归

时间:2024-07-04 22:58:11浏览次数:19  
标签:lightgbm 2024datawhale 降解 AI train 数据挖掘 Dmax DC50 nM

赛题概述

精准预测分子性质有助于高效筛选出具有优异性能的候选药物。以PROTACs为例,它是一种三元复合物由目标蛋白配体、linker、E3连接酶配体组成,靶向降解目标蛋白质。(研究 PROTACs 技术在靶向降解目标蛋白质方面的潜力。)

提醒:需要python和机器学习基础。

赛事任务

根据提供的demo数据集,可以基于demo数据集进行数据增强、自行搜集数据等方式扩充数据集,并自行划分数据。运用深度学习、强化学习或更加优秀人工智能的方法预测PROTACs的降解能力,若DC50>100nM且Dmax<80% ,则视为降解能力较差(demo数据集中Label=0);若DC50<=100nM或Dmax>=80%,则视为降解能力好(demo数据集中Label=1)

机器学习问题通用流程

数据集

数据集包含了多个字段,如uuid(唯一标识符)、Label(降解能力的标签,0表示降解能力较差,1表示降解能力好)、Uniprot、Target、E3
ligase、PDB等,这些都是与PROTACs分子相关的信息。

还包括了降解能力相关的数值指标,如DC50(半数降解浓度)、Dmax(最大降解效率)、IC50(半抑制浓度)、EC50(半有效浓度)等。

还包括了与分子物理化学性质相关的字段,如Molecular Weight(分子量)、Exact Mass(精确质量)、XLogP3(预测的脂水分配系数)等。

参数剖析

  • UUID: 一个唯一的标识符,用于识别数据记录。
  • Label: 可能指的是化合物或数据集的标签或名称。
  • Uniprot: 一个蛋白质数据库,提供关于蛋白质序列、结构和功能的信息。
  • Target: 目标蛋白,即PROTACs设计来降解的特定蛋白质。
  • E3 ligase: E3连接酶,一种在泛素化过程中扮演角色的酶,帮助标记蛋白质以供降解。
  • PDB: 蛋白质数据银行,一个包含蛋白质和核酸结构的数据库。
  • Name: 化合物的名称。
  • Smiles: 一种表示分子结构的字符串格式。
  • DC50 (nM): 半最大降解浓度,即达到最大降解效果一半时的化合物浓度。
  • Dmax (%): 最大降解效率,表示化合物能实现的最大降解效果的百分比。
  • Assay: 实验方法,这里可能指的是用于测定DC50、Dmax等的实验。
  • Percent degradation: 分子降解的百分比。
  • IC50 (nM, Protac to Target): 半最大抑制浓度,针对PROTACs与其目标蛋白的复合物。
  • EC50 (nM, Protac to Target): 半最大有效浓度,即达到一半最大生物效应的浓度。
  • Kd (nM, Protac to Target): 解离常数,表示PROTACs与其目标蛋白复合物的结合强度。
  • Ki (nM, Protac to Target): 抑制常数,用于描述抑制剂与酶的结合强度。
  • delta G, delta H, -T*delta S: 分别表示结合反应的吉布斯自由能变化、焓变和熵变,这些热力学参数用于描述分子间相互作用的能量状态。
  • kon, koff: 分别表示分子结合和解离的速率常数。
  • t1/2 (s, Protac to Target): 半衰期,即分子浓度减少到初始浓度一半所需的时间。
  • Assay (Protac to Target, kon/koff/t1/2): 可能是指测定结合和解离速率常数以及半衰期的实验方法。
  • IC50, EC50, Kd, Ki: 与三元复合物相关的参数,与前面提到的类似,但这里特指三元复合物。
  • delta G, delta H, -T*delta S: 描述三元复合物的热力学参数。
  • kon, koff, t1/2: 描述三元复合物的动力学参数。
  • IC50, EC50, GI50, ED50, GR50: 这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等。
  • PAMPA Papp: 一种评估药物分子在仿生膜上的通透性的方法。
  • Caco-2 A2B/B2A Papp: 使用Caco-2细胞系评估药物分子的肠道吸收能力。
  • Article DOI: 文章的数字对象标识符,用于唯一标识科学文献。
  • Molecular Weight, Exact Mass: 分子量和精确质量。
  • XLogP3: 预测的辛醇/水分配系数,用于预测脂溶性。
  • Heavy Atom Count, Ring Count: 重原子数和环的数量。
  • Hydrogen Bond Acceptor/Donor Count: 氢键受体/供体计数。
  • Rotatable Bond Count: 可旋转键的数量。
  • Topological Polar Surface Area: 拓扑极性表面积。
  • Molecular Formula, InChI, InChI Key: 分子式、国际化学标识符及其密钥。

生物知识参考信息

流程概述

  1. 导入库:首先,导入需要用到的库,包括 pandas(用于数据处理和分析)和 LGBMClassifier(决策树分类器)等。
  2. 读取数据:代码通过使用 pd.read_excel 函数从文件中读取训练集和测试集数据,并将其存储在 traindata-new.xlsx 和 testdata-new.xlsx 两个数据框中。
  3. 特征工程:
    • test数据不包含 DC50 (nM) 和 Dmax (%),将train数据中的 DC50 (nM) 和 Dmax (%)删除。
  4. LGB树模型训练和预测:
    • 创建了一个 LGBMClassifier 的实例,即LGB分类器。
    • 使用 fit 函数对训练集中的特征和目标进行拟合,训练了决策树模型。
    • 对测试集使用已训练的模型进行预测,得到预测结果。
    • 将预测结果和相应的 uuid 组成一个DataFrame,并将其保存到 submit.csv 文件中。

步骤一:下载相关库

!pip install lightgbm openpyxl

Looking in indexes: https://mirror.baidu.com/pypi/simple/, https://mirrors.aliyun.com/pypi/simple/
Collecting lightgbm
Downloading https://mirrors.aliyun.com/pypi/packages/f2/3d/4f152cf694aec100ab63b4a5547f2dbfbea59ab39d9375c89bed9775e47d/lightgbm-4.4.0-py3-none-manylinux_2_28_x86_64.whl (3.6 MB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 3.6/3.6 MB 796.0 kB/s eta 0:00:0000:0100:01
Collecting openpyxl
Downloading https://mirrors.aliyun.com/pypi/packages/30/d0/abcdb0669931be3a98881e6d7851605981693e93a7924061c67d0cd9f292/openpyxl-3.1.4-py2.py3-none-any.whl (251 kB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 251.4/251.4 kB 814.6 kB/s eta 0:00:00a 0:00:01
Requirement already satisfied: numpy>=1.17.0 in /opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages (from lightgbm) (1.26.4)
Requirement already satisfied: scipy in /opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages (from lightgbm) (1.13.1)
Collecting et-xmlfile (from openpyxl)
Downloading https://mirrors.aliyun.com/pypi/packages/96/c2/3dd434b0108730014f1b96fd286040dc3bcb70066346f7e01ec2ac95865f/et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl, lightgbm
Successfully installed et-xmlfile-1.1.0 lightgbm-4.4.0 openpyxl-3.1.4
WARNING: Skipping page https://mirror.baidu.com/pypi/simple/pip/ because the GET request got Content-Type: application/octet-stream. The only supported Content-Types are application/vnd.pypi.simple.v1+json, application/vnd.pypi.simple.v1+html, and text/html

步骤二:训练模型并预测结果

# 1. 导入需要用到的相关库
# 导入 pandas 库,用于数据处理和分析
import pandas as pd
# 导入 numpy 库,用于科学计算和多维数组操作
import numpy as np
# 从 lightgbm 模块中导入 LGBMClassifier 类
from lightgbm import LGBMClassifier


# 2. 读取训练集和测试集
# 使用 read_excel() 函数从文件中读取训练集数据,文件名为 'traindata-new.xlsx'
train = pd.read_excel('./data/data280993/traindata-new.xlsx')
# 使用 read_excel() 函数从文件中读取测试集数据,文件名为 'testdata-new.xlsx'
test = pd.read_excel('./data/data280993/testdata-new.xlsx')

# 3 特征工程
# 3.1 test数据不包含 DC50 (nM) 和 Dmax (%),将train数据中的DC50 (nM) 和 Dmax (%)删除
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=1)

# 3.2 将object类型的数据进行目标编码处理
for col in train.columns[2:]:
    if train[col].dtype == object or test[col].dtype == object:
        train[col] = train[col].isnull()
        test[col] = test[col].isnull()

# 4. 加载决策树模型进行训练
model = LGBMClassifier(verbosity=-1)
model.fit(train.iloc[:, 2:].values, train['Label'])
pred = model.predict(test.iloc[:, 1:].values, )

# 5. 保存结果文件到本地
pd.DataFrame(
    {
        'uuid': test['uuid'],
        'Label': pred
    }
).to_csv('submit.csv', index=None)

步骤三:输出submit.csv文件并提交

进阶调参

标签:lightgbm,2024datawhale,降解,AI,train,数据挖掘,Dmax,DC50,nM
From: https://blog.csdn.net/lmever/article/details/140163642

相关文章

  • 顶级10大AI测试工具
      每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://......
  • 5分钟教你用AI把老照片动起来,别再去花49块9的冤枉钱了
    文章目录需要的工具最近,AI视频在各大平台上,又火了。只是火的形式,变成了将老照片动起来,打情感牌,或者做很多经典电视剧的再整活。直接把可灵的生成时间,从以前的4分钟,生生的干成了20分钟。火的原因,一方面是因为快手可灵的图生视频正式上线,给大家提供了一个工具的......
  • 抖音店铺客服可以对接大模型AI回复吗? 通过AI大模型知识库来回答抖店客服消息
    现在我回答一下这个问题,抖音店铺客服可不可以接AI大模型回复啊?演示网站:gofly.v1kf.com 我在抖音上发布了视频https://www.douyin.com/video/7387754177717390602 这个问题首先,抖音官方店铺对接大模型,抖音官方有没有借口?那肯定是没有借口了,抖音官方没有这个功能。那抖音官......
  • FOODGPT: A LARGE LANGUAGE MODEL IN FOOD TESTING DOMAIN WITH INCREMENTAL PRE-TRAI
    文章目录题目摘要方法题目食品测试的大型语言模型论文地址:https://arxiv.org/abs/2308.10173摘要    目前,特定领域的大型语言模型的构建是通过在基础模型上进行微调来完成的。有些模型还包含知识库,无需预先训练。这是因为基础模型在预训练过程中已经包......
  • 其他OpenAI API和功能
    文章目录嵌入嵌入如何为ML模型翻译语言内容审核模型Whisper和DALL.E    除了文本补全功能,OpenAl用户还可以使用其他一些功能但如果你想深入了解所有API那么请查看OpenAl的APlreference页面。嵌入    由于模型依赖数学函数,因此它需要数值输入......
  • mirai Bot初始化配置
    RT其实本来我的bot已经因为自己手贱登陆qqnt直接报废了,但是论坛里有佬提供了新的协议库,那这不赶紧复活bot都对不起这个新的协议库。本文写于2024年7月4日19:20:21,可能随着时间久远而无法实现功能。由于存在下载障碍,所以这里也搞了个存档,本帖中的相关标星*资源无法下载均可以......
  • 香橙派 AIpro搭建1Panel运维管理面板实现高效直观的设备状态监控
    ......
  • Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛
    HuggingFace全球政策负责人艾琳-索莱曼(IreneSolaiman)将参加7月5日在上海举办的WAIC-前沿人工智能安全和治理论坛,并在现场进行主旨演讲和参加圆桌讨论。具体时间信息如下:主旨演讲:开源治理的国际影响时间|7月5日下午15:35-15:50圆桌讨论:前言人工智能安全国际合作的优先......
  • 基于StableDiffusion3的AI图像生成
        随着人工智能技术的不断进步,图像生成已经成为一个备受关注的领域。StableDiffusion3作为最新一代的图像生成模型,以其卓越的性能和灵活的配置受到了广泛的关注。本文将详细讲解如何配置和使用StableDiffusion3进行AI图像生成。    一、前提条件在开始之前,......
  • 报名参课 | 解锁 Serverless+AI 新模式,拥有专属AIGC环境
    如今,Serverless被越来越多的企业所接受,并应用于业务实践中。科技的每一次进步都在更新着我们的工作模式,除了互联网企业最早“尝鲜”之外,传统企业也在探索大规模使用Serverless。越来越多人迈过了对Serverless技术的初级认知阶段,走向了落地实践。Serverless和AI大模型都是......