DataWhale AI夏令营 AI+化学 task1

时间：2024-07-26 12:59:57浏览次数：19

标签：Reactant1 task1 Additive AI scikit DataWhale learn Solvent model

导入库

首先，代码导入了需要用到的库，包括 pandas（用于数据处理和分析），scikit-learn（机器学习库），rdkit（化学信息工具）。

读取数据

代码通过使用 pd.read_csv 函数从文件中读取训练集和测试集数据。

使用Morgan分子指纹建模SMILES

此步先要完成特征提取，具体来说，有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。其中：

rxnid 对数据的id标识，无实际意义
Reactant1 反应物1
Reactant2 反应物2
Product 产物
Additive 添加剂（包括催化剂catalyst等辅助反应物合成但是不对产物贡献原子的部分）
Solvent 溶剂
Yield 产率其中Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。

这个过程需要调用rdkit的相关模块。然后将Reactant1,Reactant2,Product,Additive,Solvent字段的向量拼接到一起，组成一个更长的向量。

Rdkit：化学信息学中主要的工具，开源。网址：http://www.rdkit.org，支持WIN\MAC\Linux，可以被python、Java、C调用。几乎所有的与化学信息学相关的内容都可以在上面找到。

使用随机森林预测结果

这里直接调用sklearn的RandomForestRegressor模块实例化一个随机森林模型，并对n_estimators等重要参数进行指定。最后使用model.fit(x, y)训练模型。模型保存在本地'./random_forest_model.pkl'。

sklearn (scikit-learn)

是一个非常广泛使用的开源机器学习库，基于Python，建立在NumPy、SciPy、Pandas和Matplotlib等数据处理和分析的库之上。
它涵盖了几乎所有主流机器学习算法，包括分类、回归、聚类、降维等。API设计亲民，整个使用简单易上手，非常适合作为机器学习入门的工具。官网：scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation

在sklearn中，几乎所有的机器学习的流程是：

实例化模型（并指定重要参数）；
model.fit(x, y) 训练模型；

适当增加决策树的数量可以提高结果分数同时保证运行时间不过长

加载模型进行预测，并将保存结果文件到本地

pkl文件直接使用pickle.load()加载，然后使用model.predict(x)进行预测。预测的结果保存为比赛官方指定的文件格式。

最后得到分数

标签：Reactant1,task1,Additive,AI,scikit,DataWhale,learn,Solvent,model
From： https://blog.csdn.net/l9999990/article/details/140712443

若依ruoyi+AI项目二次开发
//-------------------------//定义口味名称和口味列表静态数据constdishFlavorListSelect=ref([ {name:"辣度",value:["不辣","微辣","中辣","重辣"]}, {name:"忌口",value:["不要葱","不要蒜","不要香菜",&quo......
Selenium WebDriverWait 无法检测用于使用 Selenium 提交嵌入式视频答案的表单元素
我一直在使用Selenium编写一个机器人来自动化学校强迫我做的系列教程。在本教程中，有一个视频在中途提示用户填写表格和一些问题。我一直在尝试使用此代码在视频播放时等待，直到表单可见WebDriverWait(driver,1000).until(EC.presence_of_element_located((B......
【题解】「CSP模拟赛」雨天 rain
雨天rain考场上打了一个动态开点线段树，但是被卡空间了......
中电金信：基于AI的智能化国内信用证结算系统
2023年《商业银行资本管理办法》正式稿中，明确规定了国内信用证的信用转换系数：与贸易直接相关的短期或有项目，其信用转换系数为20%；而基于服务贸易的国内信用证，其系数为50%。这一新规定对货物贸易和服务贸易背景下的国内信用证进行了差异化处理，通过设定不同的信用转换系数，鼓励......
使用RAG-GPT快速搭建LangChain官网智能客服
引言随着GPT等大型语言模型（LLM）能力越来越强大，如何将这些模型精准地应用于特定垂直领域，让各行业开发者快速利用LLM赋能也成为热点和痛点。众所周知，LLM在处理超出其训练数据或涉及最新实事时，常会产生“幻觉”现象，简单理解就是会出现一本正经的胡说八道，回答不准确。针对此问题......
网易Airtest私有云新增成员：主板机箱重磅出击
此文章来源于项目官方公众号：“AirtestProject”版权声明：允许转载，但转载必须保留原链接；请勿用作商业或者非法用途一、问题背景在小规模测试环境中，如项目初期开发、低成本持续测试或固定场景测试，直接采购真机将带来较高的成本，同时还需考虑维护和维修问题，如电池膨胀、屏幕破损等......
AI大模型的革命：解析全球主流AI大模型及其对比分析
在人工智能领域，AI大模型的发展正在改变我们的世界。无论是自然语言处理、图像识别，还是自动驾驶和医疗诊断，AI大模型都展示出其强大的潜力和广泛的应用前景。本文将介绍当前世界上主流的AI大模型，并对各个模型做详细介绍和横向对比，深入探讨这些模型的特点、优势以及应用领域。......
怎样通过小红书AI绘画赚钱？AI艺术创收日入2900
今年最热门的技术莫过于人工智能（AI），公认最强通用大模型为ChatGpt。此外，许多面向垂直领域的AI也相继问世，如绘画AIMidjourney、PPT制作AITome以及写作AINotion等。随着AI热潮的不断高涨，AI生成文本、图片、视频的应用遍地开花。门槛不高、花样颇多的小红书，成了AI刷脸的“集......
为什么我在 Windows 上使用 async 和 wait 时会收到 NotImplementedError 错误？
我有这段代码：importosimporttimeimportasyncioasyncdefrun_command(*args):"""Examplefrom:http://asyncio.readthedocs.io/en/latest/subprocess.html"""#Createsubprocessprocess=awaitasyn......
8个工位仅1人在岗？人员在岗离岗检测算法：AI赋能企业安全管理
近日有网友发视频称，某单位上班时间，8个工位，却只有一名工作人员在岗，此事引起广大网友的热议。随着科技的飞速发展，人工智能（AI）和机器学习技术已经深入到我们生活和工作的方方面面。在企业管理、工厂生产、安全监控等领域，人员在岗离岗检测算法的应用尤为突出，极大地提高了工作效率和安......