首页 > 其他分享 >autoML学习

autoML学习

时间:2023-10-19 20:35:28浏览次数:34  
标签:classification data setup feature 学习 autoML threshold True

使用工具

auto_ml

它主要将机器学习中所有耗时过程自动化,如数据预处理、最佳算法选择、超参数调整等,这样可节约大量时间在建立机器学习模型过程中。

进行自动机器学习

使用的库为pycaret

pycaret——》开源机器学习库

不好用

从数据准备到模型部署 一行代码实现

可以帮助执行端到端机器学习试验 无论是计算缺失值 编码分类数据 实施特征工程 超参数调整还是构建集成模型 都非常方便

使用前新建虚拟环境:

scikit-learn==0.23.2

pycaret跟auto-ts有冲突

根据要解决的问题类型,首先需要导入模块。在 PyCaret 的第一个版本中,有 6 个不同的模块可用 ---> 回归、分类、聚类、自然语言处理 (NLP)、异常检测和关联挖掘规则

我们这次要预测新增用户,所以是一个分类问题,我们引入分类模块

# import the classification module 
from pycaret import classification
# setup the environment 
classification_setup = classification.setup(
   data= data_classification, target='Personal Loan')

设置更多自定义参数

data_amend = exp_mclf101 = setup(
    data= data_classification,
    target='Personal Loan', 
    train_size = 0.80,
    ignore_features = ["session_id",...],
    numeric_features =["Age",...],
    combine_rare_levels= False,
    rare_level_threshold=0.1,
    categorical_imputation = 'mode',
    imputation_type ='simple', 
    feature_interaction = True, 
    feature_ratio= True, 
    interaction_threshold=0.01,
    session_id=123,
    fold_shuffle=True, 
    use_gpu=True,  
    fix_imbalance=True,
    remove_outliers=False,normalize = True,
    transformation = False, 
    transformation_method='quantile',
    feature_selection= True,
    feature_selection_threshold = 0.8, 
    feature_selection_method='boruta',
    remove_multicollinearity = True,
    multicollinearity_threshold=0.8
    normalize_method = 'robust')

在我们使用过程中只需要进行调用函数,函数值接受一个参数,也就是模型缩写

这个表格包含了模型缩写字符串

autoML学习_机器学习

最后,我们将对陌生数据进行预测。为此,我们只需要传递将用于预测的数据集的模型。注意的是,确保它与之前设置环境时提供的格式相同。PyCaret 构建了所有步骤的管道,并将预测数据传递到管道中并输出结果。

通过拜读群内大佬的数据处理过程 得到以下技巧

分组聚合 将x1到x8的数据进行分组聚合 并计算每个分组对于target的均值

猜想 有些特征数值比较大 是否使用正则化

进行时间序列上的处理 将其转化成月 日 小时 分钟 以及是否为周末 一年中的第几周

时间特征实际上并不好用

依然使用决策树进行训练

这样的训练方法使得分数进行了一定的上升,但依旧存在召回率低的问题

标签:classification,data,setup,feature,学习,autoML,threshold,True
From: https://blog.51cto.com/u_16196891/7941982

相关文章

  • 机器学习随笔
    Ttask 任务P performancemeasureP度量系数Eexperience经验监督学习回归与分类问题连续 离散无监督学习没有标签的分类例如新闻分类将相关的新闻都放在一起聚类算法鸡尾酒会问题麦克风中两个声音进行分离代......
  • 《动手学深度学习 Pytorch版》 9.5 机器翻译与数据集
    机器翻译(machinetranslation)指的是将序列从一种语言自动翻译成另一种语言,基于神经网络的方法通常被称为神经机器翻译(neuralmachinetranslation)。importosimporttorchfromd2limporttorchasd2l9.5.1下载和预处理数据集“Tab-delimitedBilingualSentencePairs”......
  • Vue源码学习(十二):列队处理(防抖优化,多次调用,只处理一次)
    好家伙, 本篇讲的是数据更新请求列队处理 1.一些性能问题数据更新的核心方法是watcher.updata方法实际上也就是vm._updata()方法,vm._updata()方法中的patch()方法用于将新的虚拟DOM树与旧的虚拟DOM树进行比较,并将差异更新到实际的DOM树上.这一步是非常消耗性能的 2.......
  • python学习笔记-异步非阻塞web框架
    一、异步非阻塞框架介绍1、介绍支持异步非阻塞web框架:tornado,nodejs2、定义对比异步IO模块:我们作为客户端向服务端“并发”请求异步非阻塞web框架:针对服务端,希望一个线程处理更多的请求二、tornado异步非阻塞【要点提炼】使用装饰器@gen.coroutine模拟等待,使用特殊的......
  • 第一次博客——分享C语言学习
    今天又是在寝室里学习C语言的一天,学校里老师上课有点水,只能自己学习,幸好有比特鹏哥的帮助,C语言水平稳步增长。今天在鹏哥的带领下,学习了选择语句和循环语句。选择语句学习了if结构和switch结构,个人感觉switch结构虽然适用于多分支比较方便,但整型的限制比较大,很多语句后都不能遗忘br......
  • 基于Python的《计算机组成原理》在线学习平台-计算机毕业设计源码+LW文档
    摘 要随着互联网的发展,通过计算机来学习是当前非常流行的一种学习方式。通过课程虽然可以面对面的进行交流和学习,但是很多时候因为地区和空间的限制会受到很多的影响但是通过网络来进行学习可以打破这一局限性,为此我开发了本基于Python的《计算机组成原理》在线学习平台网站本......
  • openGauss学习笔记-104 openGauss 数据库管理-管理数据库安全-客户端接入之SSL证书管
    openGauss学习笔记-104openGauss数据库管理-管理数据库安全-客户端接入之SSL证书管理-证书替换openGauss默认配置了通过openssl生成的安全证书、私钥。并且提供证书替换的接口,方便用户进行证书的替换。104.1操作场景openGauss默认配置了SSL连接所需要的安全的证书、私钥,用户......
  • 加拿大生信开源学习资源Bioinformatics.ca
    之前给大家推荐过教育部首批490门“国家精品在线开放课程”,里面很多跟生物或编程相关的免费经典课程。除了国内这些开放的学习资源外,还有许多国外的免费资源,比如英语写作常见错误和视频中是斯坦福大学老师的授课视频,很经典。如果时间紧张,只看前两节也挺好。今天给大家推荐的是加拿......
  • 课程二第一周:深度学习的实用层面
    深度学习的实用层面Train/Dev/Testsets深度学习是一个典型的高度迭代的过程,需要不断地进行循环测试,来找到最适合当前网络的超参。一方面可以提升迭代的效率,另一方面可以避免过度拟合等问题。在实践中,(合理的)高质量训练集、验证集和测试集,有助于提升迭代的效率。Train/Dev/Test......
  • C语言的学习之初识C语言_5
    什么是语句?C语句可以分为五类:1.表达式语句2.函数调用语句3.控制语句4.复合语句5.空语句控制语句:其中控制语句是用于控制程序的执行流程,实现程序的各种结构方式,由特定的语句定义符组成,C语言有九种控制语句。可以分为以下三类:1.条件判断语句,也叫分支语句:【if、switch】2.循环执行语句......