pycaret学习之受监督的机器学习-分类

标签：PyCaret set pycaret 分类数据类型 up 学习之受推断

PyCaret 的分类模块是一个监督式机器学习模块，用于将元素分类为组。目标是预测离散和无序的分类类标签。一些常见的用例包括预测客户违约（是或否）、预测客户流失（客户将离开或留下）、发现的疾病（阳性或阴性）。此模块可用于二进制或多类问题。它提供了几个预处理准备数据以进行建模的功能set up功能。它拥有超过 18 种即用型算法和几个情节分析已训练模型的性能。

一、set up

此函数初始化训练环境并创建转换管道。在执行任何其他函数之前，必须调用 Setup 函数。它需要两个必需参数：数据(data)和目标(target)。所有其他参数都是可选的。

from pandas import read_csv
data = read_csv('C:\\Users\86152\pycaret\datasets\diabetes.csv')
data.head()

执行set up时，PyCaret 的推理算法将根据某些属性自动推断所有特征的数据类型。应正确推断数据类型，但情况并非总是如此。为了处理此问题，PyCaret 会在您执行设置后显示一个提示，要求确认数据类型。如果所有数据类型都正确，您可以按 Enter 键，也可以按 quit 键退出安装程序。

确保数据类型正确在 PyCaret 中非常重要，因为它会自动执行多个特定于类型的预处理任务，这对于机器学习模型至关重要。或者，您也可以在set up中使用numeric_features和categorical_features参数

from pycaret.classification import *
s = setup(data, target = 'Class variable')

成功执行set up 后，它将打印包含一些重要信息的信息网格。大多的信息与在set up()执行时构建的预处理管道有关： 1、session_id:一个pseduo随机数，作为所有函数中的种子分发，一提高以后的可重复性，如果未session_id通过，则将自动生成一个随机数，该随机数将分配给所有的功能。在此实验中，将session_id设置2408为以后可重复性； 2、目标类型：二进制或者多类，目标类型将被自动检测和显示，对于二进制或多累问题，实验的执行方式并没有什么不同； 3、标签编码：当目标变量的类型为字符串（即“是”或者“否”）而不是0或者1时，它将自动将标签编码为1和0，并显示对于的映射（0：否，1：是）参考。在此实验中，由于目标变量是数字类型，因此不需要标签编码； 4、原始数据：实现原始数据形状，在此实验中（768，9）表示768给样本和9个特征（包括目标列）； 5、缺失值：当原始数据中存在缺失值是，它将显示为True，对于此实验，数据集中没有缺失值； 6、数字特征：推断为数字的特征数目，在此数据集中，将9个要素中的7个推断为数字； 7、分类特征：推断为分类特征的数量，在此数据集中，将9个要素中的1个推断为分类的； 8、转换训练集：显示转换训练集的形状，（768，9）的原始形状已针对转换后的训练集转换为（537，23），并且由于分类编码，特征数量已由9增加到23； 9、变换的测试集：显示变换的测试\保持集的形状，测试\保持集中有231给样本。
二、比较所有模型

标签：PyCaret,set,pycaret,分类,数据类型,up,学习,之受,推断
From： https://www.cnblogs.com/ruanmh/p/16988488.html

pycaret学习之受监督的机器学习-分类

相关文章

赞助商

阅读排行