PyCaret 的分类模块是一个监督式机器学习模块,用于将元素分类为组。目标是预测离散和无序的分类类标签。一些常见的用例包括预测客户违约(是或否)、预测客户流失(客户将离开或留下)、发现的疾病(阳性或阴性)。此模块可用于二进制或多类问题。它提供了几个预处理准备数据以进行建模的功能set up功能。它拥有超过 18 种即用型算法和几个情节分析已训练模型的性能。
一、set up
此函数初始化训练环境并创建转换管道。在执行任何其他函数之前,必须调用 Setup 函数。它需要两个必需参数:数据(data)和
目标(target)
。所有其他参数都是可选的。
from pandas import read_csv data = read_csv('C:\\Users\86152\pycaret\datasets\diabetes.csv') data.head()
执行set up
时 ,PyCaret 的推理算法将根据某些属性自动推断所有特征的数据类型。应正确推断数据类型,但情况并非总是如此。为了处理此问题,PyCaret 会在您执行设置后显示一个提示,要求确认数据类型。如果所有数据类型都正确,您可以按 Enter 键,也可以按 quit 键退出
安装程序。
numeric_features
和categorical_features
参数
from pycaret.classification import * s = setup(data, target = 'Class variable')
成功执行set up 后,它将打印包含一些重要信息的信息网格。大多的信息与在set up()执行时构建的预处理管道有关: 1、session_id:一个pseduo随机数,作为所有函数中的种子分发,一提高以后的可重复性,如果未session_id通过,则将自动生成一个随机数, 该随机数将分配给所有的功能。在此实验中,将session_id设置2408为以后可重复性; 2、目标类型:二进制或者多类,目标类型将被自动检测和显示,对于二进制或多累问题,实验的执行方式并没有什么不同; 3、标签编码:当目标变量的类型为字符串(即“是”或者“否”)而不是0或者1时,它将自动将标签编码为1和0,并显示对于的映射(0:否,1:是)参考。 在此实验中,由于目标变量是数字类型,因此不需要标签编码; 4、原始数据:实现原始数据形状,在此实验中(768,9)表示768给样本和9个特征(包括目标列); 5、缺失值:当原始数据中存在缺失值是,它将显示为True,对于此实验,数据集中没有缺失值; 6、数字特征:推断为数字的特征数目,在此数据集中,将9个要素中的7个推断为数字; 7、分类特征:推断为分类特征的数量,在此数据集中,将9个要素中的1个推断为分类的; 8、转换训练集:显示转换训练集的形状,(768,9)的原始形状已针对转换后的训练集转换为(537,23),并且由于分类编码,特征数量 已由9增加到23; 9、变换的测试集:显示变换的测试\保持集的形状,测试\保持集中有231给样本。
二、比较所有模型 标签:PyCaret,set,pycaret,分类,数据类型,up,学习,之受,推断 From: https://www.cnblogs.com/ruanmh/p/16988488.html