pycaret学习之关联规则挖掘

时间：2022-12-19 12:03:07浏览次数：42

标签：pycaret 规则关联忽略 model2 挖掘 model data

关联规则学习是一种基于规则的机器学习方法，用于发现大型数据库中变量之间的有趣关系。它旨在使用一些有趣的度量来识别数据库中发现的强规则。例如，在超市销售数据中找到的规则{洋葱，土豆} --> {汉堡}将表明，如果客户一起购买洋葱和土豆，他们很可能也会购买汉堡。此类信息可用作营销活动决策的基础，例如促销定价或产品植入。

PyCaret 的关联规则模块是一个监督式机器学习模块，用于发现数据集中变量之间的有趣关系。此模块自动将任何事务数据库转换为先验算法可接受的形状。Apriori 是一种对关系数据库进行频繁项目集挖掘和关联规则学习的算法。

三个判断准则：支持度（support）、置信度（confident）、提升度（lift）。

一、获取数据

from pandas import read_csv
data = read_csv('C:\\Users\86152\pycaret\datasets\France.csv')
data.head()

二、设置（set up()）

setup()函数初始化 PyCaret 中的环境，并将事务数据集转换为 Apriori 算法可接受的形状。它需要三个必需参数：pandas dataframe，这是表示事务 ID 的列的名称，将用于透视矩阵;这是用于创建规则的列的名称。通常，这将是感兴趣的变量。您还可以传递可选参数以忽略某些值以创建规则.

from pycaret.arules import *
exp_arul101 = setup(data = data, 
                    transaction_id = 'InvoiceNo',
                    item_id = 'Description')

成功执行设置后，它将打印包含少量重要信息的信息网格：

# Transactions：数据集中唯一的事务数。在这种情况下，唯一的.InvoiceNo
# Items ：数据集中的唯一项数。在这种情况下.Description
Ignore Items ：规则挖掘中要忽略的项目。很多时候，有些关系太明显了，你可能想忽略它们来进行这种分析。例如：许多事务数据集将包含运输成本，这是非常明显的关系，在使用参数时可以忽略。在本教程中，我们将运行两次，第一次不忽略任何项目，然后忽略项目。

三、创建模型

创建关联规则模型非常简单。不需要强制参数。它有4个可选参数，如下所示：create_model()

metric：用于评估规则是否感兴趣的指标。默认值设置为置信度。其他可用的指标包括“支持”、“提升”、“杠杆”、“信念”。
threshold：评估指标的最小阈值，通过参数确定候选规则是否感兴趣。
min_support：介于 0 和 1 之间的浮点数，表示对返回的项集的最小支持。支撑计算为分数。
round：分数网格中的小数位数指标将四舍五入。

让我们创建一个包含所有默认值的关联规则模型。

model1 = create_model()
print(model1.shape)
model1.head()

在上面创建的中，POSTAGE规则非常明显。在下面的示例中，我们将使用种的参数忽略数据集并重新创建关联规则模型。

exp_arul101 = setup(data = data, 
                    transaction_id = 'InvoiceNo',
                    item_id = 'Description',
                    ignore_items = ['POSTAGE'])

model2 = create_model()
print(model2.shape)
model2.head()

四、绘制模型

plot_model(model2)

plot_model(model2, plot = '3d')

标签：pycaret,规则,关联,忽略,model2,挖掘,model,data
From： https://www.cnblogs.com/ruanmh/p/16991805.html

pycaret学习之异常检测
异常检测是识别与大多数数据明显不同的稀有物品、事件或观察结果的任务。通常，异常项目会转化为某种问题，例如银行欺诈、结构缺陷、医疗问题或文本中的错误。存在三大类异常......
pycaret学习之无监督学习-聚类
聚类分析是将一组对象分组的任务，使同一组（称为聚类）中的对象彼此之间比其他组中的对象更相似。它是一种探索性数据挖掘活动，也是用于许多领域的统计数据分析的常用技术，包括机......
pycaret学习之受监督学习的机器学习-回归
回归回归分析是一组统计过程，用于估计因变量（通常称为“结果变量”或“目标”）与一个或多个自变量（通常称为“特征”、“预测变量”或“协变量”）之间的关系。机器学习回归的目......
SQL Server聚类数据挖掘信用卡客户可视化分析
全文链接：http://tecdat.cn/?p=30925原文出处：拓端数据部落公众号近年来商业银行利用先进数据挖掘技术对信用卡客户进行分类,区分不同的客户群体,然后针对不同客户群体,采......
精华推荐 | 【深入浅出RocketMQ原理及实战】「性能原理挖掘系列」透彻剖析贯穿RocketM
什么是事务消息事务消息（TransactionalMessage）是指应用本地事务和发送消息操作可以被定义到全局事务中，要么同时成功，要么同时失败。RocketMQ的事务消息提供类似X/OpenXA......
精华推荐 | 【深入浅出RocketMQ原理及实战】「性能原理挖掘系列」透彻剖析贯穿RocketM
名言警句任何先进的技术均与魔法无异追本溯源【经历了6个月的失踪，我将带着干货终究归来！【RocketMQ入门到精通】】什么是事务消息事务消息（TransactionalMessage）是指......
pycaret学习之受监督的机器学习-分类
PyCaret的分类模块是一个监督式机器学习模块，用于将元素分类为组。目标是预测离散和无序的分类类标签。一些常见的用例包括预测客户违约（是或否）、预测客户流失（客户将离开或......
【数据挖掘&机器学习】招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图
一.本次需求背景本文主题：招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图、使用线性回归算法拟合散点图处理详解之前的文章我们已经对爬取的数据做了清洗处......
数据挖掘3：数据预处理
一、数据清洗为什么进行数据预处理：初始数据的质量或多或少都存在问题现实世界中的数据是“脏”的：不完整、噪声、不一致如何处理缺失数据：忽略元组（直接删），手动添加（工作量大......
pycaret学习之特征工程、特征选择
特征工程在机器学习实验中经常会看到，通过算术运算组合的两个特征在解释数据中的差异时变得比单独使用同一两个特征更为重要。通过现有特征的交互创建新特征称为特征交互。......

pycaret学习之关联规则挖掘

一、获取数据

二、设置（set up()）

三、创建模型

四、绘制模型

相关文章

赞助商

阅读排行