首页 > 其他分享 >数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

时间:2024-06-08 12:58:06浏览次数:14  
标签:置信度 象集 -- 项集 频繁 数据挖掘 基本概念

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


频繁项集、闭项集和关联规则

频繁项集:出现的次数超过最小支持度计数阈值

闭频繁项集:一个集合他的超集(包含这个集合的集合)在数据库里面的数量和这个集合在这个数据库里面的数量不一样,这个集合就是闭项集

如果这个集合还是频繁的,那么他就是极大频繁项集

项集{a,b}出现在TID为1,2的事务中,其支持度计数为2。而它的直接超集{a,b,c}支持度计数也为2,所以{a,b}不是闭项集。

Apriori算法

手撕例题

STEP1.候选1项集→频繁1象集

拿到候选数据后,我们先筛选出候选频繁1象集,并算出它们的支持度【支持度=有购买该物品的人/总人数】,完成这一操作后,将它和题目中给出的最小支持度作比较,从而得到频繁1象集!

STEP2-3.重复上述步骤,进行候选2项集→频繁2象集;候选3项集→频繁3象集的过程直到不能够再往下为止(例如,本题到频繁3象集,{面、奶、酒}为止)。

STEP4.写出最终频繁N象集的非空真子集,如题中{面、奶、酒}的非空真子集如下所示,并分别计算它们的置信度!(注意!这里不再是计算支持度了哈!别和上面搞混了!)

举个例子,我们要求{面}→{奶、酒}的置信度,翻译一下即,我们想知道买了面的人,有多大可能性也买了奶、酒,即同时买面、奶、酒的人数/买面的人数=2/3!

后续同理,我们可以得到所有关系的置信度,最后我们再拿题干中的最小置信度和算出来的置信度进行比较!就能得出最终的强关联规则(同时满足最小支持度、置信度)

fp树

先建立频繁1项集

递减排序

通过一行行事务进行建立树(如果有相同路径数字加1,没有创建新的子树)

挖掘出频繁项集

关联规则

同时满足支持度以及置信度

强规则不一定是有趣的

强规则有一定欺骗性(置信度存在问题)可能某商品是必须品

从关联分析到相关分析

提升度

lift(A,B)=P(AnB)/P(A)*P(B)

>1正相关,一个出现另一个就出现

<1负相关,一个出现另一个就不出现

=1独立

标签:置信度,象集,--,项集,频繁,数据挖掘,基本概念
From: https://blog.csdn.net/Frankabcdefgh/article/details/139517231

相关文章

  • 【Python】成功解决SyntaxError: invalid syntax
    【Python】成功解决SyntaxError:invalidsyntax 下滑即可查看博客内容......
  • Linux 中date命令
     date主要用于显示日期,若是不以加号作为开头,则表示要设定时间,而时间格式为MMDDhhmm[[CC]YY][.ss],其中MM为月份,DD为日,hh为小时,mm为分钟,CC为年份前两位数字,YY为年份后两位数字,ss为秒数。001、最基本的用法[root@PC1test2]#date##输出日期SatJun812:......
  • spring和Mybatis的核心配置文件
    目录四、核心配置文件详解五、MyBatis获取参数值的两种方式5.1、搭建新的module:mybatis_parameter5.2、单个字面量类型的参数5.3、多个字面量类型的参数5.3、map集合类型的参数5.4、实体类类型的参数用的较多5.5、使用@Param标识参数四、核心配置文件详解<?xmlversion="1.0"......
  • P10499 开关问题 题解
    题目传送门前置知识高斯消元法解异或方程组|乘法原理解法把开关的相互影响关系转化成异或,然后就转化成了异或方程组,高斯消元求解即可。判断是否存在解的过程同luoguP2455[SDOI2006]线性方程组。由于自由元仅能取\(0/1\),故总方案数为\(2\)的自由元数量次方。代码......
  • 图床
    表视图触发器......
  • 阅读习惯
    本学期开始时我的阅读量大约在50小时左右,通过这一学期读电子书,我的阅读时长为200小时,大约增加了150小时,在这150小时中,我每天会抽出半个小时来读书,这其中包括课外书和娄老师推荐的书目,比方说《学会提问》、《批判性思维》,目前在书架上的书有四本,在每天坚持读书后,我发现我可以更合理......
  • PyQT5信号刷新时间
    importtimefromPyQt5.QtCoreimport*fromPyQt5.QtWidgetsimport*importsysclassBackendThread(QThread):update_date=pyqtSignal(str)defrun(self):whileTrue:data=QDateTime.currentDateTime()currentTim......
  • 通过site 包加载egg 或者whl pcakge 包并动态调用模块方法
    以前简单说过通过sys.path进行egg文件模块的加载,实际上我们可以结合site以及.pth能力,实现灵活的加载处理,同时通过importlib进行动态加载,以下是一个简单说明加载配置通过site包,添加自定义目录,目录里边包含.pth配置目录结构.pth内容使用核心是通过site添加......
  • IceRPC之依赖注入>快乐的RPC
    作者引言很高兴啊,我们来到了IceRPC之依赖注入>快乐的RPC,基础引导,打好基础,才能让自已不在迷茫,快乐的畅游世界。依赖注入和IceRPC了解IceRPC(C#)如何为依赖注入(DI)提供支持。DI作为可选功能DI的第一条规则是:不要引入对DI的依赖。IceRPC(C#)将此规则放首要位置上,即为......
  • 类加载器
    双亲委派机制类加载器中的核心方法loadClassprotectedClass<?>loadClass(Stringname,booleanresolve)throwsClassNotFoundException{synchronized(getClassLoadingLock(name)){//First,checkiftheclasshasalreadybeenloaded......