首页 > 其他分享 >【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(下)

【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(下)

时间:2024-09-17 13:20:57浏览次数:12  
标签:事务 置信度 关联 第六章 规则 数据挖掘 项集 基本概念 度量

说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。

首先祝大家中秋快乐,本文章接上篇【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(上)

思考:满足最小支持度最小置信度的模式一定是有趣的吗?

一、规则不一定是有趣的

        规则是否有趣可以主观或客观地评估。最终,只有用户能够评判一个给定的规则是否是有趣的,并且这种判断是主观的,可能因用户而异。然而,根据数据“背后”的统计量, 客观兴趣度度量可以用来清除无趣的规则,而不向用户提供。

        一个误导的“强”关联规则。假设我们对分析涉及购买计算机游戏和录像的 AllElectronics 的事务感兴趣。设 game表示包含计算机游戏的事务,而video 表示包含录像 的事务。在所分析的10000个事务中,数据显示6000个顾客事务包含计算机游戏,7500 个事务包含录像,而4000个事务同时包含计算机游戏和录像。假设发现关联规则的数据 挖掘程序在该数据上运行,使用最小支持度30%,最小置信度60%将发现下面的关联规则:

        规则(6.6)是强关联规则,因为它的支持度为40%,置信度为60%,分别满足最小支持度和最小置信度阈值。然而,规则(6.6)是误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。不完全理解这种现象,容易根据规则(6.6)做出不明智的商务决定。寻求支持度 - 置信度框架的替代,对挖掘有趣的数据联系可能是有用的。

二、从关联分析到相关分析

        正如我们在上面已经看到的,支持度和置信度度量不足以过滤掉无趣的关联规则,我们需要引进其他度量。

        提升度(Iit)是一种简单的相关性度量,定义如下。项集A的出现独立于项集B的出现,如果P(A U B)=P(A)P(B);否则,作为事件,项集A和B是依赖的(dependent)和 相关的(correlated)。这个定义容易推广到两个以上的项集。A和B出现之间的提开度可以通过计算下式得到

        如果(6.8)式的值小于1,则A的出现与B的出现是负相关的,意味一个出线可能导致另一个不出现。如果结果值大于1,则A和B是正相关的,意味每一个的出现都蕴涵另一个的出现。如果结果值等于1,则A和B是独立的,它们之间没有相关性。

        研究的第二种相关性度量是X²度量,取相依表的位置(A和B对)的观测和期望值的平方差除以期望值,并对相依表的所有位置求和(例子书本上写得很好,直接贴图了,望理解)。

三、模式评估度量比较

        除了上文提到的提升度和X²,还有全置信度最大置信度Kulczynski余弦。  

        度量分有零变的度量受零事务影响)和零不变的度量不受零事务影响),零事务是不包含任何考察项集的事务,例如我们现在考察“面包”=>“牛奶”是不是有趣的模式,都不包含“面包”,“牛奶”的订单就是零事务

        零变的度量(受零事务影响)

        1、提升度

        2、X²

        零不变的度量(不受零事务影响)

        1、全置信度

        2、最大置信度

        3、Kulczynski

        4、余弦

        5、不平衡比

        总之,仅使用支持度和置信度度量来挖掘关联可能产生大量规则,其中大部分规则用户是不感兴趣的。或者,我们可以用模式兴趣度度量来扩展支持度-置信度框架,有助于把挖掘聚焦到具有强模式联系的规则。附加的度量显著地减少了所产生规则的数量, 并且导致更有意义规则的发现。除了本节介绍的相关性度量外,文献中还研究了许多其他兴越度量。不幸的是,大部分度量都不具有零不变性。由于大型数据集常常具有许多零事务,因此在进行相关分析选择合适的兴趣度最时,考虑零不变性是重要的。这里研究的4个零不变的度量(全置信度、最大置信度、Kulczynshi 和余弦)中,我们推荐Kulczynski与不平衡比配合使用。 

标签:事务,置信度,关联,第六章,规则,数据挖掘,项集,基本概念,度量
From: https://blog.csdn.net/data_disciple/article/details/142299380

相关文章

  • Docker 网络基本概念
    在之前讲Redis集群搭建的时候,我们用过一个选项--nethost​,现在就来讲讲该选项,以及Docker的网络。dockerrun-d--nameredis-node-1--nethost--privileged=true-v/data/redis/share/redis-node-1:/dataredis:6.0.8--cluster-enabledyes--appendonlyyes--port6......
  • Java并发编程 第六章 共享模型之无锁
    1.引子实现1packagecn.itcast.testcopy;importjava.util.ArrayList;importjava.util.List;publicclassTestAccount{  publicstaticvoidmain(String[]args){    Accountaccount=newUnsafeAccount(10000);    Account.demo(account);  }}......
  • Java并发编程 第六章 共享模型之无锁
    1.引子实现1packagecn.itcast.testcopy;importjava.util.ArrayList;importjava.util.List;publicclassTestAccount{  publicstaticvoidmain(String[]args){    Accountaccount=newUnsafeAccount(10000);    Account.demo(account);  }}......
  • 【数据挖掘】神经网络
    目录一、神经网络算法概述二、神经网络算法分类三、神经网络算法优缺点和改进3.1神经网络算法优点3.2神经网络算法缺点3.3 神经网络算法改进四、神经网络算法实现4.1 神经网络算法C语言实现4.2 神经网络算法JAVA实现4.3 神经网络算法python实现4.4 神经网络......
  • 【数据挖掘】K最近邻(K-NN)
    目录一、K最近邻(K-NN)算法概述二、K最近邻(K-NN)算法优缺点和改进2.1K最近邻(K-NN)算法优点2.2K最近邻(K-NN)算法缺点2.3 K最近邻(K-NN)算法改进三、K最近邻(K-NN)算法实现3.1 K最近邻(K-NN)算法C语言实现3.2 K最近邻(K-NN)算法JAVA实现3.3 K最近邻(K-NN)算法python实现四、K最......
  • 网络的基本概念
    OSI:7层模型OSI-开放式系统互联-整个互联网分为了7个层级,7层模型7-应用层作用:1.满足下面模型无法解决的问题2.产生不同的数据3.验证手段-加密手段6-表示层作用:负责数据的解码、编译5-会话层作用:实现应用级别不同服务的区分(进程:某个服务)====================......
  • 【数据挖掘】分类算法
    目录一、分类算法概述二、分类算法优缺点和改进2.1 分类算法优点2.2分类算法缺点2.3 分类算法改进三、分类算法实现3.1 分类算法C语言实现3.2 分类算法JAVA实现3.3分类算法python实现四、分类算法应用五、分类算法发展趋势一、分类算法概述       ......
  • 数据结构和算法之基本概念
    原文出处:数据结构和算法之基本概念  关注码农爱刷题,看更多技术文章!!其他文章:Java基础之数组    在计算机领域中,数据元素都不是孤立存在的,而是在它们之间存在着某种关系,这种数据元素相互之间的关系称为结构(Structure)。数据结构是相互之间存在一种或多种特定关系的数......
  • 第六章,输入和输出处理(一)
    高级编程文章目录高级编程第六章,输入和输出处理(一)一,JavaI/O(input/output)1.1,文件(File类)二,流2.1,字节输入流2.2,字节输出流第六章,输入和输出处理(一)一,JavaI/O(input/output)文件|内存|键盘—>程序的过程叫做读程序—>文件|内存|控制台的过程叫......
  • 介绍 Apache Spark 的基本概念和在大数据分析中的应用。
    ApacheSpark是一个快速、通用、可扩展的大数据处理框架,它最初由加州大学伯克利分校的AMPLab开发,并于2010年作为开源项目发布。Spark提供了强大的数据处理能力,旨在通过内存计算来加速数据处理过程,从而比传统的基于磁盘的批处理系统(如HadoopMapReduce)快上数倍至数百......