说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。
首先祝大家中秋快乐,本文章接上篇【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(上)
思考:满足最小支持度和最小置信度的模式一定是有趣的吗?
一、规则不一定是有趣的
规则是否有趣可以主观或客观地评估。最终,只有用户能够评判一个给定的规则是否是有趣的,并且这种判断是主观的,可能因用户而异。然而,根据数据“背后”的统计量, 客观兴趣度度量可以用来清除无趣的规则,而不向用户提供。
一个误导的“强”关联规则。假设我们对分析涉及购买计算机游戏和录像的 AllElectronics 的事务感兴趣。设 game表示包含计算机游戏的事务,而video 表示包含录像 的事务。在所分析的10000个事务中,数据显示6000个顾客事务包含计算机游戏,7500 个事务包含录像,而4000个事务同时包含计算机游戏和录像。假设发现关联规则的数据 挖掘程序在该数据上运行,使用最小支持度30%,最小置信度60%将发现下面的关联规则:
规则(6.6)是强关联规则,因为它的支持度为40%,置信度为60%,分别满足最小支持度和最小置信度阈值。然而,规则(6.6)是误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。不完全理解这种现象,容易根据规则(6.6)做出不明智的商务决定。寻求支持度 - 置信度框架的替代,对挖掘有趣的数据联系可能是有用的。
二、从关联分析到相关分析
正如我们在上面已经看到的,支持度和置信度度量不足以过滤掉无趣的关联规则,我们需要引进其他度量。
提升度(Iit)是一种简单的相关性度量,定义如下。项集A的出现独立于项集B的出现,如果P(A U B)=P(A)P(B);否则,作为事件,项集A和B是依赖的(dependent)和 相关的(correlated)。这个定义容易推广到两个以上的项集。A和B出现之间的提开度可以通过计算下式得到
如果(6.8)式的值小于1,则A的出现与B的出现是负相关的,意味一个出线可能导致另一个不出现。如果结果值大于1,则A和B是正相关的,意味每一个的出现都蕴涵另一个的出现。如果结果值等于1,则A和B是独立的,它们之间没有相关性。
研究的第二种相关性度量是X²度量,取相依表的位置(A和B对)的观测和期望值的平方差除以期望值,并对相依表的所有位置求和(例子书本上写得很好,直接贴图了,望理解)。
三、模式评估度量比较
除了上文提到的提升度和X²,还有全置信度、最大置信度、Kulczynski和余弦。
度量分有零变的度量(受零事务影响)和零不变的度量(不受零事务影响),零事务是不包含任何考察项集的事务,例如我们现在考察“面包”=>“牛奶”是不是有趣的模式,都不包含“面包”,“牛奶”的订单就是零事务。
零变的度量(受零事务影响)
1、提升度
2、X²
零不变的度量(不受零事务影响)
1、全置信度
2、最大置信度
3、Kulczynski
4、余弦
5、不平衡比
总之,仅使用支持度和置信度度量来挖掘关联可能产生大量规则,其中大部分规则用户是不感兴趣的。或者,我们可以用模式兴趣度度量来扩展支持度-置信度框架,有助于把挖掘聚焦到具有强模式联系的规则。附加的度量显著地减少了所产生规则的数量, 并且导致更有意义规则的发现。除了本节介绍的相关性度量外,文献中还研究了许多其他兴越度量。不幸的是,大部分度量都不具有零不变性。由于大型数据集常常具有许多零事务,因此在进行相关分析选择合适的兴趣度最时,考虑零不变性是重要的。这里研究的4个零不变的度量(全置信度、最大置信度、Kulczynshi 和余弦)中,我们推荐Kulczynski与不平衡比配合使用。
标签:事务,置信度,关联,第六章,规则,数据挖掘,项集,基本概念,度量 From: https://blog.csdn.net/data_disciple/article/details/142299380