关联分析方法具有产生大量模式的潜在能力,在真正的商业数据上,数据量与数据维数都非常大,很容易产生数以千计、万计甚至百万计的模式,而其中很大一部分可能并不让人感兴趣,筛选这些模式,以识别最有趣的模式并非一项平凡的任务,因为“一个人的垃圾在另一个人那里可能就是财富”,因此建立一组广泛接受的评价关联模式质量的标准是非常重要的。评价标准可以通过客观统计论据建立,例如上一篇提到过得支持度与置信度等,也可以通过主观论据建立,例如一些专家经验知识等。

1.客观统计论据

        利用客观统计论据评价模式时,一般通过计算模式的客观兴趣度来度量,而这样的度量一般是基于相依表(contingency table)得到,下表是一对二元变量的相依表,用表示不出现在事务记录中

表示均出现在事务记录中的次数,表示出现、未出现在事务记录中的次数,表示出现、未出现在事务记录中的次数,表示均未出现在事务记录中的次数,表示出现在事务记录中的次数,表示未出现在事务记录中的次数,表示出现在事务记录中的次数,表示未出现在事务记录中的次数,表示事务记录的总数。

 1.1  支持度

支持度用于筛选出频繁项集,但是该度量有一个缺点,一些支持度较低、但让人感兴趣的模式会被忽略掉,模式毕竟是只出现在部分数据中的,因此使用支持度度量可能会出现这种情况。

1.2  置信度

置信度用于评估规则的可信程度,但是该度量有一个缺点,没有考虑规则后件的支持度问题,例如在下面的相依表中

规则{茶}{咖啡}的支持度为15%,置信度为75%,先不考虑支持度,只看置信度会觉得比较高,因为可能会认为爱喝茶的人一般也爱喝咖啡。我们再来看一下喝咖啡的人的支持度,达到80%,规则{茶}{咖啡}的置信度75%高,这说明什么问题?并不是爱喝茶的人一般爱喝咖啡,从而使得规则置信度高,而是爱喝咖啡的人本身就很多,所以这条规则是一个误导。

1.3  提升度与兴趣因子

       由于置信度存在的缺陷,人们又提出了称作提升度的度量:

提升度定义为规则置信度与规则后件支持度的比率。对于二元变量,提升度等价于兴趣因子

兴趣因子比较的是模式的频率与统计独立假设下计算的基线频率,对于相互独立的两个变量,其基线频率定义为:

从这个角度,可以将兴趣因子解释如下:

在1.2节的例子中,规则{茶}{咖啡}的兴趣因子为,这表明喝茶的人数与喝咖啡的人数之间呈负相关,因此这条规则是不合理的。

使用提升度与兴趣因子来评判规则有一个问题,我们以提升度为例来说明,当规则置信度与规则后件支持度数值大小相近时,提升度就不足以说明问题,比率的形式掩盖了分子、分母本身的数值大小。例如下面这个例子,有两个相依表如下

如果仅仅用提升度来评判规则,那么显而易见的是规则优于,但是我们评判规则优劣时还应该具体到任务场景中,例如在文本挖掘中,经常用一对词语同时出现在文档中的频数来分析这对词语的关联程度,在这种情况下,提升度就不是一个最佳度量。

       1.4  相关分析

       相关分析是一种基于统计学的技术,在之前《数据测量与相似性分析》的博文中曾经说明过,对于连续型变量,相关度用皮尔森相关系数表示(https://blog.csdn.net/huguozhiengr/article/details/83033465),对于二元变量,相关度可以用系数度量

相关度的值从-1(完全负相关)到+1(完全正相关),如果变量是相互独立的,那么相关度为0。如果变量是正相关,那么应该大于应该大于,因此相关度大于0,同理,如果变量负相关,相关度应该小于0。

使用相关分析评判规则时,存在一定局限性,相关分析中把事务记录中项的出现于不出现视为同等重要,例如在1.3节的例子中,,二者相同,因此相关分析更适合于分析对称的二元变量。

1.5  IS度量

       度量用于处理非对称二元变量,其定义如下:

从该定义式中可以看出,当规则的兴趣因子与支持度都很大时,度量值就很大。在1.3节的例子中,,

,可以看到在此情况下度量给出的结果与兴趣因子与系数相反。在分析兴趣因子时,我们提到比率的形式掩盖了分子、分母本身数值的大小,而在度量中则考虑到了规则的支持度,这在一定程度上弥补了兴趣因子的不足之处。

度量也存在与置信度类似的局限性——即使是不相关或者负相关的模式,也能得到较大的 度量,当两个变量独立时

由于均小于1,因此得到 度量小于各自的支持度。关于这个局限性也可以这样理解,度量的定义式变换如下

可以看到度量表示成了规则的几何均值。

1.6  其它客观兴趣度度量

2.客观兴趣度度量的性质

从第1节中举的几个简单例子中就可以看出,在一种情况下不同度量给出的结果可能会相差很大,甚至是矛盾的,而在更复杂的实际情况中,这种情况更是常见,因此有必要研究一下客观兴趣度度量的性质。

2.1  反演性

       事务记录A、B、C、D分别如下,1表示某一项存在,0表示不存在

A 1 0 0 0 0 0 1
B 0 0 0 1 0 0 0
C 0 1 1 1 1 1 0
D 1 1 1 0 1 1 1

查看该事务记录表发现,记录C与记录A的购买内容刚好相反,记录D与记录B的购买内容刚好相反, 在事务记录表中这种操作称为反演。在两个事务记录呈反演的数据集中,相依表中的数值刚好相反,若此时客观度量在这两个数据集中结果不变,则称该度量满足反演性,满足反演性的度量有系数、几率、集体强度,而前面介绍的兴趣因子和等度量则不满足反演性。

在二元变量中,反演性讨论的是变量对称性问题下的度量问题,显然,满足反演性的度量更适合于对称的二元变量数据事务集中,在非对称的二元变量数据集中,不满足反演性的度量则更适合。

       2.2  零加性

在事务记录中,有一些既没有出现规则中的前件,也没有出现后件,这样的记录是与规则无关的,被统计在相依表的项中。在数据记录集中添加一些与规则无关的记录,称为零加操作。如果在零加操作下(即增加的值,而其它项频数保持不变),客观度量仍然保持不变,则称该客观度量满足零加性。

我们搜集到的数据集中不可避免的会包含一些多余的数据(当然,数据的多余是相对于规则而言的),如果这些多余的数据影响到了规则的挖掘与评定,如果我们就要考量一下选用的挖掘方法与客观度量是否合适。满足零加性的度量有余弦度量()、Jaccard度量。

       2.3  缩放性

       下表是1993年与2004年注册某课程的学生的性别与成绩的相依表,表中的数据表明,自1993年来男生的数量翻了一番,而女生的数量则是以前的3倍,然后2004年的男生、女生的表现并不比1993年的表现得更好,因为高分与低分的男同学比例保持不变,女同学也是这样。

​     

表示对相依表中的行和列的缩放倍数。若对相依表中进行缩放之后,客观度量保持不变,则称该度量具有缩放不变性,在以上介绍的度量中(包括图片中的客观度量),只有几率()满足缩放不变性。

3.主观论据

在评估关联模式时引入主观信息是一件比较困难的事情,这需要来自领域专家的大量先验信息,常见的一些将主观信息加入到模式发现任务中的方位有以下几种:

  • 可视化方法:通过数据可视化方法呈现出数据中蕴含的信息,领域专家由此解释和检验发现的模式,只有符合观察到的信息的模式才被认为是有趣的。
  • 基于模板的方法:这种方法可以限制发现的模式类型,只有满足指定模板的模式才被认为是有趣的。
  • 主观兴趣度量:基于领域信息定义一些主观度量来过滤显而易见和没有实际价值的模式。

4.辛普森悖论

       在介绍   分类:贝叶斯分类方法  中就提到过,我们在分析中可能会忽略掉一些隐藏变量,而这些变量对分析结果影响较大,在关联模式挖掘中,这就可能导致观察到的一对变量间的联系消失或者逆转,这种现象就是所谓的辛普森悖论。下面通过一个例子说明这种现象。

考虑高清电视(HDTV)销售与健身器材销售之间的联系。在下列相依表中,规则 {买HDTV=是}{买健身器材=是}的置信度为99/180=55%,而规则{买HDTV=否}{买健身器材=是}的置信度为54/120=45%,该规则暗示买HDTV的人更可能买健身器材(这里举置信度的例子只是为了说明辛普森悖论现象,很明显以上两个规则的置信度均不高,不足以成为规则)。

买HDTV 买健身器材  
 
99 81 180
54 66 120
  153 147 300

如果将购买这两种物品的人群 大学生、在职人员,那么会得到下列相依表

顾客组 买HDTV 买健身器材 总数
大学生 1 9 10
4 30 34
在职人员 98 72 170
50 36 86

可以看到,对于大学生:

c({买HDTV=是}{买健身器材=是})=1/10=10%

c({买HDTV=否}{买健身器材=是})=4/34=11.8%

对于在职人员:

c({买HDTV=是}{买健身器材=是})=98/170=57.7%

c({买HDTV=否}{买健身器材=是})=50/86=58.1%

可以看到,在两组人群中,依据规则置信度得到的结论刚好与之前相反,这就是辛普森悖论现象,当然,可能是由于选择的客观度量的原因,所以才会出现这种现象,那么我们用兴趣因子来重新计算一下。

不考虑人群因素影响是,

({买HDTV=是}{买健身器材=是})= 300*99/(180*153)=1.078

({买HDTV=否}{买健身器材=是})= 300*54/(120*153)=0.882

依此得到的结论是:买HDTV的人更可能买健身器材

现在考虑人群因素的影响,对于大学生:

({买HDTV=是}{买健身器材=是})= 44*1/(5*10)=0.88

({买HDTV=否}{买健身器材=是})= 44*4/(34*5)=1.035

对于在职人员:

({买HDTV=是}{买健身器材=是})= 256*98/(170*148)=0.997

({买HDTV=否}{买健身器材=是})= 256*50/(86*148)=1.006

可以看到,得到的结论刚好与之前相反,使用兴趣因子做度量时同样出现了辛普森悖论。(当然,还可以继续使用其它度量算一下,我就不算了,这里只是为了说明问题)

辛普森现象的存在警示我们,在解释变量之间的关联要特别小心,因为一些可能存在、没有考虑的因素可能会影响模式。要做到模式的解释,就需要我们拥有一定的背景知识,拿上面的例子说明,HDTV与健身器材并不是普通物品(这很重要,就像收入低的人群去吃豪华大餐一样,这不是一件很常见的事情),它的购买群体是值得考虑的,最起码得知道是水购买了这些物品。

5.小结

      文中介绍规则评估方面的内容,主要是客观度量的介绍,可以看到对于同一个规则,采用不同度量可能会得到相反的结论,这是由于度量的定义导致,没有一个客观度量能适用于所有模式挖掘任务中,因为每种度量总会有一些未考虑的方面,因此在我们的工作中,充分了解、理解数据,运用背景知识显得很重要,有时也可以考虑多种度量结合的方式来帮助我们发现有趣的模式。

       

       

       

       

       

转载于:https://www.cnblogs.com/hgz-dm/p/10886258.html

关联分析(二):关联模式的评估相关推荐

  1. 机器学习1:关联分析及频繁模式挖掘Association rule mining(基于R language)

      关联分析是一种无监督的机器学习方法,常用于知识发现而非预测.本文从以下几个方面进行叙述: 频繁项 Frequent Patterns 关联挖掘方法 Association Mining Metho ...

  2. GWAs——全基因组关联分析二(质控2)

    接上文GWAs--全基因组关联分析(质控1),此数据集模拟的是祖先来自欧洲西北部的犹他州居民,所以需要将没有欧洲背景的个体从数据集中剔除,即控制群体结构(Population Stratificati ...

  3. java频繁项集挖掘数据关联_数据挖掘之关联分析二(频繁项集的产生)

    频繁项集的产生 格结构(lattice structure)常常用来表示所有可能的项集. 发现频繁项集的一个原始方法是确定格结构中每个候选项集的支持度.但是工作量比较大.另外有几种方法可以降低产生频繁 ...

  4. 关联分析(二)--FP-Growth算法

    转自:https://www.cnblogs.com/datahunter/p/3903413.html 关联分析又称关联挖掘,就是在交易数据.关系数据或其他信息载体中,查找存在于项目集合或对象集合之 ...

  5. 关联分析:FP-Growth算法

    转载自  关联分析:FP-Growth算法 关联分析又称关联挖掘,就是在交易数据.关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式.关联.相关性或因果结构.关联分析的一个典型例子是 ...

  6. python灰色关联度分析_灰色关联分析法 python

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 本文2290字,预计阅读需10分钟: 关联分析(association anal ...

  7. Apriori算法进行关联分析实战

    使用Apriori算法进行关联分析(层次聚类) 一.基础知识 1.关联分析定义及存在的问题 定义:从大规模的数据集中寻找物品间的隐含关系,被称为关联分析或关联规则学习. 关联分析存在的主要问题:主要问 ...

  8. 机器学习(MACHINE LEARNING)灰色关联分析(GRA)

    文章目录 1 什么是灰色关联分析 2 灰色关联分析的步骤 3 灰色关联分析的实例 4 灰色关联分析matlab的实现 5 灰色关联分析python的实现 1 什么是灰色关联分析 灰色关联分析是指对一个 ...

  9. 推荐算法-关联分析(关联规则)

    转载自   推荐算法-关联分析(关联规则) 关联分析又称关联挖掘,就是在交易数据.关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式.关联.相关性或因果结构. 或者说,关联分析是发现 ...

  10. 【生信】全基因组关联分析(GWAS)原理

    [生信]全基因组关联分析(GWAS)原理 文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信]全基因组关联分析(GWAS) 1.前提知识介绍 1. ...

最新文章

  1. R语言构建仿真列联表并进行卡方检验(chisq.test):检验两个分类变量是否独立、输出期望的列联表
  2. 计算机系统怎么算页面大小,电脑网页的设计尺寸是多少
  3. 写给省选前的自己V2
  4. php脚本搭vps,#分享#基于宝塔面板的ZFaka(发卡程序)一键脚本
  5. 程序设计实践(评注版) 评注者序
  6. HDU 2553(N皇后问题)
  7. 3dmax疯狂模渲大师软件有什么使用指南?疯狂模渲大师的目录,教你怎么使用疯狂模渲大师,疯狂模渲大师其实并不难!
  8. chrome内核浏览器调用本地exe客户端
  9. AMD zen3 5600X + B550M 黑苹果 EFI Big Sur 11.5.2
  10. 正确使用RecyclerView分割线
  11. python random.sample
  12. MFC对话框的透明化---续
  13. php 如何模拟浏览器,PHP 浏览器模拟测试 Mink
  14. 友盟朋友圈社区使用详解-(无UI版)
  15. Git --- Git Gui
  16. 网站颜色配色方案笔记
  17. 2020年中国全国5级行政区划(省、市、县、镇、村)
  18. 回首我的初中生活·机器人
  19. Day8—进程,线程,协程
  20. 中国光无源器件行业市场研究与投资战略报告(2022版)

热门文章

  1. 【NLP】经典分类模型朴素贝叶斯解读
  2. 【GAN优化】GAN优化专栏上线,首谈生成模型与GAN基础
  3. 全球及中国水深测量声呐行业应用前景及未来投资决策建议报告2022-2027年
  4. 菏泽合村并居促土地流转-农业大健康·万祥军:集约谋定高效
  5. openresty开发系列36--openresty执行流程之6日志模块处理阶段
  6. IBM informix .net provider
  7. 史上最详尽的NLP预处理模型汇总
  8. 特征抽取--标签与索引的转化: IndexToString
  9. iOS开发之功能模块--推送之坑问题解决
  10. telnet客户端模拟浏览器发送请求