数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)
Pattern Evaluation简介
模式评估指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式。
我们之前通过support-confidence association rule mining framework得到的强规则不一定是有趣的,所以它不足以进行模式评估,甚至在一些情况下,甚至常用的lift和chi-square measures也没有很好的效果。
这里将介绍模式或规则评估中——兴趣的概念,展示null-invariance的重要性,并比较多个兴趣度测量。
基本概念
什么样的模式是有趣的
一个模式是有趣的(interesting),则它具有以下几个特征:
- 易于被人理解
- 在某种确信度上,对于新的或检验数据是有效的
- 是潜在有用的
- 是新颖的
如果一个模式证实了用户寻求证实的某种假设,则它是有趣的。有趣的模式代表知识,可以用于决策。
模式兴趣度的两种度量
- 客观度量
- 这个度量方法基于所发现模式的结构和关于它们的统计量。
- 对于形如x→yx\rightarrow y的关联规则,一种客观度量是规则的支持度(support),表示事务数据库中满足规则的事务所占的百分比。
- 另一种客观度量是置信度(confidence),它评估所发现的规则的确信程度。
- 关联规则的一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制。
- 主观独立
- 主观兴趣度度量基于用户对数据的期望。
- 这种度量发现模式是有趣的,如果它们是出乎意料的(与用户的期望相矛盾),或者提供用户可以采取行动的至关重要的信息。在后一种情况下,这样的模式称为可行动的(actionable)。
- 意料之内的模式也可能是有趣的,如果它们证实了用户希望证实的假设,或与用户的预感相似。
- 其他兴趣度度量包括分类(IF-THEN)规则的准确率和覆盖率。
注意:在这里我多说一句,在我上了PDDM的课程之后,我也没有太明白韩家炜教授说的这些是啥意思。很多概念都不是很清楚,所以建议如果有可能大家可以先去看一些关于数据挖掘的基础课。因为一直搜不到关于模式评估的资料,所以在我明确地知道这些概念之前,我还一直以为Pattern Evaluation是模型评估。
支持置信框架的局限性
play−basketball→eat−cerealplay-basketball \rightarrow eat-cereal [40%, 66.7%]
¬play−basketball→eat−cereal\neg play-basketball \rightarrow eat-cereal [35%, 87.5%]
如果仅仅依靠支持置信框架得出的关联规则,我们就不能轻易地得出一个确切的结论。这就是支持置信框架的局限性。
Lift和Chi-Square Measures
Lift
Lift 是用于判断事件的独立与相关性的,在一定程度上非常类似概率论中证明两个事件独立性的方法。其具体定义如下:
lift(B,C)={c(B→C)\over s(C)}={s(B∪C)\over s(B)×s(C)}
- Lift(B,C)=1Lift(B, C) = 1: B 和 C 是独立的
- >1> 1: 正相关
- <1<script type="math/tex" id="MathJax-Element-27">< 1</script>: 负相关
例子:
Chi-Square Measures
在数学符号里,chi表示为χ\chi,大家可以用MathJax轻松地得到它。
χ^2=∑{Observed−Expected\over Expected}
\chi^2 = {(400-450)^2\over 400} + {(350-300)^2\over 350} + {(200-150)^2\over 200} + {(50-100)^2\over 50} = 75.89
明显的,χ2\chi^2大于0,所以他们不是独立的。那么因为450<400450,所以B和C是负相关的。
Null Invariance Measures
Null transaction ¬A∩¬B\neg A \cap \neg B
Lift和Chi-Square Measures具有一定的局限性,让我们来举个例子。
BC(100)BC(100)比B¬C(1000)B\neg C(1000)和¬BC(1000)\neg B C(1000)少得多,而它们又远少于¬B¬C(100000)\neg B \neg C(100000)。
所以我们可以猜测,B和C应该不太可能同时发生。
但是呢,我们通过Lift和Chi-Square Measures得出的结论又与我们的常识相违背。这就是它们有局限的情况。
Null Invariance
Null Invariance的意思是,值不随着null-transactions的改变而改变。
这几张图都是PPT,上面的例子清晰易懂。
Imbalanced Ratio
不平衡比
数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)相关推荐
- 四、数据挖掘中常见的挖掘模式
1.数据挖掘的模式 数据挖掘功能用于指定数据挖掘任务发现的模式:一般而言,这些任务可以分为两类:描述性和预测性.描述性挖掘任务刻画目标数据中数据的一般性质.预测性挖掘任务在当前数据上进行归纳,以便做出 ...
- 在10亿像素图像中发现预后模式 FINDING PROGNOSTIC PATTERNS IN GIGAPIXEL IMAGES
在10亿像素图像中发现预后模式 1.Advances in AI applying deep learning to digital pathology images can stratify pat ...
- Burp Suite中intruder爆破模块四种模式的区别
对于bp爆破模块中的四种模式,字面意思加上英语翻译过来实在太抽象了.那就结合具体实例解释一下 1. Sniper(狙击手) 顾名思义,就是一个一个的来,就跟98K一样,一ju一个准.也是最基础的一种模 ...
- 【数据挖掘笔记六】挖掘频繁模式、关联和相关性:基本概念和方法
6.挖掘频繁模式.关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式. 6.1 基本概念 频繁模式挖掘搜索给定数据集中反复出现的联系,旨在发现大型事 ...
- 科研文献|根相关真菌群落反映了亚热带森林中宿主的空间共生模式
TITLE:Root-associated fungal community reflects host spatial co-occurrence patterns in a subtropical ...
- 任务和特权级保护(四)——《x86汇编语言:从实模式到保护模式》读书笔记35
任务和特权级保护(四)--<x86汇编语言:从实模式到保护模式>读书笔记35 7. 正式进入用户程序的局部空间 67 mov ebx,message_1 68 call far [fs:P ...
- Swift 中的设计模式 #3 外观模式与适配器模式
作者:Andrew Jaffee,原文链接,原文日期:2018-09-04 译者:郑一一:校对:BigNerdCoding,pmst,Forelax:定稿:Forelax 本文是我的设计模式系列教程的 ...
- 转载:建设工程中常见的项目建设管理模式有哪些(DBB模式、EPC模式)
原文标题:建设工程中常见的项目建设管理模式有哪些? - 知乎 (zhihu.com) 一.DBB模式 即设计-招标-建造(Design-Bid-Build)模式,这是最传统的一种工程项目管理模式.该管 ...
- 【论文阅读】定量评估服务模式__Quantitative Assessment of Service Pattern: Framework, Language, and Metrics
[论文阅读]定量评估服务模式__Quantitative Assessment of Service Pattern: Framework, Language, and Metrics 文章目录 [论 ...
最新文章
- 局域网配置NTP服务器
- 系统模块——什么是系统模块、path 路径操作、相对路径VS绝对路径
- MySQL学习笔记02【SQL基本概念与通用语法、数据库的CRUD操作】
- OpenGL ES之GLSL实现仿抖音“分屏滤镜”效果
- 【荐读】一名95后的嵌入式软件工程师,成长之路!
- shim和polyfill有什么区别?
- Ubuntu16.04安装chrome浏览器
- CorelDRAWX4的VBA插件开发(二十六)深度转曲之包含容器内文字转曲
- java:数据结构面试题
- VMware ESXI7.0的安装与配置(全过程超详细含中英文对照,附应知必会的理论基础和常见故障解决方案)
- ppt 计算机图标不见了,显示桌面图标不见了如何恢复.ppt
- 不多不少,大学里必做的五件事(从我的大一说起)
- 激光导弹Gundam Unicorn(二维前缀和and二维差分)
- 关于Office 365 显示语言的设置(注册开通时的语言选择及注册开通后的语言显示修改)
- day06 记账程序01
- cocos2d-x 如何制作一个类马里奥的横版平台动作游戏 1 献给所有对动作游戏有爱的朋友
- 天下文章一大抄,前人的成果不要跑
- 视频或音频数据存储的2种格式packed和planar
- 《高质量读研:教你如何写论文、做科研》- 张军平
- 世界历史上10位征服过最广大土地的人