Pattern Evaluation简介

模式评估指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式。

我们之前通过support-confidence association rule mining framework得到的强规则不一定是有趣的,所以它不足以进行模式评估,甚至在一些情况下,甚至常用的lift和chi-square measures也没有很好的效果。

这里将介绍模式或规则评估中——兴趣的概念,展示null-invariance的重要性,并比较多个兴趣度测量。

基本概念

什么样的模式是有趣的

一个模式是有趣的(interesting),则它具有以下几个特征:

  • 易于被人理解
  • 在某种确信度上,对于新的或检验数据是有效的
  • 是潜在有用的
  • 是新颖的

如果一个模式证实了用户寻求证实的某种假设,则它是有趣的。有趣的模式代表知识,可以用于决策。

模式兴趣度的两种度量

  • 客观度量

    • 这个度量方法基于所发现模式的结构和关于它们的统计量。
    • 对于形如x→yx\rightarrow y的关联规则,一种客观度量是规则的支持度(support),表示事务数据库中满足规则的事务所占的百分比。
    • 另一种客观度量是置信度(confidence),它评估所发现的规则的确信程度。
    • 关联规则的一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制。
  • 主观独立
    • 主观兴趣度度量基于用户对数据的期望。
    • 这种度量发现模式是有趣的,如果它们是出乎意料的(与用户的期望相矛盾),或者提供用户可以采取行动的至关重要的信息。在后一种情况下,这样的模式称为可行动的(actionable)。
    • 意料之内的模式也可能是有趣的,如果它们证实了用户希望证实的假设,或与用户的预感相似。
  • 其他兴趣度度量包括分类(IF-THEN)规则的准确率和覆盖率。

注意:在这里我多说一句,在我上了PDDM的课程之后,我也没有太明白韩家炜教授说的这些是啥意思。很多概念都不是很清楚,所以建议如果有可能大家可以先去看一些关于数据挖掘的基础课。因为一直搜不到关于模式评估的资料,所以在我明确地知道这些概念之前,我还一直以为Pattern Evaluation是模型评估。

支持置信框架的局限性

play−basketball→eat−cerealplay-basketball \rightarrow eat-cereal [40%, 66.7%]
¬play−basketball→eat−cereal\neg play-basketball \rightarrow eat-cereal [35%, 87.5%]

如果仅仅依靠支持置信框架得出的关联规则,我们就不能轻易地得出一个确切的结论。这就是支持置信框架的局限性。

Lift和Chi-Square Measures

Lift

Lift 是用于判断事件的独立与相关性的,在一定程度上非常类似概率论中证明两个事件独立性的方法。其具体定义如下:

lift(B,C)=c(B→C)s(C)=s(B∪C)s(B)×s(C)

lift(B,C)={c(B→C)\over s(C)}={s(B∪C)\over s(B)×s(C)}

  • Lift(B,C)=1Lift(B, C) = 1: B 和 C 是独立的
  • >1> 1: 正相关
  • <1<script type="math/tex" id="MathJax-Element-27">< 1</script>: 负相关

例子:

Chi-Square Measures

在数学符号里,chi表示为χ\chi,大家可以用MathJax轻松地得到它。

χ2=∑Observed−ExpectedExpected

χ^2=∑{Observed−Expected\over Expected}

χ2=(400−450)2400+(350−300)2350+(200−150)2200+(50−100)250=75.89

\chi^2 = {(400-450)^2\over 400} + {(350-300)^2\over 350} + {(200-150)^2\over 200} + {(50-100)^2\over 50} = 75.89

明显的,χ2\chi^2大于0,所以他们不是独立的。那么因为450<400450,所以B和C是负相关的。

Null Invariance Measures

Null transaction ¬A∩¬B\neg A \cap \neg B

Lift和Chi-Square Measures具有一定的局限性,让我们来举个例子。

BC(100)BC(100)比B¬C(1000)B\neg C(1000)和¬BC(1000)\neg B C(1000)少得多,而它们又远少于¬B¬C(100000)\neg B \neg C(100000)。

所以我们可以猜测,B和C应该不太可能同时发生。

但是呢,我们通过Lift和Chi-Square Measures得出的结论又与我们的常识相违背。这就是它们有局限的情况。

Null Invariance

Null Invariance的意思是,值不随着null-transactions的改变而改变。


这几张图都是PPT,上面的例子清晰易懂。

Imbalanced Ratio

不平衡比

数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)相关推荐

  1. 四、数据挖掘中常见的挖掘模式

    1.数据挖掘的模式 数据挖掘功能用于指定数据挖掘任务发现的模式:一般而言,这些任务可以分为两类:描述性和预测性.描述性挖掘任务刻画目标数据中数据的一般性质.预测性挖掘任务在当前数据上进行归纳,以便做出 ...

  2. 在10亿像素图像中发现预后模式 FINDING PROGNOSTIC PATTERNS IN GIGAPIXEL IMAGES

    在10亿像素图像中发现预后模式 1.Advances in AI applying deep learning to digital pathology images can stratify pat ...

  3. Burp Suite中intruder爆破模块四种模式的区别

    对于bp爆破模块中的四种模式,字面意思加上英语翻译过来实在太抽象了.那就结合具体实例解释一下 1. Sniper(狙击手) 顾名思义,就是一个一个的来,就跟98K一样,一ju一个准.也是最基础的一种模 ...

  4. 【数据挖掘笔记六】挖掘频繁模式、关联和相关性:基本概念和方法

    6.挖掘频繁模式.关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式. 6.1 基本概念 频繁模式挖掘搜索给定数据集中反复出现的联系,旨在发现大型事 ...

  5. 科研文献|根相关真菌群落反映了亚热带森林中宿主的空间共生模式

    TITLE:Root-associated fungal community reflects host spatial co-occurrence patterns in a subtropical ...

  6. 任务和特权级保护(四)——《x86汇编语言:从实模式到保护模式》读书笔记35

    任务和特权级保护(四)--<x86汇编语言:从实模式到保护模式>读书笔记35 7. 正式进入用户程序的局部空间 67 mov ebx,message_1 68 call far [fs:P ...

  7. Swift 中的设计模式 #3 外观模式与适配器模式

    作者:Andrew Jaffee,原文链接,原文日期:2018-09-04 译者:郑一一:校对:BigNerdCoding,pmst,Forelax:定稿:Forelax 本文是我的设计模式系列教程的 ...

  8. 转载:建设工程中常见的项目建设管理模式有哪些(DBB模式、EPC模式)

    原文标题:建设工程中常见的项目建设管理模式有哪些? - 知乎 (zhihu.com) 一.DBB模式 即设计-招标-建造(Design-Bid-Build)模式,这是最传统的一种工程项目管理模式.该管 ...

  9. 【论文阅读】定量评估服务模式__Quantitative Assessment of Service Pattern: Framework, Language, and Metrics

    [论文阅读]定量评估服务模式__Quantitative Assessment of Service Pattern: Framework, Language, and Metrics 文章目录 [论 ...

最新文章

  1. 局域网配置NTP服务器
  2. 系统模块——什么是系统模块、path 路径操作、相对路径VS绝对路径
  3. MySQL学习笔记02【SQL基本概念与通用语法、数据库的CRUD操作】
  4. OpenGL ES之GLSL实现仿抖音“分屏滤镜”效果
  5. 【荐读】一名95后的嵌入式软件工程师,成长之路!
  6. shim和polyfill有什么区别?
  7. Ubuntu16.04安装chrome浏览器
  8. CorelDRAWX4的VBA插件开发(二十六)深度转曲之包含容器内文字转曲
  9. java:数据结构面试题
  10. VMware ESXI7.0的安装与配置(全过程超详细含中英文对照,附应知必会的理论基础和常见故障解决方案)
  11. ppt 计算机图标不见了,显示桌面图标不见了如何恢复.ppt
  12. 不多不少,大学里必做的五件事(从我的大一说起)
  13. 激光导弹Gundam Unicorn(二维前缀和and二维差分)
  14. 关于Office 365 显示语言的设置(注册开通时的语言选择及注册开通后的语言显示修改)
  15. day06 记账程序01
  16. cocos2d-x 如何制作一个类马里奥的横版平台动作游戏 1 献给所有对动作游戏有爱的朋友
  17. 天下文章一大抄,前人的成果不要跑
  18. 视频或音频数据存储的2种格式packed和planar
  19. 《高质量读研:教你如何写论文、做科研》- 张军平
  20. 世界历史上10位征服过最广大土地的人

热门文章

  1. Python——第三天
  2. Boost中intrusive_ptr使用案例
  3. LTE 各种ID含义
  4. 华硕i7计算机配置,i7电脑配置清单
  5. 拉好友退押金?ofo 小黄车奇葩操作又被骂上热搜!
  6. 解析天启rk3288源码 /kernel/drivers/char/virtd
  7. vue echarts 地图
  8. 安装使用NVIDIA-Docker——可使用GPU的Docker容器
  9. 《我的世界》Python编程入门(0) 给家长的建议
  10. java连连看小游戏