7.高级模式挖掘

模式挖掘是比频繁模式挖掘更一般的术语,前者还涵盖了稀有模式和负模式。

7.1 模式挖掘:一个路线图

模式挖掘的研究关注三个方面:所挖掘的模式类型、挖掘方法和应用。

模式挖掘研究的一般路线图:

7.2 多层、多维空间中的模式挖掘

多层关联涉及多个抽象层的概念。多维关联涉及多个维或谓词。 量化关联涉及其值之间有序的数值属性。负模式显示项之间的负关联。

1)挖掘多层关联规则

在多个抽象层的数据上挖掘产生的关联规则称为多层关联规则。在支持度-置信度框架下,使用概念分层可有效地挖掘多层关联规则。一般而言,可采用自顶向下策略,由概念层1开始,向下到较低的、更特定的概念层,在每个概念层累计计数,计算频繁项集,直到不能再找到频繁项集。

2)挖掘多维关联规则

涉及两个或多个维或谓词的关联规则称做多维关联规则(multidimensional association rule)。多个谓词,但每个谓词在规则中仅出现一次,称其具有不重复谓词。具有不重复谓词的关联规则称做维间关联规则。挖掘具有重复谓词的关联规则,包括某些谓词的多次出现,称做混合维关联规则。

挖掘多维关联规则的技术分为两种方法:

第一种方法,使用预先定义的概念分层对量化属性离散化,方法称为使用量化属性的静态离散化挖掘多维关联规则;

第二种方法,根据数据分布将量化属性离散化或聚类到“箱”,方法称为动态量化关联规则。

K-谓词集是包含k个合取谓词的集合。

3)挖掘量化关联规则

基于数据立方体挖掘的量化关联规则,在多维空间存储聚集信息,可用于计算多维关联规则的支持度和置信度。

基于聚类的量化关联规则,有趣的频繁模式或关联规则通常在量化属性相对稠密的簇中出现,可采用自顶向下的聚类和自底向上的聚类来发现量化规则。

使用统计学理论发现异常行为,使用统计检验证实规则的有效性。

4)挖掘稀有模式和负模式

有趣的不只是频繁模式,也可能是稀有模式或发现反映项之间负相关的负模式。

7.3 基于约束的频繁模式挖掘

基于约束的挖掘包括:

1)知识类型约束:指定待挖掘的知识类型,如关联、相关、分类或聚类。

2)数据约束:指定任务相关的数据集。

3)维/层约束:指定挖掘中所使用的数据维(或属性)、抽象层,或概念分层结构的层次。

4)兴趣度约束:指定规则兴趣度的统计度量阈值,如支持度、置信度和相关性。

5)规则约束:指定要挖掘的规则形式或条件。这个约束可以用元规则(规则模板)表示,如可以出现在规则前件或后件中谓词的最大或最小个数,或属性、属性值和聚集之间的联系。

基于约束的挖掘支持交互式探索挖掘与分析。元规则使得用户可以说明他们感兴趣的规则的语法形式。规则的形式可以作为约束,帮助提高挖掘过程的性能。元规则可以根据分析者的经验、期望或对数据的直觉,或者根据数据库模式自动产生。

一般而言,一种有效的频繁模式挖掘过程可以用两种主要方法在挖掘期间对其搜索空间进行剪枝:模式搜索空间剪枝和数据搜索空间剪枝。

7.4 挖掘高维数据和巨型模式

搜索空间随维数呈指数增长,解决上,一个方向是利用垂直数据格式,扩充模式增长方法,处理具有大量维但少量行的数据集;另一个方向是开发模式融合的挖掘方法,用于挖掘巨型模式。

模式融合的挖掘方法,通过融合少量较短的频繁模式,形成巨型模式候选,在模式搜索空间跳跃,避开了宽度优先和深度优先搜索容易落入的陷阱,可以得到巨型频繁模式完全集的一个很好的近似解。

模式融合旨在产生巨型模式的近似解,需引进一个质量评估模型,即核模式。融合模式有两个阶段:

1)池初始化:模式融合假定有一个短频繁模式的初始池,是一个短长度的频繁模式的完全集,这个初始池可以用任意已有的有效挖掘算法挖掘。

2)迭代的模式融合:模式融合取用户指定的参数K作为输入,K是要挖掘模式的最大个数。挖局过程是迭代的,每次迭代中,从当前池中随机地选择K个种子,对于每个种子,找出直接为既定值的球内的所有模式。然后,每个球中的所有模式融合在一起,形成一个超模式集。这些超模式形成新的池,由于每个超模式的支集随迭代而收敛,因此迭代过程终止。

7.5 挖掘压缩或近似模式

频繁模式挖掘的主要挑战是所发现的模式数量巨大。为压缩挖掘产生的巨大的频繁模式集,同时维持高质量的模式,可以挖掘频繁模式的压缩集合或近似集合。Top-k最频繁闭模式的提出使得挖掘过程只关注k个最频繁模式。

1)通过模式聚类挖掘压缩模式

模式聚类,要先定义一种好的相似性度量,根据该度量对模式聚类,然后每个簇仅选择和输出一个代表模式。由于闭频繁模式的集合是原频繁模式集合的无损压缩,因此在闭模式集合上发现代表模式是可行的。

2)提取感知冗余的top-k模式

挖掘top-k个最频繁模式是一种减少挖掘返回的模式数量的策略。感知冗余的top-k模式在显著性和冗余性之间进行平衡,定义两个模式间的冗余性。

7.6 模式探索和应用

通过频繁模式的语义注解返回附加信息,有助于理解模式。频繁模式高质量语义注解的关键是成功的模式语境建模。语义模式注解的基本任务是:

1)选择语境单元,并多每个单元设计强度权重,对频繁模式的语境建模;

2)为两个模式的语境、一个事务和一个模式的语境设计相似性度量;

3)对于给定的频繁模式,提取最显著的语境指示符、代表事务和语义相似模式,构建注解。

在数据密集型应用中,模式挖掘作为预处理,广泛地用于噪声过滤和数据清理。模式挖掘也有助于发现隐藏在数据中的固有结构和簇。频繁模式也可用于高维空间中子空间的有效聚类。对于时间空间数据、时间序列数据、图像数据、视频数据和多媒体数据的分析,模式分析也是有用的。模式挖掘还用于序列或结构数据分析,如树、图、子序列和网络分析。频繁模式和有判别力的模式可用做基本的索引结构(称为图索引),帮助搜索大型复杂的、结构化的数据集和网络。频繁模式还可用于推荐系统,可发现相关性、顾客行为的簇和基于一般事件或有判别力模式的分类模型。对模式挖掘有效计算方法的研究和可伸缩的计算研究相互加强。

7.7 小结

1)除了挖掘基本的频繁项集和关联外,还可以挖掘高级的模式形式,如多层关联和多维关联、量化关联规则、稀有模式和负模式,还可挖掘高维模式、压缩的或近似的模式。

2)多层关联涉及多个抽象层中的数据,还可以使用多个最小支持度阈值挖掘。多维关联包含多个维。挖掘这种关联的技术因如何处理重复谓词而异。量化关联规则涉及量化属性。离散化、聚类和揭示异常行为的统计分析可以与模式挖掘过程集成在一起。

3)稀有模式很少出现但特别有趣。负模式是其成员呈现负相关行为的模式。需小心定义负模式,考虑零不变性性质。稀有模式和负模式可能凸显数据的异常行为,可能很有趣。

4)基于约束的挖掘策略可以用来引导挖掘过程,挖掘与用户直观一致或满足某些约束的模式。约束分为模式剪枝约束和数据剪枝约束,这些约束的性质包括单调性、反单调性、数据反单调性和简洁性。

5)高维空间模式挖掘方法,包括为挖掘维数很大但元组很少的数据集(如微阵列数据)的基于行枚举的模式增长方法,以及通过模式融合方法挖掘巨型模式(即非常大的模式)。

6)为减少挖掘返回的模式数量,可以代之以挖掘压缩模式或近似模式。压缩模式可以通过基于聚类概念定义代表模式来挖掘,而近似模式则通过提取感知冗余的top-k模式(即k个代表模式的小集合,不仅具有高显著性,而且相互之间低冗余)来挖掘。

7)可以产生语义注解来帮助用户理解发现的频繁模式的含义。注解类似词典,提供关于项的语义信息,包括语境指示符、最具代表性的事务和语义最相似的模式。

8)频繁模式挖掘具有广泛的应用,涵盖基于模式的数据清理,到基于模式的分类、聚类、离群点或异常分析。

【数据挖掘笔记七】高级模式挖掘相关推荐

  1. Python数据挖掘笔记 七 .PCA降维操作及subplot子图绘制

    Python数据挖掘笔记 七 .PCA降维操作及subplot子图绘制 这篇文章主要介绍四个知识点,也是我那节课讲课的内容.1.PCA降维操作:2.Python中Sklearn的PCA扩展包:3.Ma ...

  2. 数据挖掘-关联分析频繁模式挖掘Apriori、FP-Growth及Eclat算法的JAVA及C++实现

    (update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器.文本聚类器.关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ ) 一. ...

  3. 【数据挖掘笔记六】挖掘频繁模式、关联和相关性:基本概念和方法

    6.挖掘频繁模式.关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式. 6.1 基本概念 频繁模式挖掘搜索给定数据集中反复出现的联系,旨在发现大型事 ...

  4. 【数据挖掘笔记九】分类:高级方法

    9.分类:高级方法 9.1 贝叶斯信念网络 贝叶斯信念网络是一种概率的图模型,不假定类条件独立性,说明联合条件概率分布,允许在变量的子集间定义类条件独立性,提供一种因果关系的图形模型,可以在其上进行学 ...

  5. 【Python数据挖掘课程笔记】八.关联规则挖掘及Apriori实现购物推荐

    #2018-03-23 10:48:40 March Friday the 12 week, the 082 day SZ SSMR[Python数据挖掘课程笔记]八.关联规则挖掘及Apriori实现 ...

  6. 【数据挖掘】频繁模式挖掘及Python实现

    1.理论背景 在美国,著名的沃尔玛超市发现啤酒与尿布总是共同出现在购物车中,于是沃尔玛超市经过分析发现许多美国年轻的父亲下班之后经常要去购买婴儿的尿布,而在购买尿布的同时,他们往往会顺手购买一些啤酒: ...

  7. 数据挖掘(一)频繁模式挖掘算法的实现和对比

    注:参考多篇CSDN文章所得 一.实验内容 巩固频繁模式挖掘的基本算法原理及特点,设计程序,基于不同特征的数据集比较不同方法的优缺点,并基于算法原理和特点分析造成这种现象的原因. 二.算法原理 1 A ...

  8. 【数据挖掘笔记五】数据立方体技术

    5.数据立方体技术 数据仓库系统在各种粒度上为多维数据的交互分析提供OLAP工具,OLAP工具使用数据立方体和多维数据模型对汇总数据提供灵活的访问,因此重点要关注数据立方体的技术.数据立方体技术包括数 ...

  9. 【数据挖掘笔记一】引论

    1.引论 1.1为什么进行数据挖掘 数据挖掘,从数据中发现知识(KDD),从各种各样的应用数据中发现有趣数据模式.数据挖掘把大型数据集转换成知识.数据挖掘是信息技术自然进化的结果.数据库和数据管理功能 ...

最新文章

  1. Spring Boot 实现接口幂等性的 4 种方案!还有谁不会?
  2. [RDLC]报表根据字段列动态加载图片(二)
  3. 顺丰gis产品经理_线上面试季丰图科技—顺丰旗下专注GIS领域
  4. Leetcode--149. 直线上最多的点数
  5. 茄子快传 java,如何打造茄子快传这样一款Android应用(项目已完成,github)
  6. 最良心的Chrome插件可以良心到什么程度?
  7. unity 获取预制体_Unity打包插件AssetsBundleBrowser的使用
  8. 树莓派(Linux)与镜像源
  9. 学习笔记——正则匹配方法整理
  10. proteus常用元器件名称
  11. trackpoint_如何在戴尔笔记本电脑上禁用TrackPoint鼠标按钮?
  12. 服务器抓取MIUI ota信息,官方科普|关于MIUI系统OTA
  13. 科技论文写作经验之谈
  14. 虚拟机搭建Harbor安装和简单使用
  15. c++11新特性std::is_trivial
  16. 类似搜狐新闻的栏目定制
  17. 计算机国际会议口头报告范例,国际会议口头报告ppt演讲内容准备模板
  18. python中将数字转换为字符串
  19. Android display
  20. php文件怎么打开?怎么打开PHP文件?

热门文章

  1. 计算机应用基础dos,计算机应用基础2(带答案)
  2. ubuntu安装qtcreator
  3. 在java的内存分配中存在下面一些内存划分
  4. 从输入url到显示网页,后台发生了什么?
  5. IOS-多线程(NSOperation)
  6. Eclipse 快捷键(转载)
  7. 【转】ASP.NET验证控件详解(非空验证,比较验证,范围验证,正则表达式,自定义验证)...
  8. 【Vegas原创】GridView设定DataFormatString属性失效的解决方法
  9. PMP考试资料:这个项目值得去做吗
  10. wince6.0 编译报错:error C2220: warning treated as error - no 'object' file generated的解决办法