Frequent Itemset(频繁项集)

称I={i1,i2,...,im}I=\{i_1, i_2, ..., i_m\}I={i1​,i2​,...,im​}为项(Item)的集合,D={T1,T2,...,Tn}D=\{T_1, T_2, ...,T_n\}D={T1​,T2​,...,Tn​},i∈[1,n]i∈[1,n]i∈[1,n]为事务数据集(Transaction Data Itemsets),事务TiT_iTi​由III中若干项组成。

设SSS为由项组成的一个集合,S={i∣i∈I}S=\{i|i∈I\}S={i∣i∈I},简称项集(Itemset)。包含k个项的项集称为k-项集

ttt为一条事务, 如果S⊆tS\subseteq tS⊆t, 则称事务ttt包含SSS。

SSS的支持度:sup(S)=(包含S的事务数量D中总的事务数量)×100%sup(S) = ({包含S的事务数量\over D中总的事务数量})\times 100\%sup(S)=(D中总的事务数量包含S的事务数量​)×100%

若SSS的支持度≥给定最小支持度,称SSS为频繁项集(Frequent Itemset)

例如,有交易数据库

TID item
1 abc
2 abcd
3 bce
4 acde
5 de

TID为事务编号,item为事务数据集的内容。

现在有项集S1={b,c}S_1 = \{b,c\}S1​={b,c},它出现在TID为1,2,3的事务中,也就是S1⊆{a,b,c}S_1\subseteq \{a,b,c\}S1​⊆{a,b,c},S1⊆{a,b,c,d}S_1\subseteq \{a,b,c,d\}S1​⊆{a,b,c,d},S1⊆{b,c,e}S_1\subseteq \{b,c,e\}S1​⊆{b,c,e}。

所以S1S_1S1​的支持度计数为3,支持度为353\over 553​。

如果支持度阈值小于60%60\%60%,那么S1S_1S1​就是一个频繁项集。

Superset(超集)

若一个集合S2S_2S2​中的每一个元素都在集合S1S_1S1​中,且集合S1S_1S1​中可能包含S2S_2S2​中没有的元素,则集合S1S_1S1​就是S2S_2S2​的一个超集。S1S_1S1​是S2S_2S2​的超集,则S2S_2S2​是S1S_1S1​的真子集,反之亦然。

接着上面的例子,

TID item
1 abc
2 abcd
3 bce
4 acde
5 de

现在有项集S1={b,c}S_1 = \{b,c\}S1​={b,c},那么它就是{b}\{b\}{b},{c}\{c\}{c}的超集。S1S_1S1​也是{a,b,c}\{a,b,c\}{a,b,c}等的真子集。

Max Pattern/Maximal Frequent Itemset(最大频繁项集)

如果频繁项集L的所有超集都是非频繁项集,那么称L为最大频繁项集称最大频繁模式,记为MFI (Maximal Frequent Itemset)。

频繁项集是最大频繁项集的子集。最大频繁项集中包含了频繁项集的频繁信息,且通常项集的规模要小几个数量级。所以在数据集中含有较长的频繁模式时挖掘最大频繁项集是非常有效的手段。

综上,最大频繁项集是各频繁k项集中符合无超集条件的频繁项集。

接着上面的例子,

TID item
1 abc
2 abcd
3 bce
4 acde
5 de

现在有项集S1={b,c}S_1 = \{b,c\}S1​={b,c},且有支持度阈值=60%=60\%=60%。

那么S1S_1S1​就是一个频繁项集,那么我们来看看它的超集。

Superset count
abc 2
bcd 1
bce 1
abcd 1
abce 0
bcde 0
abcde 0

由此可见,它们的支持度都小于60%60\%60%,所以它们都不是频繁项集。

所以S1S_1S1​的所有超集都不是频繁项集,则它是最大频繁项集。

close pattern(闭合频繁项集)

所谓闭项集,就是指一个项集X,它的**直接超集(最小的严格超集)**的支持度计数都不等于它本身的支持度计数。如果闭项集同时是频繁的,也就是它的支持度大于等于最小支持度阈值,那它就称为闭频繁项集。

接着上面的例子,

TID item
1 abc
2 abcd
3 bce
4 acde
5 de

因为项集{b,c}出现在TID为1,2,3的事务中,所以{b,c}的支持度计数为3。而{b,c}的直接超集:{a,b,c}的支持度计数为2,都不等于{b,c}的支持度计数3,所以{b,c}为闭项集,如果支持度阈值为40%,则{b,c}也为闭频繁项集。

项集{a,b}出现在TID为1,2的事务中,其支持度计数为2。而它的直接超集{a,b,c}支持度计数也为2,所以{a,b}不是闭项集。

数据挖掘中的模式发现(一)频繁项集、频繁闭项集、最大频繁项集相关推荐

  1. 数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)

    Pattern Evaluation简介 模式评估指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式. 我们之前通过support-confidence association rule mini ...

  2. 四、数据挖掘中常见的挖掘模式

    1.数据挖掘的模式 数据挖掘功能用于指定数据挖掘任务发现的模式:一般而言,这些任务可以分为两类:描述性和预测性.描述性挖掘任务刻画目标数据中数据的一般性质.预测性挖掘任务在当前数据上进行归纳,以便做出 ...

  3. 以人为本的机器学习:谷歌人工智能产品设计概述 By 机器之心2017年7月17日 12:13 取代了手动编程,机器学习(ML)是一种帮助计算机发现数据中的模式和关系的科学。对于创建个人的和动态的经历

    以人为本的机器学习:谷歌人工智能产品设计概述 By 机器之心2017年7月17日 12:13 取代了手动编程,机器学习(ML)是一种帮助计算机发现数据中的模式和关系的科学.对于创建个人的和动态的经历来 ...

  4. 深度学习在轨迹数据挖掘中的应用研究综述

    深度学习在轨迹数据挖掘中的应用研究综述 人工智能技术与咨询 来源:< 计算机科学与应用> ,作者李旭娟等 关键词: 深度学习:数据挖掘:轨迹挖掘:长短时记忆:序列到序列 摘要: 在过去十年 ...

  5. 数据挖掘课程学习——序列模式发现相关内容调研

    数据挖掘课程学习--序列模式发现相关内容调研 本次实验完成"序列模式发现"的相关内容调研,主要内容包括:什么是序列模式发现:应用在哪些领域:经典的算法有哪些:应用在怎样的数据上:得 ...

  6. VR中多模式异步协作的挑战和设计考虑因素

    VR中多模式异步协作的挑战和设计考虑因素 原作者: KEVIN CHOW, University of British Columbia, Canada CAITLIN COYIUTO, Univer ...

  7. 数据挖掘中所需的概率论与数理统计知识,上

    http://www.cnblogs.com/v-July-v/archive/2012/12/17/3125418.html 数据挖掘中所需的概率论与数理统计知识.上 ( 关键词:微积分.概率分布. ...

  8. 数据挖掘中的支持度 置信度 期望置信度 提升度

    在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对 关联规则挖掘 做一个小的总结. 首先,和聚类算法一样,关联规则挖掘属于 无监督学 ...

  9. 数据挖掘中分类算法小结

    数据挖掘中分类算法小结   数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势 ...

最新文章

  1. php 通过exec 创建git分支失败
  2. flutter-webview的坑用到第三方插件的
  3. hibernate 标识符_Hibernate中的标识符
  4. ZOJ 3804 YY's Minions (简单模拟)
  5. CSP-S/J2019认证相关内容
  6. GBTC负溢价扩大至20.44%,创下历史新低
  7. 重大改革!Python将被加入高考科目!
  8. 三维计算机视觉(六)--3DSC(3D形状上下文特征)
  9. 牛奶盒喷码字符识别(基于opencv)————(三)字符的识别
  10. 移动机器人路径规划:人工势场法
  11. Android BT STACK BTU 和 HCI之间的消息传递
  12. sqlldr mysql_sqlldr数据导入
  13. 松翰单片机定时器c语言,松翰T0 定时器中断
  14. 【LGP5108】仰望半月的夜空
  15. 特征图注意力_计算机视觉中的Non-local-Block以及其他注意力机制
  16. 拒绝被淘汰,如何打造自己的金饭碗?
  17. Spring2:bean的使用
  18. 查阅相关文献描述CN,SMC,EMCI,LMCI,AD五类疾病的早期干预和诊断标准|2022数维杯国赛C题
  19. Matlab中使用LaTex字体
  20. 建模中常用的30各MATLAB程序和函数

热门文章

  1. Linux 标准输入、标准输出、错误输出及其重定向
  2. Python中pandas库实现数据缺失值判断isnull()函数
  3. 养老机构智能视频监控解决方案,用新技术助力养老院智慧监管
  4. Java初学小项目--基于awt库,swing库的可视化电影管理系统(三)
  5. c++11之STL容器
  6. Opencv--cvRound()、cvFloor()、 cvCeil()
  7. 逻辑回归画图_逻辑回归
  8. 对于训练时loss出现负值的情况
  9. 一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss
  10. 多模态特征融合方法总结