【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★
文章目录
- 一、 支持度 置信度
- 二、 频繁项集
- 三、 非频繁项集
- 四、 Apriori 算法过程
- 五、模式挖掘示例
一、 支持度 置信度
给定 X,Y\rm X , YX,Y 两个项集 , 并且有 X≥Y\rm X \geq YX≥Y ;
支持度 : X⇒Y\rm X \Rightarrow YX⇒Y 的支持度是 X,Y\rm X , YX,Y 两个项集在数据库 D\rm DD 中 同时出现的概率 , 即 Pr(X∪Y)\rm Pr(X \cup Y)Pr(X∪Y)
置信度 : X⇒Y\rm X \Rightarrow YX⇒Y 的置信度度是 X\rm XX 出现的前提下 , Y\rm YY 项集在数据库 D\rm DD 中同时出现的概率 , 即 Pr(Y∣X)=Pr(X∪Y)Pr(X)\rm Pr(Y|X) = \cfrac{Pr(X \cup Y)}{Pr(X)}Pr(Y∣X)=Pr(X)Pr(X∪Y)
一般情况下 置信度 大于 支持度 ;
支持度用于找出 频繁项集 ;
置信度用于找出 关联规则 ;
二、 频繁项集
项集 X\rm XX 的 支持度 support(X)\rm support(X)support(X) , 大于等于 指定的 最小支持度阈值 minsup\rm minsupminsup ,
则称该 项集 X\rm XX 为 频繁项集 ,
又称为 频繁项目集 ;
三、 非频繁项集
项集 X\rm XX 的 支持度 support(X)\rm support(X)support(X) , 小于 指定的 最小支持度阈值 minsup\rm minsupminsup ,
则称该 项集 X\rm XX 为 非频繁项集 ,
又称为 非频繁项目集 ;
四、 Apriori 算法过程
原始数据集 D\rm DD ,
111 项集 C1\rm C_1C1 , 222 项集 C2\rm C_2C2 , ⋯\cdots⋯ , k\rm kk 项集 Ck\rm C_kCk , 这些项集都是候选项集 ,
根据 原始数据集 D\rm DD , 创造 111 项集 C1\rm C_1C1 , 然后对 C1\rm C_1C1 执行 数据集扫描函数 , 找到其中的 频繁 111 项集 L1\rm L_1L1 ,
根据 频繁 111 项集 L1\rm L_1L1 , 创造 222 项集 C2\rm C_2C2 , 然后对 C2\rm C_2C2 执行 数据集扫描函数 , 找到其中的 频繁 222 项集 L2\rm L_2L2 ,
⋮\vdots⋮
根据 频繁 k−1\rm k-1k−1 项集 Lk−1\rm L_{k-1}Lk−1 , 创造 k\rm kk 项集 Ck\rm C_kCk , 然后对 Ck\rm C_kCk 执行 数据集扫描函数 , 找到其中的 频繁 k\rm kk 项集 Lk\rm L_kLk ,
参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
五、模式挖掘示例
如下事物数据库 , 最小支持度 60%\rm 60\%60% , 最小置信度 80%\rm 80\%80% ;
TID | Item |
---|---|
T1 | {M,O,N,K,E,Y}\rm \{ M, O, N , K, E, Y \}{M,O,N,K,E,Y} |
T2 | {D,O,N,K,E,Y}\rm \{ D, O, N , K, E, Y \}{D,O,N,K,E,Y} |
T3 | {M,A,K,E}\rm \{ M, A , K, E \}{M,A,K,E} |
T4 | {M,U,C,K,Y}\rm \{ M, U, C , K, Y \}{M,U,C,K,Y} |
T5 | {C,O,O,K,I,E}\rm \{ C, O, O , K, I , E \}{C,O,O,K,I,E} |
( 1 ) 使用 Apriori 算法找出所有频繁项集 ;
( 2 ) 写出关联规则 ;
( 1 ) 使用 Apriori 算法找出所有频繁项集 :
根据原始数据集 D\rm DD 创造 111 项集 C1\rm C_1C1 , 如下 :
Item | 支持度 |
---|---|
{A}\rm \{ A \}{A} | 20%\rm 20\%20% |
{C}\rm \{ C \}{C} | 40%\rm 40\%40% |
{E}\rm \{ E \}{E} | 80%\rm 80\%80% |
{I}\rm \{ I \}{I} | 20%\rm 20\%20% |
{K}\rm \{ K \}{K} | 80%\rm 80\%80% |
{M}\rm \{ M \}{M} | 60%\rm 60\%60% |
{N}\rm \{ N \}{N} | 40%\rm 40\%40% |
{O}\rm \{ O \}{O} | 60%\rm 60\%60% |
{U}\rm \{ U \}{U} | 20%\rm 20\%20% |
{Y}\rm \{ Y \}{Y} | 60%\rm 60\%60% |
对 111 项集 C1\rm C_1C1 执行数据集扫描函数 , 找到频繁 111 项集 L1\rm L_1L1 , 即筛选出支持度大于等于 60%\rm 60\%60% 的 111 项集 :
Item | 支持度 |
---|---|
{E}\rm \{ E \}{E} | 80%\rm 80\%80% |
{K}\rm \{ K \}{K} | 80%\rm 80\%80% |
{M}\rm \{ M \}{M} | 60%\rm 60\%60% |
{O}\rm \{ O \}{O} | 60%\rm 60\%60% |
{Y}\rm \{ Y \}{Y} | 60%\rm 60\%60% |
根据 频繁 111 项集 L1\rm L_1L1 创造 222 项集 C2\rm C_2C2 , 如下 :
Item | 支持度 |
---|---|
{E,K}\rm \{ E , K \}{E,K} | 80%\rm 80\%80% |
{E,M}\rm \{ E, M \}{E,M} | 40%\rm 40\%40% |
{E,O}\rm \{ E,O \}{E,O} | 60%\rm 60\%60% |
{E,Y}\rm \{ E,Y \}{E,Y} | 40%\rm 40\%40% |
{K,M}\rm \{ K,M \}{K,M} | 40%\rm 40\%40% |
{K,O}\rm \{ K,O \}{K,O} | 60%\rm 60\%60% |
{K,Y}\rm \{ K,Y \}{K,Y} | 60%\rm 60\%60% |
{M,O}\rm \{ M,O \}{M,O} | 20%\rm 20\%20% |
{M,Y}\rm \{ M,Y \}{M,Y} | 40%\rm 40\%40% |
{O,Y}\rm \{ O,Y \}{O,Y} | 40%\rm 40\%40% |
对 222 项集 C2\rm C_2C2 执行数据集扫描函数 , 找到频繁 222 项集 L2\rm L_2L2 , 即筛选出支持度大于等于 60%\rm 60\%60% 的 222 项集 :
Item | 支持度 |
---|---|
{E,K}\rm \{ E , K \}{E,K} | 80%\rm 80\%80% |
{E,O}\rm \{ E,O \}{E,O} | 60%\rm 60\%60% |
{K,O}\rm \{ K,O \}{K,O} | 60%\rm 60\%60% |
{K,Y}\rm \{ K,Y \}{K,Y} | 60%\rm 60\%60% |
根据 频繁 222 项集 L2\rm L_2L2 创造 333 项集 C3\rm C_3C3 , 如下 :
Item | 支持度 |
---|---|
{E,K,O}\rm \{ E , K, O \}{E,K,O} | 60%\rm 60\%60% |
{E,O,Y}\rm \{ E,O , Y\}{E,O,Y} | 40%\rm 40\%40% |
{K,O,Y}\rm \{ K,O , Y\}{K,O,Y} | 40%\rm 40\%40% |
对 333 项集 C3\rm C_3C3 执行数据集扫描函数 , 找到频繁 333 项集 L3\rm L_3L3 , 即筛选出支持度大于等于 60%\rm 60\%60% 的 333 项集 :
Item | 支持度 |
---|---|
{E,K,O}\rm \{ E , K, O \}{E,K,O} | 60%\rm 60\%60% |
最终得出结果 :
频繁 111 项集 : {E},{K},{M},{O},{Y},\rm \{E\},\{K\},\{M\},\{O\},\{Y\},{E},{K},{M},{O},{Y},
频繁 222 项集 : {E,K},{E,O},{K,O},{K,Y}\rm \{E,K\},\{E,O\},\{K,O\},\{K,Y\}{E,K},{E,O},{K,O},{K,Y}
频繁 333 项集 : {E,K,O}\rm \{E,K,O\}{E,K,O}
( 2 ) 写出关联规则 ;
置信度大于等于 80%\rm 80\%80% 就说明有关联规则 ;
基于 频繁 222 项集 L2\rm L_2L2 的关联规则 :
置信度 | |
---|---|
E⇒K\rm E \Rightarrow KE⇒K | EKE=44=1\rm \cfrac{EK}{E} = \cfrac{4}{4} = 1EEK=44=1 |
K⇒E\rm K \Rightarrow EK⇒E | EKK=45=0.8\rm \cfrac{EK}{K} = \cfrac{4}{5} = 0.8KEK=54=0.8 |
E⇒O\rm E \Rightarrow OE⇒O | EOE=34=0.75\rm \cfrac{EO}{E} = \cfrac{3}{4} = 0.75EEO=43=0.75 |
O⇒E\rm O\Rightarrow EO⇒E | EOO=33=1\rm \cfrac{EO}{O} = \cfrac{3}{3} = 1OEO=33=1 |
K⇒O\rm K \Rightarrow OK⇒O | KOK=35=0.6\rm \cfrac{KO}{K} = \cfrac{3}{5} = 0.6KKO=53=0.6 |
O⇒K\rm O \Rightarrow KO⇒K | KOO=33=1\rm \cfrac{KO}{O} = \cfrac{3}{3} = 1OKO=33=1 |
K⇒Y\rm K \Rightarrow YK⇒Y | EKE=35=0.6\rm \cfrac{EK}{E} = \cfrac{3}{5} = 0.6EEK=53=0.6 |
Y⇒K\rm Y \Rightarrow KY⇒K | EKE=33=1\rm \cfrac{EK}{E} = \cfrac{3}{3} = 1EEK=33=1 |
基于 频繁 333 项集 L3\rm L_3L3 的关联规则 :
置信度 | |
---|---|
E⇒K,O\rm E \Rightarrow K,OE⇒K,O | EKOE=34=0.75\rm \cfrac{EKO}{E} = \cfrac{3}{4} = 0.75EEKO=43=0.75 |
K,O⇒E\rm K,O \Rightarrow EK,O⇒E | EKOKO=33=1\rm \cfrac{EKO}{KO} = \cfrac{3}{3} = 1KOEKO=33=1 |
K⇒E,O\rm K \Rightarrow E,OK⇒E,O | KEOK=35=0.6\rm \cfrac{KEO}{K} = \cfrac{3}{5} = 0.6KKEO=53=0.6 |
E,O⇒K\rm E,O\Rightarrow KE,O⇒K | EOKEO=33=1\rm \cfrac{EOK}{EO} = \cfrac{3}{3} = 1EOEOK=33=1 |
O⇒E,K\rm O \Rightarrow E,KO⇒E,K | OEKO=34=0.75\rm \cfrac{OEK}{O} = \cfrac{3}{4} = 0.75OOEK=43=0.75 |
E,K⇒O\rm E,K \Rightarrow OE,K⇒O | EKOEK=34=0.75\rm \cfrac{EKO}{EK} = \cfrac{3}{4} = 0.75EKEKO=43=0.75 |
根据置信度 ≥80%\rm \geq 80\%≥80%关联规则有 :
L2\rm L_2L2 关联规则 : E⇒K\rm E \Rightarrow KE⇒K , K⇒E\rm K \Rightarrow EK⇒E , O⇒E\rm O\Rightarrow EO⇒E , O⇒K\rm O \Rightarrow KO⇒K , Y⇒K\rm Y \Rightarrow KY⇒K ;
L3\rm L_3L3 关联规则 : K,O⇒E\rm K,O \Rightarrow EK,O⇒E , E,O⇒K\rm E,O\Rightarrow KE,O⇒K ;
【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★相关推荐
- 数据挖掘---频繁项集挖掘Apriori算法的C++实现
1 准备 首先实现这个算法是基于中南大学软件学院数据挖掘课的上机作业.作业(全英文)下载地址:http://download.csdn.net/detail/freeape/9188451 2 作 ...
- apriori java_频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念 支持度:support(A=>B) ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )
文章目录 一. 非频繁项集超集性质 二. 频繁项集子集性质 三. 项集与超集支持度性质 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Trans ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
文章目录 一. 关联规则 二. 数据项支持度 三. 关联规则支持度 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
文章目录 一. 频繁项集 二. 非频繁项集 三. 强关联规则 四. 弱关联规则 五. 发现关联规则 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
文章目录 一. 置信度 二. 置信度 示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 ...
- 【数据挖掘】频繁模式挖掘及Python实现
1.理论背景 在美国,著名的沃尔玛超市发现啤酒与尿布总是共同出现在购物车中,于是沃尔玛超市经过分析发现许多美国年轻的父亲下班之后经常要去购买婴儿的尿布,而在购买尿布的同时,他们往往会顺手购买一些啤酒: ...
- 数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
全文链接:http://tecdat.cn/?p=32092 我们一般把一件事情发生,对另一件事情也会产生影响的关系叫做关联.而关联分析就是在大量数据中发现项集之间有趣的关联和相关联系(形如" ...
- [DM复习]Apriori算法-国会投票记录关联规则挖掘(上)
Apriori算法|关联规则挖掘 〇.相关基础概念 1.购物篮数据的二元表示 事务:购物篮数据可以用一个列表来表示,列表中的每一行都对应一个事务 项:表格中的每一列则对应一个数据项 项的二元表示:如果 ...
最新文章
- php 上传大文件涉及的配置,upload_max_filesize,post_max_size
- Linux和Windows下使用printf的差别
- cin和scanf读入速度
- 通过数组和枚举简化GPIO操作编码
- Python Pandas导出Hbase数据到dataframe
- Linux指令:AWK - 可编程流编辑器
- Android开机设置自启动
- OpenCV-图像处理(08、模糊图像一)
- c语言实现61850协议,C语言实现61850库实现代码
- 迪文屏DMT12800K070_A2WTC踩坑实录(一)
- MFC—界面设计(控件自适应,添加背景图,Static背景颜色设置)
- 黑白图片复原为彩色Picture Colorizer(图片着色器)
- 聊天框 让滚动条保持到最底端的一种方式 scrollTop!
- TKIP中MIC值的算法及实现
- 85寸电视机长宽是多少
- Kafka安装web界面监控工具(kafka-manager)
- 织梦dedecms导航指定栏目加上rel=nofollow的方法
- oracle dba导入,“只有DBA才能导入由其他DBA导出的文件”各种解决办法
- 2019年,React 开发者应该掌握的 22 种神奇工具
- python爬虫天气