文章目录

一、支持度置信度
二、频繁项集
三、非频繁项集
四、 Apriori 算法过程
五、模式挖掘示例

一、支持度置信度

给定 X,Y\rm X , YX,Y 两个项集 , 并且有 X≥Y\rm X \geq YX≥Y ;

支持度 : X⇒Y\rm X \Rightarrow YX⇒Y 的支持度是 X,Y\rm X , YX,Y 两个项集在数据库 D\rm DD 中同时出现的概率 , 即 Pr(X∪Y)\rm Pr(X \cup Y)Pr(X∪Y)

置信度 : X⇒Y\rm X \Rightarrow YX⇒Y 的置信度度是 X\rm XX 出现的前提下 , Y\rm YY 项集在数据库 D\rm DD 中同时出现的概率 , 即 Pr(Y∣X)=Pr(X∪Y)Pr(X)\rm Pr(Y|X) = \cfrac{Pr(X \cup Y)}{Pr(X)}Pr(Y∣X)=Pr(X)Pr(X∪Y)

一般情况下置信度大于支持度 ;

支持度用于找出频繁项集 ;

置信度用于找出关联规则 ;

二、频繁项集

项集 X\rm XX 的支持度 support(X)\rm support(X)support(X) , 大于等于指定的最小支持度阈值 minsup\rm minsupminsup ,

则称该项集 X\rm XX 为频繁项集 ,

又称为频繁项目集 ;

三、非频繁项集

项集 X\rm XX 的支持度 support(X)\rm support(X)support(X) , 小于指定的最小支持度阈值 minsup\rm minsupminsup ,

则称该项集 X\rm XX 为非频繁项集 ,

又称为非频繁项目集 ;

四、 Apriori 算法过程

原始数据集 D\rm DD ,

111 项集 C1\rm C_1C1 , 222 项集 C2\rm C_2C2 , ⋯\cdots⋯ , k\rm kk 项集 Ck\rm C_kCk , 这些项集都是候选项集 ,

根据原始数据集 D\rm DD , 创造 111 项集 C1\rm C_1C1 , 然后对 C1\rm C_1C1 执行数据集扫描函数 , 找到其中的频繁 111 项集 L1\rm L_1L1 ,

根据频繁 111 项集 L1\rm L_1L1 , 创造 222 项集 C2\rm C_2C2 , 然后对 C2\rm C_2C2 执行数据集扫描函数 , 找到其中的频繁 222 项集 L2\rm L_2L2 ,

⋮\vdots⋮

根据频繁 k−1\rm k-1k−1 项集 Lk−1\rm L_{k-1}Lk−1 , 创造 k\rm kk 项集 Ck\rm C_kCk , 然后对 Ck\rm C_kCk 执行数据集扫描函数 , 找到其中的频繁 k\rm kk 项集 Lk\rm L_kLk ,

参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

五、模式挖掘示例

如下事物数据库 , 最小支持度 60%\rm 60\%60% , 最小置信度 80%\rm 80\%80% ;

TID	Item
T1	{M,O,N,K,E,Y}\rm \{ M, O, N , K, E, Y \}{M,O,N,K,E,Y}
T2	{D,O,N,K,E,Y}\rm \{ D, O, N , K, E, Y \}{D,O,N,K,E,Y}
T3	{M,A,K,E}\rm \{ M, A , K, E \}{M,A,K,E}
T4	{M,U,C,K,Y}\rm \{ M, U, C , K, Y \}{M,U,C,K,Y}
T5	{C,O,O,K,I,E}\rm \{ C, O, O , K, I , E \}{C,O,O,K,I,E}

( 1 ) 使用 Apriori 算法找出所有频繁项集 ;

( 2 ) 写出关联规则 ;

( 1 ) 使用 Apriori 算法找出所有频繁项集 :

根据原始数据集 D\rm DD 创造 111 项集 C1\rm C_1C1 , 如下 :

Item	支持度
{A}\rm \{ A \}{A}	20%\rm 20\%20%
{C}\rm \{ C \}{C}	40%\rm 40\%40%
{E}\rm \{ E \}{E}	80%\rm 80\%80%
{I}\rm \{ I \}{I}	20%\rm 20\%20%
{K}\rm \{ K \}{K}	80%\rm 80\%80%
{M}\rm \{ M \}{M}	60%\rm 60\%60%
{N}\rm \{ N \}{N}	40%\rm 40\%40%
{O}\rm \{ O \}{O}	60%\rm 60\%60%
{U}\rm \{ U \}{U}	20%\rm 20\%20%
{Y}\rm \{ Y \}{Y}	60%\rm 60\%60%

对 111 项集 C1\rm C_1C1 执行数据集扫描函数 , 找到频繁 111 项集 L1\rm L_1L1 , 即筛选出支持度大于等于 60%\rm 60\%60% 的 111 项集 :

Item	支持度
{E}\rm \{ E \}{E}	80%\rm 80\%80%
{K}\rm \{ K \}{K}	80%\rm 80\%80%
{M}\rm \{ M \}{M}	60%\rm 60\%60%
{O}\rm \{ O \}{O}	60%\rm 60\%60%
{Y}\rm \{ Y \}{Y}	60%\rm 60\%60%

根据频繁 111 项集 L1\rm L_1L1 创造 222 项集 C2\rm C_2C2 , 如下 :

Item	支持度
{E,K}\rm \{ E , K \}{E,K}	80%\rm 80\%80%
{E,M}\rm \{ E, M \}{E,M}	40%\rm 40\%40%
{E,O}\rm \{ E,O \}{E,O}	60%\rm 60\%60%
{E,Y}\rm \{ E,Y \}{E,Y}	40%\rm 40\%40%
{K,M}\rm \{ K,M \}{K,M}	40%\rm 40\%40%
{K,O}\rm \{ K,O \}{K,O}	60%\rm 60\%60%
{K,Y}\rm \{ K,Y \}{K,Y}	60%\rm 60\%60%
{M,O}\rm \{ M,O \}{M,O}	20%\rm 20\%20%
{M,Y}\rm \{ M,Y \}{M,Y}	40%\rm 40\%40%
{O,Y}\rm \{ O,Y \}{O,Y}	40%\rm 40\%40%

对 222 项集 C2\rm C_2C2 执行数据集扫描函数 , 找到频繁 222 项集 L2\rm L_2L2 , 即筛选出支持度大于等于 60%\rm 60\%60% 的 222 项集 :

Item	支持度
{E,K}\rm \{ E , K \}{E,K}	80%\rm 80\%80%
{E,O}\rm \{ E,O \}{E,O}	60%\rm 60\%60%
{K,O}\rm \{ K,O \}{K,O}	60%\rm 60\%60%
{K,Y}\rm \{ K,Y \}{K,Y}	60%\rm 60\%60%

根据频繁 222 项集 L2\rm L_2L2 创造 333 项集 C3\rm C_3C3 , 如下 :

Item	支持度
{E,K,O}\rm \{ E , K, O \}{E,K,O}	60%\rm 60\%60%
{E,O,Y}\rm \{ E,O , Y\}{E,O,Y}	40%\rm 40\%40%
{K,O,Y}\rm \{ K,O , Y\}{K,O,Y}	40%\rm 40\%40%

对 333 项集 C3\rm C_3C3 执行数据集扫描函数 , 找到频繁 333 项集 L3\rm L_3L3 , 即筛选出支持度大于等于 60%\rm 60\%60% 的 333 项集 :

Item	支持度
{E,K,O}\rm \{ E , K, O \}{E,K,O}	60%\rm 60\%60%

最终得出结果 :

频繁 111 项集 : {E},{K},{M},{O},{Y},\rm \{E\},\{K\},\{M\},\{O\},\{Y\},{E},{K},{M},{O},{Y},

频繁 222 项集 : {E,K},{E,O},{K,O},{K,Y}\rm \{E,K\},\{E,O\},\{K,O\},\{K,Y\}{E,K},{E,O},{K,O},{K,Y}

频繁 333 项集 : {E,K,O}\rm \{E,K,O\}{E,K,O}

( 2 ) 写出关联规则 ;

置信度大于等于 80%\rm 80\%80% 就说明有关联规则 ;

基于频繁 222 项集 L2\rm L_2L2 的关联规则 :

	置信度
E⇒K\rm E \Rightarrow KE⇒K	EKE=44=1\rm \cfrac{EK}{E} = \cfrac{4}{4} = 1EEK=44=1
K⇒E\rm K \Rightarrow EK⇒E	EKK=45=0.8\rm \cfrac{EK}{K} = \cfrac{4}{5} = 0.8KEK=54=0.8
E⇒O\rm E \Rightarrow OE⇒O	EOE=34=0.75\rm \cfrac{EO}{E} = \cfrac{3}{4} = 0.75EEO=43=0.75
O⇒E\rm O\Rightarrow EO⇒E	EOO=33=1\rm \cfrac{EO}{O} = \cfrac{3}{3} = 1OEO=33=1
K⇒O\rm K \Rightarrow OK⇒O	KOK=35=0.6\rm \cfrac{KO}{K} = \cfrac{3}{5} = 0.6KKO=53=0.6
O⇒K\rm O \Rightarrow KO⇒K	KOO=33=1\rm \cfrac{KO}{O} = \cfrac{3}{3} = 1OKO=33=1
K⇒Y\rm K \Rightarrow YK⇒Y	EKE=35=0.6\rm \cfrac{EK}{E} = \cfrac{3}{5} = 0.6EEK=53=0.6
Y⇒K\rm Y \Rightarrow KY⇒K	EKE=33=1\rm \cfrac{EK}{E} = \cfrac{3}{3} = 1EEK=33=1

基于频繁 333 项集 L3\rm L_3L3 的关联规则 :

	置信度
E⇒K,O\rm E \Rightarrow K,OE⇒K,O	EKOE=34=0.75\rm \cfrac{EKO}{E} = \cfrac{3}{4} = 0.75EEKO=43=0.75
K,O⇒E\rm K,O \Rightarrow EK,O⇒E	EKOKO=33=1\rm \cfrac{EKO}{KO} = \cfrac{3}{3} = 1KOEKO=33=1
K⇒E,O\rm K \Rightarrow E,OK⇒E,O	KEOK=35=0.6\rm \cfrac{KEO}{K} = \cfrac{3}{5} = 0.6KKEO=53=0.6
E,O⇒K\rm E,O\Rightarrow KE,O⇒K	EOKEO=33=1\rm \cfrac{EOK}{EO} = \cfrac{3}{3} = 1EOEOK=33=1
O⇒E,K\rm O \Rightarrow E,KO⇒E,K	OEKO=34=0.75\rm \cfrac{OEK}{O} = \cfrac{3}{4} = 0.75OOEK=43=0.75
E,K⇒O\rm E,K \Rightarrow OE,K⇒O	EKOEK=34=0.75\rm \cfrac{EKO}{EK} = \cfrac{3}{4} = 0.75EKEKO=43=0.75

根据置信度 ≥80%\rm \geq 80\%≥80%关联规则有 :

L2\rm L_2L2 关联规则 : E⇒K\rm E \Rightarrow KE⇒K , K⇒E\rm K \Rightarrow EK⇒E , O⇒E\rm O\Rightarrow EO⇒E , O⇒K\rm O \Rightarrow KO⇒K , Y⇒K\rm Y \Rightarrow KY⇒K ;

L3\rm L_3L3 关联规则 : K,O⇒E\rm K,O \Rightarrow EK,O⇒E , E,O⇒K\rm E,O\Rightarrow KE,O⇒K ;

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★相关推荐

数据挖掘---频繁项集挖掘Apriori算法的C++实现
1 准备首先实现这个算法是基于中南大学软件学院数据挖掘课的上机作业.作业(全英文)下载地址:http://download.csdn.net/detail/freeape/9188451 2 作 ...
apriori java_频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念支持度:support(A=>B) ...
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )
文章目录一. 非频繁项集超集性质二. 频繁项集子集性质三. 项集与超集支持度性质参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 Trans ...
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
文章目录一. 关联规则二. 数据项支持度三. 关联规则支持度参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 Transaction 概念 ...
【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
文章目录一. Apriori 算法过程二. Apriori 算法示例参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 Transaction ...
【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
文章目录一. 频繁项集二. 非频繁项集三. 强关联规则四. 弱关联规则五. 发现关联规则参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 ...
【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
文章目录一. 置信度二. 置信度示例参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 Transaction 概念 | 项 Item 概念 ...
【数据挖掘】频繁模式挖掘及Python实现
1.理论背景在美国,著名的沃尔玛超市发现啤酒与尿布总是共同出现在购物车中,于是沃尔玛超市经过分析发现许多美国年轻的父亲下班之后经常要去购买婴儿的尿布,而在购买尿布的同时,他们往往会顺手购买一些啤酒: ...
数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
全文链接:http://tecdat.cn/?p=32092 我们一般把一件事情发生,对另一件事情也会产生影响的关系叫做关联.而关联分析就是在大量数据中发现项集之间有趣的关联和相关联系(形如" ...
[DM复习]Apriori算法-国会投票记录关联规则挖掘（上）
Apriori算法|关联规则挖掘〇.相关基础概念 1.购物篮数据的二元表示事务:购物篮数据可以用一个列表来表示,列表中的每一行都对应一个事务项:表格中的每一列则对应一个数据项项的二元表示:如果 ...

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★

文章目录

一、支持度置信度

二、频繁项集

三、非频繁项集

四、 Apriori 算法过程

五、模式挖掘示例

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★相关推荐

最新文章

热门文章

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★

文章目录

一、 支持度 置信度

二、 频繁项集

三、 非频繁项集

四、 Apriori 算法过程

五、模式挖掘示例

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★相关推荐

最新文章

热门文章

一、支持度置信度

二、频繁项集

三、非频繁项集