使用Apriori算法寻找频繁样式（Frequent Patterns）

什么是频繁样式

频繁样式（Frequent Patterns）是指在一个数据集中出现频率最高的样式（可以是一组样本集合，子列，子结构等）

Apriori算法

Apriori算法使用支持度（support）和置信度（confidence），通过剪枝来生成样式集，最终找出存在于数据集中的频繁样式。

支持度

样式中同时包含A和B的概率

Support(A⟹B)=P(A⋃B)Support(A \implies B) = P(A \bigcup B)Support(A⟹B)=P(A⋃B)

置信度

样式中如果包含A，则也包含B的概率

Confidence(A⟹B)=P(B∣A)Confidence(A \implies B) = P(B | A)Confidence(A⟹B)=P(B∣A)

性质

频繁样式的所有非空子集也必须是频繁样式。

实现过程

① 列出所有的样式。
② 给定一个最小支持度阈值sup，列出一项候选集C1。计算C1的支持度，去除小于sup的样式，得到一项样式L1；列出二项候选集C2。计算C2的支持度，去除小于sup的样式，得到二项样式L2；以此类推，最终得到频繁样式。

示例

商场中统计了每位顾客购买的商品列表。从数据库中取出一部分数据如下

客户ID	购买的商品
1	A, B, D
2	A, C, D
3	A, D, E
4	B, E, F
5	B, C, D, E, F

1）关联规则说明

那么关联规则的一个实例为：
A → D （support=60% ， confidence=100%）
因为包含A和D的样式共有三个，而总共有五个样式，所以支持度为60%
包含A的样式共有三个，同时包含D的样式也是这三个，所以置信度为100%

D → A （support=60% ， confidence=75%）
因为包含A和D的样式共有三个，而总共有五个样式，所以支持度为60%
包含D的样式共有四个，同时包含A的样式其中三个，所以置信度为75%

2）算法计算示例

给定最小支持度sup=0.5。

① 所有的样式为

客户编号	商品列表
1	A, C, D
2	B, C, E
3	A, B, C, E
4	B, E

② 列出一项候选集C1

样式	支持度
{A}	0.5
{B}	0.75
{C}	0.75
{D}	0.25
{E}	0.75

由于样式{D}的支持度小于sup，所以要去除。得到一项样式L1为

样式	支持度
{A}	0.5
{B}	0.75
{C}	0.75
{E}	0.75

③ 列出二项候选集C2

样式	支持度
{A, B}	0.25
{A, C}	0.5
{A, E}	0.25
{B, C}	0.5
{B, E}	0.75
{C, E}	0.5

由Apriori算法的性质，频繁样式的所有非空子集也必须是频繁样式，因为样式{D}已经被取出，所以包含{D}的样式不再需要考虑。

这次扫描过后，样式{A, B}和样式{A, E}被去除，得到二项样式L2

样式	支持度
{A, C}	0.5
{B, C}	0.5
{B, E}	0.75
{C, E}	0.5

④ 列出三项候选集C3

样式	支持度
{B, C, E}	0.5

由Apriori算法的性质，只有样式{B, C, E}符合要求，且支持度也满足条件。
所以最终找到的频繁样式就是{B, C, E}
将结果套用到生活中进行解释，就是说顾客同时购买B, C, E三个商品，是概率最大且商品种类最多的。