频繁项集的产生及经典算法
前言:
关联规则挖掘问题:
1.Apriori算法
Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步
Apriori算法是一种基于水平数据分布的、宽度优先的算法,由于 使用了层次搜索策略和剪枝技术,使得Apriori算法在挖掘频繁模式时具 有较高的效率。但是,Apriori算法也有两个致命的性能瓶颈:
交易 | 商品代码 |
T100 | L1,L2,L3 |
T200 | L2,L3 |
T300 | L2,L3 |
T400 | L1,L2,L4 |
T500 | L1,L3 |
T600 | L2,L3 |
T700 | L1,L3 |
T800 | L1,L2,L3,L5 |
T900 | L1,L2,L3 |
C1 | |
项集 | 支持度计数 |
{L1} | 6 |
{L2} | 7 |
{L3} | 6 |
{L4} | 2 |
{L5} | 2 |
L1:由C1剪枝得到L1 | |
项集 | 支持度计数 |
{L1} | 6 |
{L2} | 7 |
{L3} | 6 |
{L4} | 2 |
{L4} | 2 |
C2 | |
项集 | 支持度计数 |
{L1,L2} | 4 |
{L1,L3} | 4 |
{L1,L4} | 1 |
{L1,L5} | 2 |
{L2,L3} | 4 |
{L2,L4} | 2 |
{L2,L5} | 2 |
{L3,L4} | 0 |
{L3,L5} | 1 |
{L4,L5} | 0 |
L2:由C2剪枝得到L2 | |
项集 | 支持度计数 |
{L1,L2} | 4 |
{L1,L3} | 4 |
{L1,L5} | 2 |
{L2,L3} | 4 |
{L2,L4} | 2 |
{L2,L5} | 2 |
C3:由L2计算三项集 | |
{L1,L2}+{L1,L3} | {L1,L2,L3} |
{L1,L2}+{L1,L5} | {L1,L2,L5} |
{L1,L2}+{L2,L3} | {L1,L2,L3} |
{L1,L2}+{L2,L4} | {L1,L2,L4} |
{L1,L3}+{L1,L5} | {L1,L3,L5} |
{L1,L3}+{L2,L3} | {L1,L2,L3} |
{L1,L3}+{L2,L4} | 超过三项 |
{L1,L3}+{L2,L5} | 超过三项 |
{L1,L5}+{L2,L3} | 超过三项 |
{L1,L5}+{L2,L4} | 超过三项 |
{L1,L5}+{L2,L5} | {L1,L2,L5} |
{L2,L3}+{L2,L4} | {L2,L3,L4} |
{L2,L3}+{L2,L5} | {L2,L3,L5} |
{L2,L4}+{L2,L5} | {L2,L4,L5} |
L3:由C3剪枝得到L3 | |
项集 | 支持度计数 |
{L1,L2,L3} | 3 |
{L1,L2,L5} | 2 |
C4:由L4计算四项集 | |
{L1,L2,L3}+{L1,L2,L5} | {L1,L2,L3,L5} |
Apriori算法优缺点:
2.FP-Growth算法
FP-Growth算法演示-------构造FP树
Tid | items |
1 | L1,L2,L5 |
2 | L2,L4 |
3 | L2,L3 |
4 | L1,L2,L4 |
5 | L1,L3 |
6 | L2,L3 |
7 | L1,L3 |
8 | L1,L2,L3,L5 |
9 | L1,L2,L3 |
从1到各点 | 各点路径重复次数 |
1-1 | 6 |
1-2 | 7 |
1-3 | 6 |
1-4 | 2 |
1-5 | 2 |
从1到各点 | 各点路径重复次数 |
1-2 | 7 |
1-1 | 6 |
1-3 | 6 |
1-4 | 2 |
1-5 | 2 |
Tid | items |
1 | L2,L1,L5 |
2 | L2,L4 |
3 | L2,L3 |
4 | L2,L1,L4 |
5 | L1,L3 |
6 | L2,L3 |
7 | L1,L3 |
8 | L2,L1,L3,L5 |
9 | L2,L1,L3 |
项 | 条件模式基 | 条件FP树 | 产生频繁模式 |
I5 | {{I2 I1:1},{I2 I1 I3:1}} | {I2:2,I1:2} | {I2 I5:2},{I1 I5:2},{I2,I1:2} |
I4 | {{I2 I1:1},{I2:1}} | {I2:2} | {I2 I4:2} |
I3 | {{I2 I1:2},{I2:2},{I1:2}} | {I2:4,I1:2,I1:2} | {I2 I3:4},{I1 I3:4},{I2 I1 I3:2} |
I1 | {{I1:4}} | {I2:4} | {I2 I1:4} |
频繁项集的产生及经典算法相关推荐
- 关联分析——频繁项集的产生之Apriori算法
关联分析--频繁项集的产生之Apriori算法 频繁项集的产生-Apriori算法 Apriori算法的Python实现 提取1-项集 提取频繁k-项集 生成候选k-项集 Apriori算法 封装 频 ...
- 频繁项集挖掘算法——Apriori算法
前言 关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系.其中"频繁"是由人为设定的一个阈值即支持度 (support)来衡量,"紧密"也是由 ...
- fp算法例题_Kmeans算法找相似商品、FP树找频繁项集
第一题:用Kmeans处理数据集 数据集下载地址 运行环境 python3.7.PyCharm 2018.2.4 (Community Edition) 思路 根据所给数据集及其说明可以看出数据集共有 ...
- python 频繁项集_用FP-Growth算法找出销售数据中的频繁项集
运行环境 python3.7.PyCharm 2018.2.4 (Community Edition) 数据来源 思路 从所给数据及其说明文档可以看出此数据集是从购物数据中收集而来的,每行数据都是一条 ...
- 12使用FP-growth算法来高效发现频繁项集
第12章 使用FP-growth算法来高效发现频繁项集 一.背景 大家都用过搜索引擎.当我们输入一个单词或单词的一份,搜索引擎就会自动补全查询词项.例如:当我们在百度输入"为什么" ...
- Chapter 12 使用FP-growth算法来高效发现频繁项集
本博文内容包括以下: 发现事务数据中的公共模式 FP-growth算法 发现twitter源中的共同词 FP-growth 算法 是基于Apriori算法,但在完成相同的任务(将数据集存储在一个特定的 ...
- 关联分析(一):频繁项集及规则产生
关联分析用于发现隐藏在大型数据集中有意义的联系,属于模式挖掘分析方法,其为人熟知的经典应用当属沃尔玛超市里"啤酒与尿布"的关系挖掘了.关联分析的应用领域非常多,当数据集类型比较复杂 ...
- 关联规则—频繁项集Apriori算法
转载地址:http://liyonghui160com.iteye.com/blog/2080531 一.前言 频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关 ...
- R语言使用apriori算法进行关联规则挖掘实战:关联规则概念、频繁项集、支持度(support)、置信度(confidence)、提升度(lift)、apriori算法
R语言使用apriori算法进行关联规则挖掘实战:关联规则概念.频繁项集.支持度(support).置信度(confidence).提升度(lift).apriori算法 目录
最新文章
- vs2008 外部调用ActiveX控件接口方法
- 为什么NLP相对来说这么困难?
- BUUCTF(PWN)suctf_2018_stack
- 离散数学及其应用上的一个问题
- 前端学习(2992):vue+element今日头条管理--目录结构说明
- db2 联合数据源 mysql_myeclipse连接db2的数据源怎么配
- Hash魔法:一致性 hash 算法
- iOS开发之抽屉效果
- 线性代数【六】:解线性方程组
- 50个地理人必备数据库赶紧收藏起来(含气候、地信、地质、卫星遥感、城市经济等)
- iOS 小技能:App Extension (App Extension类型、生命周期、App Extension通信、App Extension示例)
- coldfusion_ColdFusion教程:第一部分
- CPU性能衡量参数-主频,MIPS,CPI,时钟周期,机器周期,指令周期
- Java微服务实战项目推荐
- ldd显示可执行模块的dependenc
- 有趣大会 · ACL2022 (Findings篇)
- java入口函数_Java 函数入口
- C语言笔记-进制转换
- DDD 兴起的原因以及与微服务的关系
- 业务系统里的Office文档如何在线编辑
热门文章
- 在3A游戏公司工作是什么体验?30岁3D艺术家经验分享
- 便秘小配方:蜂蜜+陈醋
- 拓展欧几里得定理的应用
- 单片机实例20——数字钟(硬件电路图+汇编程序+C语言程序)
- 运行python报错ImportError: dlopen: cannot load any more object with static TLS
- ORM框架了解以及优缺点
- 电脑开启wifi功能
- 基于流媒体技术的低成本网络实况转播的实现
- 用python求黑洞数
- 计算机在生物学研究领域的认识,求一篇2000字左右的论文:生物信息在生物学研究中的作用?...