增量关联规则挖掘—FUP算法
一、背景介绍
关联规则( Association rule)概念最初由Agrawal提出,是数据挖掘的一个重要研究领域, 其目的是发现数据集中有用的频繁模式。
静态关联规则挖掘,是在固定数据集和支持度下,发现数据集中的频繁项集,如 Apriori、FP-Growth、Ecalt等。现实问题中,多数时候,支持度和数据集是会发生变化的,Cheung提出了FUP (Fast UPdate)算法,主要针对数据集增大的情况,FUP算法是第一个增量关联规则挖掘算法。
二、相关定义
数据集DB = {T1,T2,T3,…,Tn},数据集的大小N = |DB|,Ti是其中一条事务,I = {I1,I2,…,Im}是事务的项集,Ti是I的子集。项集 X,Y( X,Y是I的子集) 且 X∩Y = Φ, X=〉Y 为关联规则. X在数据集中出现的次数为 count( X) ,其支持度为: support( X)= count( X) /D ,对于最小支持度 minsup, 若support ( X) ≥minsup,称为频繁项.
增量关联规则挖掘是指数据集变化或者支持度变化时的关联规则挖掘。数据集增加时新增数据集为db,增量数据集的大小d = |db|
频繁项集挖掘的重要性质:频繁项集的非空子集也是频繁项集,非频繁项集的超集也是非频繁项集。
三、算法描述
(1)输入
DB 原数据集;
L k 为 DB 上的 k 项集;
db 新增数据集;
s支持度阈值
(2)输出
DB + db 上的频繁项集 L' k
(3)算法
a)频繁1项集挖掘
扫描 db,获得 db 上的候选集 C; 对原 1 项集在 DB + db的频繁项加到 L'1 中; 扫描 DB,统计 C 在 DB 上的支持度, 频繁项加入到 L'1 中,C中的非频繁项加入到P中,扫描事务数据库时,从所有事物数据中将在P中的项移 除(减少扫描数据的大小),返回频繁1项集L'1。
b)频繁2项集挖掘(同理:频繁多项集挖掘)
对原频繁2项集中的频繁项,若其子集属于L1 – L’1,则直接淘汰,扫描db,统计将L2中剩余的项集在DB+db中任是频繁项集的部分加入到L’2。C2由L’1规约得到,去掉和L2中重复的项,剩下的项集统计在db中支持度,过 滤掉不可能成为频繁项集的部分,扫描DB,将新增的频繁项集加入到L’2中,非频繁项集加入到p中,过滤事务数据中属于p的项。依次挖掘,直到找到所有频繁项集即可。
四、例子
D = 1000 d = 100 s = 3%。I1,12,I3, I4 是事务的项.
I1,12是频繁1项集
I1.supportD = 32 I2.supportD = 31
I3.supporitD= 28
扫描db
I1.supportd = 4 I2.supportd = 1
I3.supportd = 6 I4.supportd = 2
I1.supportUD = 36 >1100*3% I2.supportUD = 32 < 1100 * 3 %
I1加入到L’1中
I3、I4不在L1中,I3.supportd = 6>100*3% I4.supportd = 2<100*3%
I3加入到C1中,I4加入到P中
扫描DB(过滤掉P中的非频繁项集)
I3.supportUD = 34 >1100*3% I3加入到L’1中
输出L’1 ={ I1 ,I3}
转载于:https://www.cnblogs.com/ouym/p/6101745.html
增量关联规则挖掘—FUP算法相关推荐
- 数据挖掘关联规则挖掘改进算法DHP
前言: Apriori算法是关联规则挖掘经典算法,但不适合在大型数据库中挖掘关联规则,时间太慢,许多学者提出了改进的算法.比如DHP算法. DHP 1. 减少候选集数量 背景:这个操作是基于Ck来做的 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )
文章目录 一. 非频繁项集超集性质 二. 频繁项集子集性质 三. 项集与超集支持度性质 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Trans ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
文章目录 一. 频繁项集 二. 非频繁项集 三. 强关联规则 四. 弱关联规则 五. 发现关联规则 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
文章目录 一. 关联规则 二. 数据项支持度 三. 关联规则支持度 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 ...
- 数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
全文链接:http://tecdat.cn/?p=32092 我们一般把一件事情发生,对另一件事情也会产生影响的关系叫做关联.而关联分析就是在大量数据中发现项集之间有趣的关联和相关联系(形如" ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
文章目录 一. 置信度 二. 置信度 示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 ...
- 关联规则挖掘——Apriori算法的基本原理以及改进
问题引入 关联规则挖掘发现大量数据中项集之间有趣的关联或者相互联系.关联规则挖掘的一个典型例子就是购物篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析出顾客的购买习惯,通过了解哪些商品 ...
- 关联规则挖掘--Apriori算法
关联规则挖掘--Apriori算法 1.关联规则概述 2.置信度.支持度.提升度的概念 3.关联规则挖掘问题 4.Apriori算法 4.1 算法步骤 4.2 先验原理 4.3 寻找最大频繁项的过程 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
文章目录 一. 关联规则挖掘简介 二. 数据集 与 事物 ( Transaction ) 概念 三.项 ( Item ) 概念 四.项集 ( Item Set ) 概念 五.频繁项集 六.数据集.事物 ...
最新文章
- “cannot find module ‘npmlog’….”的错误
- caj文件打不开显示内存不足_caj打开文件内存不足 cad内存不足一键修复
- AAAI 2020 开源论文 | 语义感知BERT(SemBERT)
- 华硕老毛子(Padavan)——校园局域网路由表设置(校园网优先局域网访问)
- mongodb mongoose 常用操作符号 整理
- 美国燃油“动脉”被黑客切断,网络安全走向哪里?专访山石网科|拟合
- c语言通讯录管理系统_通讯录管理系统(C语言)
- 525. Contiguous Array两位求和为1的对数
- 图像读取、显示和保存
- spring springMvc spring-boot spring-cloud分别是什么
- 思科软件服务器怎么作用,TFTP 服务器的选择和使用
- java实现电子面单pdf生成_常用快递电子面单批量打印api接口对接demo-JAVA示例
- HDU - 6070
- Gartner曾劭清:云计算市场依然存在太多变局
- P8-Windows与网络基础-Windows基本命令-目录文件操作(cd、dir、md、rd、move、copy、xcopy、del)
- 使用Mac ftp命令连接操作阿里云FTP
- 软考程序员知识点总结(错题记录)
- 5G消息富媒体广告时代还有多远
- 调整上传图片的预览方向 (exif.js)
- 音视频知识-掩蔽效应