apriori算法的简介和改进总结
- apriori算法的简介:
- 利用的相关性质:
- 频繁项集 的非空子集也必须是频繁项集
- 非频繁项集的任一超集也必然不是频繁项集
- 如果K-维频繁项集集合中包含单个项目i的个数小于K-1,则i不可能在频繁K项集中(apriori算法中并没有用到这个性质,可以借助这个性质来进行优化,性质会在后面举例)
- 算法的主要思想是:
- 第一步,通过迭代,检索出食物数据库给中所有的频繁项集,主要依据用户设定的最小支持度的阈值
- 第二步,用频繁项集构造出满足用户最小信任度的关联规则。其中第一步是占算法的主要计算部分,我们也主要研究的是第一步。
- 迭代过程主要分为连接和剪枝两个步骤:(由k-1维项集产生K维项集
- 连接:两个项集的前K-2项相同,最后的K-1项不同,则连接产生的K维项集就是前K-2项加上两个项集中不同的项
- 剪枝:利用性质一和性质二:如果新产生的项集有存在一个子集不在K-1维的频繁项集中,则删掉该新产生的项集
- 算法的伪代码
在第三步产生新的项集之后,需要统计每个项集的频度,主要采取的算法是,对数据库中的每个条目,遍历一遍候选项集,对每个包含该条目的候选项集计数加一。这样的话需要重新扫描一遍数据库,产生大量的计算
- 利用的相关性质:
- 算法的问题:
- 在计算项目集 的支持度时需要对数据库的全部记录进行一遍扫描比较,一般情况下数据库的规模会很庞大,这样会极大的增加系统的I/O开销。
- 在每一步中,产生候选项集时循环产生的组合过多,没有排除不应该参与组合的元素,即没有用到性质三
- 优化:主要考虑三个方面
- 第一,数据库的压缩,如果一个条目(或者说项目)不包含任何一个K-项集,那么它不可能包含任何一个K+1项集,即在下一次的遍历数据库时,不需要再去对该条目进行检查(通常做法是删除该条目,或者将这个条目做上标记)。
- 第二,缩小候选项集的个数,即动态项集计数。在某个条目的统计之后,如果发现某个候选项集的计数已经满足了最小支持度,那么可以将这个项集直接放入到频繁项集中,这样以后就不用对该项集进行计数了
- 第三,在连接的步骤之前,先对项集进行利用性质三进行筛选,提前删除不满足的项集。对K-1项项集中的每一个元素进行计数,若某个元素的个数小于K-1,则将K-1项集中删除包含该元素的项集。这样可以极大的减小了可能产生的候选项集的数量。
- 优化的步骤如下:
转载于:https://www.cnblogs.com/928pjy/p/5325008.html
apriori算法的简介和改进总结相关推荐
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
文章目录 一. 关联规则挖掘简介 二. 数据集 与 事物 ( Transaction ) 概念 三.项 ( Item ) 概念 四.项集 ( Item Set ) 概念 五.频繁项集 六.数据集.事物 ...
- 关联规则挖掘——Apriori算法的基本原理以及改进
问题引入 关联规则挖掘发现大量数据中项集之间有趣的关联或者相互联系.关联规则挖掘的一个典型例子就是购物篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析出顾客的购买习惯,通过了解哪些商品 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )
文章目录 一. 非频繁项集超集性质 二. 频繁项集子集性质 三. 项集与超集支持度性质 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Trans ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
文章目录 一. 频繁项集 二. 非频繁项集 三. 强关联规则 四. 弱关联规则 五. 发现关联规则 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 ...
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
文章目录 一. 关联规则 二. 数据项支持度 三. 关联规则支持度 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 ...
- Apriori算法介绍(Python实现)
导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...
- python 计算订单_python实现apriori算法的关联规则之支持度、置信度、提升度
Apriori算法的简介 Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法.其核心是基于两阶段频集思想的递推算法.该关联规则在分类上属于单维 ...
- apriori算法 python实现
导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...
最新文章
- 在Data Collector中使用TensorFlow进行实时机器学习
- Paypal IPN
- DSG-Oracle数据库在线迁移服务
- php css错乱,css,html_css多行布局错乱,css,html - phpStudy
- ES6 Proxy兼容polyfill实现
- 【转】ubuntu16.04安装配置tftp服务
- linux mysql学习_Linux学习笔记(MySql操作)
- 电影AI修复,让重温经典有了新的可能
- fn_dblog_如何使用fn_dblog和fn_dump_dblog直接在SQL Server数据库中连续读取事务日志文件数据
- Python帮助文档
- MD5校验工具的使用
- 【实习周报】2019年4月 前端开发实习工作周报汇总
- 晕晕沉沉的一天,ISAPI_Rewrite 2.9破解版竟然是假的
- 云服务器出现502错误的原因与解决方案
- 一个真实的用户画像实例。
- 缓动函数及DOTWeen的SetEase方法
- IP地址库介绍 (转)
- Ubuntu磁盘扩充
- 如何成为虾皮的优选卖家-扬帆际海
- dot ue4_求大神 实在是搞不了了
热门文章
- XGen for iOS789 简明 教程
- 【正点原子Linux连载】第三章 RV1126开发环境搭建 摘自【正点原子】ATK-DLRV1126系统开发手册
- 利用matplotlib画函数图像
- int转long Long型
- CUDA基础(一):CPU体系架构概述
- electron-builder 和 pnpm(monorepo) 一起使用
- Vue.js学习笔记—shop-bus:实战:利用计算属性、指令等知识开发购物车
- 命名实体识别(NER)知识汇总
- (转)如何有效地管理好技术团队?
- B1031. 查验身份证