1. apriori算法的简介:

    1. 利用的相关性质:

      • 频繁项集 的非空子集也必须是频繁项集
      • 非频繁项集的任一超集也必然不是频繁项集
      • 如果K-维频繁项集集合中包含单个项目i的个数小于K-1,则i不可能在频繁K项集中(apriori算法中并没有用到这个性质,可以借助这个性质来进行优化,性质会在后面举例)
    2. 算法的主要思想是:
      1. 第一步,通过迭代,检索出食物数据库给中所有的频繁项集,主要依据用户设定的最小支持度的阈值
      2. 第二步,用频繁项集构造出满足用户最小信任度的关联规则。其中第一步是占算法的主要计算部分,我们也主要研究的是第一步。
    3. 迭代过程主要分为连接和剪枝两个步骤:(由k-1维项集产生K维项集
      1. 连接:两个项集的前K-2项相同,最后的K-1项不同,则连接产生的K维项集就是前K-2项加上两个项集中不同的项
      2. 剪枝:利用性质一和性质二:如果新产生的项集有存在一个子集不在K-1维的频繁项集中,则删掉该新产生的项集
    4. 算法的伪代码

      在第三步产生新的项集之后,需要统计每个项集的频度,主要采取的算法是,对数据库中的每个条目,遍历一遍候选项集,对每个包含该条目的候选项集计数加一。这样的话需要重新扫描一遍数据库,产生大量的计算

  2. 算法的问题:
    1. 在计算项目集 的支持度时需要对数据库的全部记录进行一遍扫描比较,一般情况下数据库的规模会很庞大,这样会极大的增加系统的I/O开销。
    2. 在每一步中,产生候选项集时循环产生的组合过多,没有排除不应该参与组合的元素,即没有用到性质三
  3. 优化:主要考虑三个方面
    1. 第一,数据库的压缩,如果一个条目(或者说项目)不包含任何一个K-项集,那么它不可能包含任何一个K+1项集,即在下一次的遍历数据库时,不需要再去对该条目进行检查(通常做法是删除该条目,或者将这个条目做上标记)。
    2. 第二,缩小候选项集的个数,即动态项集计数。在某个条目的统计之后,如果发现某个候选项集的计数已经满足了最小支持度,那么可以将这个项集直接放入到频繁项集中,这样以后就不用对该项集进行计数了
    3. 第三,在连接的步骤之前,先对项集进行利用性质三进行筛选,提前删除不满足的项集。对K-1项项集中的每一个元素进行计数,若某个元素的个数小于K-1,则将K-1项集中删除包含该元素的项集。这样可以极大的减小了可能产生的候选项集的数量。
  4. 优化的步骤如下:        

转载于:https://www.cnblogs.com/928pjy/p/5325008.html

apriori算法的简介和改进总结相关推荐

  1. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

    文章目录 一. 关联规则挖掘简介 二. 数据集 与 事物 ( Transaction ) 概念 三.项 ( Item ) 概念 四.项集 ( Item Set ) 概念 五.频繁项集 六.数据集.事物 ...

  2. 关联规则挖掘——Apriori算法的基本原理以及改进

    问题引入 关联规则挖掘发现大量数据中项集之间有趣的关联或者相互联系.关联规则挖掘的一个典型例子就是购物篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析出顾客的购买习惯,通过了解哪些商品 ...

  3. 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

    文章目录 一. Apriori 算法过程 二. Apriori 算法示例 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction ...

  4. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

    文章目录 一. 非频繁项集超集性质 二. 频繁项集子集性质 三. 项集与超集支持度性质 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Trans ...

  5. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

    文章目录 一. 频繁项集 二. 非频繁项集 三. 强关联规则 四. 弱关联规则 五. 发现关联规则 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 ...

  6. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

    文章目录 一. 关联规则 二. 数据项支持度 三. 关联规则支持度 参考博客 : [数据挖掘]关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 ...

  7. Apriori算法介绍(Python实现)

    导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...

  8. python 计算订单_python实现apriori算法的关联规则之支持度、置信度、提升度

    Apriori算法的简介 Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法.其核心是基于两阶段频集思想的递推算法.该关联规则在分类上属于单维 ...

  9. apriori算法 python实现

    导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...

最新文章

  1. 在Data Collector中使用TensorFlow进行实时机器学习
  2. Paypal IPN
  3. DSG-Oracle数据库在线迁移服务
  4. php css错乱,css,html_css多行布局错乱,css,html - phpStudy
  5. ES6 Proxy兼容polyfill实现
  6. 【转】ubuntu16.04安装配置tftp服务
  7. linux mysql学习_Linux学习笔记(MySql操作)
  8. 电影AI修复,让重温经典有了新的可能
  9. fn_dblog_如何使用fn_dblog和fn_dump_dblog直接在SQL Server数据库中连续读取事务日志文件数据
  10. Python帮助文档
  11. MD5校验工具的使用
  12. 【实习周报】2019年4月 前端开发实习工作周报汇总
  13. 晕晕沉沉的一天,ISAPI_Rewrite 2.9破解版竟然是假的
  14. 云服务器出现502错误的原因与解决方案
  15. 一个真实的用户画像实例。
  16. 缓动函数及DOTWeen的SetEase方法
  17. IP地址库介绍 (转)
  18. Ubuntu磁盘扩充
  19. 如何成为虾皮的优选卖家-扬帆际海
  20. dot ue4_求大神 实在是搞不了了

热门文章

  1. XGen for iOS789 简明 教程
  2. 【正点原子Linux连载】第三章 RV1126开发环境搭建 摘自【正点原子】ATK-DLRV1126系统开发手册
  3. 利用matplotlib画函数图像
  4. int转long Long型
  5. CUDA基础(一):CPU体系架构概述
  6. electron-builder 和 pnpm(monorepo) 一起使用
  7. Vue.js学习笔记—shop-bus:实战:利用计算属性、指令等知识开发购物车
  8. 命名实体识别(NER)知识汇总
  9. (转)如何有效地管理好技术团队?
  10. B1031. 查验身份证