一:Apriori算法介绍

关联规则挖掘是数据挖掘中最活跃的研究方法之一 。最早是由 Agrawal 等人提出的1993最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货,库存以及货架设计等。

Apriori算法是一种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori是由a priori合并而来的,它的意思是后面的是在前面的基础上推出来的,即先验推导。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

Apriori定律:

  • 如果一个集合是频繁项集,则它的所有子集都是频繁项集。
  • 如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。

算法处理过程如下,在数据库中寻找关联度最高的一组值:

Apriori算法采用了逐层搜索的迭代的方法,算法简单明了,没有复杂的理论推导,也易于实现。但其有一些难以克服的缺点:

  • 对数据库的扫描次数过多
  • Apriori算法会产生大量的中间项集
  • 采用唯一支持度
  • 算法的适应面窄

总结来说:

  • Apriori算法基本思想:频繁项集的任何子集也一定是频繁的。
  • 用频繁的(k-1)-项集生成候选的频繁k-项集,用数据库扫描和模式匹配计算候选集的支持度

二:例题

挖掘出支持度为3的最大频繁项级:

解答过程如下,这也是著名的“尿布与啤酒”问题

三:FP-growth算法

Apriori算法在产生频繁模式完全集前需要对数据库进行多次扫描,同时产生大量的候选频繁集,这就使Apriori算法时间和空间复杂度较大。但是Apriori算法中有一个很重要的性质:频繁项集的所有非空子集都必须也是频繁的。但是Apriori算法在挖掘额长频繁模式的时候性能往往低下,Jiawei Han提出了FP-Growth算法。

FP-growth算法将数据集存储在一种称作FP树的紧凑数据结构中,然后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树。FP代表频繁模式(Frequent Pattern)。FP树通过链接(link)来连接相似元素,被连起来的元素项可以看成一个链表。

FP-growth算法虽然能高效地发现频繁项集,但是不能用于发现关联规则。FP-growth算法的执行速度快于Apriori算法,通常性能要好两个数量级以上。

FP-growth算法只需要对数据集扫描两次,它发现频繁项集的过程如下:

  • 构建FP树
  • 从FP树中挖掘频繁项集

如果有兴趣了解更多相关内容,欢迎来我的个人网站看看:瞳孔空间

Apriori算法及例题相关推荐

  1. Apriori算法例题

    Apriori算法 表1 TID Itermset 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D 最小支持度为40%,最小信任度为60% 1.求最大频繁项 ...

  2. 关联分析(Apriori算法) 面包 牛奶 尿布 啤酒 ...

    关联分析时,需要处理两个关键问题 1 大量数据集中发现模式,计算代价高 2 某些模式可能是虚假的,因为他们是偶然发生的 关联分析例题:从这个商品记录得出顾客喜欢同时购买那几样东西 TID 面包 牛奶 ...

  3. 关联规则算法——Apriori算法

    1.关联规则的名词解释 项集:数据库中的数据项构成的非空集合 事务:一个事务包含了一个或多个项集 支持度:包含项集x的事务数量与全部事务数量的百分比 置信度:同时包含数据项x和数据项y的事务数量与事务 ...

  4. Apriori算法通俗详解_fpgrowth2_关联分析评估

    20220317 https://blog.csdn.net/a790439710/article/details/103080674 支持度,置信度各指标再理解 条件模式基:在某元素比如y出现的前提 ...

  5. 关于kNN、kMeans、Apriori算法小结

    趁着准备即将到来的笔试,也为了回顾一下这一星期来所学的三个机器学习算法,觉得还是重新理一下思路,好理解一下这几个算法. 复制代码 kNN算法 即k-近邻算法,属监督学习. 概述 优点:精度高,对异常值 ...

  6. Apriori算法进行关联分析实战

    使用Apriori算法进行关联分析(层次聚类) 一.基础知识 1.关联分析定义及存在的问题 定义:从大规模的数据集中寻找物品间的隐含关系,被称为关联分析或关联规则学习. 关联分析存在的主要问题:主要问 ...

  7. R语言apriori算法进行关联规则挖掘(限制规则的左侧或者右侧的内容进行具体规则挖掘)、使用subset函数进一步筛选生成的规则去除左侧规则中的冗余信息、获取更独特的有新意的关联规则

    R语言apriori算法进行关联规则挖掘(限制规则的左侧或者右侧的内容进行具体规则挖掘).使用subset函数进一步筛选生成的规则去除左侧规则中的冗余信息.获取更独特的有新意的关联规则 目录

  8. R语言apriori算法进行关联规则挖掘(限制规则的左侧或者右侧的内容进行具体规则挖掘)、查看限制了规则的右侧之后挖掘到的规则(置信度排序,只查看左侧即可)

    R语言apriori算法进行关联规则挖掘(限制规则的左侧或者右侧的内容进行具体规则挖掘).查看限制了规则的右侧之后挖掘到的规则(置信度排序,只查看左侧即可) 目录

  9. R语言Apriori算法关联规则挖掘:使用interestMeasure函数评估挖掘到的规则(包括覆盖率(coverage)和FishersExactTest)、置信度最高的五条规则(top five

    R语言Apriori算法关联规则挖掘:使用interestMeasure函数评估挖掘到的规则(包括覆盖率(coverage)和FishersExactTest).置信度最高的五条规则(top five ...

最新文章

  1. 数论基础--矩阵快速幂 及其例题
  2. 问题总结:判断MS SQLSERVER临时表是否存在 drop table #tempcitys
  3. lamp架构-访问控制-禁止php解析、屏蔽curl命令访问
  4. ssh整合学习(1)
  5. 全球最快65W闪充!OPPO Reno Ace正式发布 高达限量定制版售价仅3599元
  6. 传聊天宝团队解散 罗永浩已退出股东行列
  7. mysql查询未讲课教师_经典教师 学生 成绩sql面试题再次来袭3(附答案)
  8. pytorch---模型加载与保存(5)使用在不同模型参数下的热启动模式
  9. Linux系统中 安装Vmware Toolst工具
  10. 电脑在线时间调整服务器是多少,电脑时间校准服务器
  11. 全网最细最全Appium自动化测试 iOS入门教程,App自动化测试教程,精细整理
  12. 计算机突然蓝屏重启,最近电脑经常蓝屏重启。
  13. Mol Plant |中科院微生物所郭惠珊组和中科院上海植物逆境中心段成国组合作揭示油菜生长与免疫动态调节的新机制...
  14. 资源吧网站模板下载织梦cms精仿资源吧网站模板
  15. 第十二周项目四----利用遍历思想求解图问题之输出一些简单回路
  16. 【B站SXT的Java课程中的错误】054 嵌套循环_循环相关练习
  17. ELK ILM 策略实现冷热数据分离 持续更新
  18. 微信小程序 界面禁止下拉 左右滑动_微信 iOS 版更新,带来了这些新功能
  19. 与门或门非门是计算机语言吗,什么叫与门、非门、或门
  20. [日语二级词汇]日语二级必会汉字总结3

热门文章

  1. arduino读取水位传感器的数据显示在基于i2c的1602a上_基于PC-CAN适配卡和总线技术实现潜水电机分布式监控系统的应用方案...
  2. ubuntu16.04安装nvidia(英伟达)显卡驱动
  3. dart sqlite 嵌入式数据库 sqflite教程
  4. C语言练习题-循环练习题
  5. 区块链,屌丝逆袭的最后机会
  6. 云模式下的固定资产管理是什么样的?
  7. 导出MySQL数据项到excel及数据错位的解决办法
  8. 小程序token有效期_微信小程序token过期时间后重新获取-微信小程序过期恢复步骤-微信小程序怎么找...
  9. 2021-06-22 离散数学图论复习笔记
  10. 秒针计时器 html,JS实现一个秒表计时器