摘要:

  1.算法概述

  2.算法推导

  3.算法特性及优缺点

  4.注意事项

  5.实现和具体例子

  6.适用场合

内容:

1.算法概述

  关联规则(associatio rules):从大规模数据集中寻找物品建隐含关系被称作关联分析或关联规则学习

  频繁项集(frequent itemsets):经常出现在一起的物品集合

  FPgrowth是一个流行的频繁项集挖掘的算法(韩家炜等人在2000年);在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构(见算法推导)。

2.算法推导

2.1 几个基本概念

  支持度(support):支持度表示项集{X,Y}在总项集里出现的概率。 Support(X→Y) = P(X,Y) / P(I) = num(XUY) / num(I),其中I为总项集;

  可信度或置信度(confidence):置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率;Confidence(X→Y) = P(Y|X) = num(XUY) / num(X)

  提升度(Lift): Lift(X→Y) = P(Y|X) / P(Y)

  强关联规则:满足最小支持度和最小置信度的规则

  如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。

如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。

特别地,如果Lift(X→Y) =1,则表示X与Y相互独立。(参考自)

2.2 几个基本原理

  Aprori 原理:如果某条规则并不满足最小可信度,则该规则的所有子集也不满足最小可信度  

3.算法特性及优缺点

  优点:一般快于Apriori算法(只扫描两次数据集)

  缺点:实现比较困难,在某些数据集上性能下降

4.注意事项

  连续数据要进行离散化

5.实现和具体例子

  《机器学习实战》中的实现以及发现国会投票中的模式案例

  Spark mllib实现(run方法);使用AssociationRules挖掘关联规则

  应用:

    交叉销售:电信行业针对用户已经使用的产品和业务,向其推荐他没有使用的

6.适用场合

  支持大规模数据:是

  特征维度:无

  是否有 Online 算法:这个没必要吧?

  特征处理:支持类别型数据或者离散型数据,连续数据要进行离散化

转载于:https://www.cnblogs.com/arachis/p/FPGrowth.html

FPGrowth算法总结复习相关推荐

  1. Spark机器学习(9):FPGrowth算法

    关联规则挖掘最典型的例子是购物篮分析,通过分析可以知道哪些商品经常被一起购买,从而可以改进商品货架的布局. 1. 基本概念 首先,介绍一些基本概念. (1) 关联规则:用于表示数据内隐含的关联性,一般 ...

  2. Apriori算法、FP-Growth算法、顺序分析、PrefixSpan算法

    Apriori算法.FP-Growth算法.顺序分析.PrefixSpan算法 目录 Apriori算法.FP-Growth算法.顺序分析.PrefixSpan算法 Apriori算法 FP-Grow ...

  3. 【机器学习实战】第12章 使用 FP-growth 算法来高效发现频繁项集

    第12章 使用FP-growth算法来高效发现频繁项集 前言 在 第11章 时我们已经介绍了用 Apriori 算法发现 频繁项集 与 关联规则. 本章将继续关注发现 频繁项集 这一任务,并使用 FP ...

  4. 【机器学习】Apriori 算法进行关联分析和FP-growth算法

    [机器学习]Apriori 算法进行关联分析和FP-growth算法 文章目录 1 关联分析 2 FP-growth算法理解和实现 3 FP增长算法的频繁项集产生 4 FP-Growth关联分析算法在 ...

  5. 使用FP-growth算法发现频繁项集

    源码如下: #coding=utf-8''' Created on Jun 14, 2011 FP-Growth FP means frequent pattern the FP-Growth alg ...

  6. 频繁项集挖掘之Aprior和FPGrowth算法

    频繁项集挖掘的应用多出现于购物篮分析,现介绍两种频繁项集的挖掘算法Aprior和FPGrowth,用以发现购物篮中出现频率较高的购物组合. 基础知识 项:"属性-值"对.比如啤酒2 ...

  7. 成绩排序的c语言算法,成绩排序系统(练习排序算法和复习C语言)

    成绩排序系统(练习排序算法和复习C语言) 实验一 一.实验目的 1.回顾C语言中的输入.输出及结构体等相关知识点: 2.回顾函数的使用: 3.掌握插入排序.交换排序.选择排序中的常用排序的算法思想: ...

  8. FP-growth算法高效发现频繁项集

    在用搜索引擎时,我们发现输入单词的一部分时,搜索引擎会自动补全查询词项,这里的原理其实是通过查询互联网上的词来找出经常出现在一块的词对,这需要一种高效发现频繁集的方法. 它基于Apriori构建,但在 ...

  9. 机器学习-关联之FP-Growth算法原理及实战

    FP-Growth 简介 FP-Growth算法是一种发现数据集中频繁模式的有效方法,它在Apriori算法的原理的基础上,采用FP(Frequent Pattern,频繁模式)树数据结构对原始数据进 ...

最新文章

  1. 数字图像处理2018-10-9
  2. python中bin函数的用法_Python 3标准库用法--ascii()、bin()、breakpoint()函数
  3. 关于MySQL count(distinct) 逻辑的另一个bug_
  4. NavReady 试用小记(2)
  5. 【Vegas原创】恢复Oracle Package的笨方法
  6. flink source 同步_大数据面试题-Flink
  7. python计算两字符串中的位置_从Python中的字符串中获取两个字符
  8. Linux中ftp密码输错无响应,psftp登陆输入正确用户名和密码后无响应解决办法
  9. 中国聚合混凝土行业市场供需与战略研究报告
  10. Python 从入门到进阶
  11. CMMI认证的周期是多久?费用是多少?
  12. 两个画图工具助力论文绘图
  13. Profibus DP新总结
  14. Asio源码分析(2):Asio用到的C++技巧和优化
  15. 程序媛字节裸辞后,都干了些什么....
  16. python拍七游戏代码_拍七数字游戏 - Johannes-Jensen - 博客园
  17. 未能将管道连接到虚拟机: 所有的管道范例都在使用中
  18. 不要把5G压力都留给运营商,华为自动驾驶网络是个聪明的方法
  19. ubuntu 安装GPU黑屏 修改GRUB_qemu-kvm安装and配置桥接和SR-IOV - 山河故人abin
  20. DAX:用自定义变量代替EARLIER函数

热门文章

  1. java idea连数据库报错:Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone'时区错误
  2. 浅谈C/C++中的typedef和#define
  3. Leetcode题库169.多数元素(c实现)
  4. [BUUCTF-pwn]——ciscn_2019_n_3
  5. hdc mfc 画扇形图_科学网—画扇形图(idl程序) - 张国印的博文
  6. mysql配置不成功_mysql 5.7.17 zip安装配置教程 mysql启动失败的解决方法
  7. 15.8.2 泛型数组
  8. 台式计算机不用待机还是关机好,电脑应该选择“关机”还是“休眠”?不关机对电脑有损伤吗?...
  9. mysql b tree图_MySQL索引--B-Tree(B+Tree)图文详解
  10. Struts2拦截器实现异常处理机制