关于支持度、置信度、提升度以及apriori算法的理解(简单版)

理解支持度

所谓支持度,就是比如说10个用户购买商品,有8个用户购买商品A,那么商品A的支持度就是80%。支持度越大,关联规则越重要,因为支持度大代表买的人多呀。 这里的商品A可以是一件商品,也可以是几个商品组成的集合。小于最小支持度的A会在算法过程中被淘汰掉。

理解置信度

这个概念学过概率论就比较好理解,简单地说是购买商品A的人,会有多大概率去购买商品B,即p(B|A) =p(AB)/p(A)

理解提升度

即商品A的出现对商品B的出现概率提升的程度,这里有个公式计算,提升度(A->B)= 置信度(A->B)/支持度(B),用概率论表示即是提升度=(p(AB)/p(A)) / p(B),提升度大于1时,则推荐,小于1时,则不推荐

理解APRIORI算法

首先说一说项,项集,事务

项:数据库中不可分割的最小单位信息

项集:项的集合,集合I={i1, i2, …, ik}是项集,I中项目的个数为k,则集合I称为k项集。支持度大于最小支持度的项集即为频繁项集,否则为非频繁项集。

事务:设I={i1, i2, …, ik}是由数据库中所有项目构成的集合,一次处理所含项目的集合用T表示,T={t1, t2, …, tn}。每一个包含ti子项的项集都是I子集。
例如,顾客一次购买多种商品,这些购物信息在数据库中有唯一标识,用来标识这些商品是同一顾客同一次购买的,称
该用户的本次购物活动对应一个事务。

然后来说APRIORI算法

apriori算法有两个重要性质
1.频繁项集的所有非空子集必为频繁项集。 如项集{1,2,3}是频繁的 则项集{1,2}肯定是频繁的

2.非频繁项集的超集⼀定是⾮频繁的。 如项集{2,3,4}是非频繁的 则项集{1,2,3,4}肯定是非频繁的

然后是apriori算发的实现逻辑:其中C表是扫描出来的候选表,L是经过最小支持度过滤后的频繁集表。这里最小支持度设置为0.2.


这里有一个小细节,就是比如说如何从L2到C3。
l2中是二项集,在合并成三项集时,会将二项集中每个第一个元素相同的集合进行合并,比如{a,b}与{a,c},他们第一个元素都是a,则他们可以合并成一个三项集 => {a,b,c}。
且合成的三项集其中的每两个元素一定会能在l2中找到。
这也是为什么不会合成{a,b,e}的原因,因为这个三项集中的{b,e}在l2中时找不到的,{b,e}是非频繁项集,所以它的超集也都是非频繁项集。

同理 三项集合并成四项集时,会将三项集中前两个元素相同的集合进行匹配。

支持度、置信度、提升度、apriori算法理解(简易版)相关推荐

  1. 关联规则概念、啤酒加尿布引出购物篮分析、频繁项集、支持度+置信度+提升度

    关联规则概念.啤酒加尿布引出购物篮分析.频繁项集.支持度+置信度+提升度 目录

  2. mysql置信度支持度,支持度 置信度 提升度

    1.支持度(Support) 支持度表示项集{X,Y}在总项集里出现的概率.公式为: Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / ...

  3. 关联规则 支持度 置信度 提升度

    1. 支持度(Support) 支持度是两件商品(X∩Y)在总销售笔数(N)中出现的概率,即X与Y同时被购买的概率. X.Y同时出现的概率 Support(X→Y) = P(XY) 2. 置信度 (C ...

  4. 关联规则之置信度,支持度,提升度

    [统计分析]关联规则之置信度,支持度,提升度_红芒果-CSDN博客_关联规则提升度一般使用三个指标来度量一个关联规则,根据这三个指标可以筛选出满足条件的关联规则. 这三个指标是:Support(支持度 ...

  5. 数据挖掘中的支持度 置信度 期望置信度 提升度

    在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中,本文对 关联规则挖掘 做一个小的总结. 首先,和聚类算法一样,关联规则挖掘属于 无监督学 ...

  6. GBDT(梯度提升决策树)算法(详细版)

    转载地址:https://mp.weixin.qq.com/s?__biz=MzIzNDM2OTMzOQ==&mid=2247485043&idx=1&sn=0a207eb61 ...

  7. 机器学习之关联规则(支持度和置信度、Apriori算法)

    关联规则及其基础: 表1:购物篮例子的分析 关联分析:用于发现隐藏在大型数据集中的有意义的联系.所发现的联系可以用关联规则或频繁项集的形式表示. 例如,从表1中可以提取出:{尿布} ⟹ {啤酒}(该规 ...

  8. 【实用算法教学】——Apriori算法,教你使用亲和性分析方法推荐电影

    本文学习如何用亲和性分析方法找出在什么情况下两个对象经常一起出现.通俗来讲,这也 叫"购物篮分析",因为曾有人用它找出哪些商品经常一起出售. 前一篇文章关注的对象为球队,并用特征描 ...

  9. apriori算法c++_使用Apriori进行关联分析

    目录 1.名词概念 2.频繁项集发现 3.Apriori算法关联分析 4.代码实现 5.参考文章   通过组合交叉变量制定风控策略时有两种方法:一是通过决策树分箱进行变量交叉,可以见文章一个函数实现自 ...

最新文章

  1. BellmanFord的队列优化
  2. jQuary总结11:jQuery插件封装---jQuery封装 手风琴 动画插件
  3. 老码农:如何写出让自己满意的代码
  4. 计算机中那些事儿(八):再历装系统之终身学习
  5. HDU1273 漫步森林【水题】
  6. guid主键 oracle_关于ORACLE的GUID主键生成
  7. 解决Win7下JMF读取摄像头错误
  8. 使用 json.tool 格式化 JSON字符串
  9. Java面试题全集(上)
  10. socket 源码分析
  11. idea破解永久免费
  12. 本科计算机考研统计学,统计学考研考什么科目
  13. Ubuntu | 安装Pcan驱动和pcanview
  14. 类和对象定义以及四种初始化方式
  15. 计算机家庭网络未识别,Win7排除常见家庭网络问题的方法
  16. 讲讲“工业4.0”的故事
  17. 大量精品中医古籍下载
  18. 最新编程语言排行榜出炉
  19. java 网站计数器_Java页面计数器
  20. 免费SSL证书(https网站)申请

热门文章

  1. Vuetify—— 使用v-badge
  2. Ubuntu14.04下安装QQ国际版
  3. LL(1)预测分析程序C++实现
  4. 视易C10语言盒,独家解密视易C10质量好不好?怎么样呢?评测爆料真心话
  5. 为什么苹果手机下载不了软件?分享我的经验
  6. RuntimeError: cannot cache function ‘__shear_dense‘: no locator available for file
  7. bzoj 4404 [Neerc2015]Binary vs Decimal题解
  8. STM32V107VCT6,基于HAL库的用IO口模拟I2C的0.96寸OLED驱动
  9. #博学谷it学习技术支持#探花交友项目:用户登录
  10. java中ajax的用途_AJAX的主要用途是什么?