数据挖掘——关联分析基础介绍(上)
一、前提介绍:
啤酒与尿布:
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父 亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购 买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会 出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一则他很有可能会放弃购物而到另一家商店,直到可以一 次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而获得了很好的商品销售收入, 这就是“啤酒与尿布”故事的由来。婴儿宝宝说:“喝了啤酒的我尿布换的更快了”!!
二、基础知识点
1.关联规则:
在典型的情况下,被认为是有趣的,如果它满足最小置信度阈值和最小支持度阈值。这些阈值都是专家设定。
规则兴趣度的两种度量:
支持度(support)、置信度(confidence)
2. 支持度(support)、置信度(confidence)和支持度计数的计算关系方法如下:
3.关联规则的挖掘过程:
(1)找出所有频繁项集:每个项集出现的次数要大于等于最小支持度计数。
(2)由频繁项集产生强关联规则(强关联规则就是这些规则必须满足最小支持度和最小置信度)
(3)闭频繁项集:如果X是频繁的,并且不存在真超项集Y使Y与X在D中具有相同的支持度计数。
(4)极大频繁项集:如果X是频繁的,并且不存在超项集Y 使得 X Y Ì 并且Y在D中是频繁的。
先验原理(超级好用):频繁项集的所有非空子集也一定是频繁 的。反之,所有非频繁项集的超集也一定是非频繁的。
三、Apriori算法
Apriori算法是Agrawal和R.Srikant于1994年提出的,为布尔关联规则挖掘频繁项 集的原创性算法
- 过程:
Apriori算法为逐层搜索的迭代方法: 首先,扫描数据库,累计每个项的计数, 并收集满足最小支持度的项, 找出频繁1项集L1; 然后,使用L1找出频繁2项集L2, 使用L2找出L3, … 如此下去,直到不能再找到频繁k项集。
手算例题:
数据挖掘——关联分析基础介绍(上)相关推荐
- 数据挖掘-关联分析频繁模式挖掘Apriori、FP-Growth及Eclat算法的JAVA及C++实现
(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器.文本聚类器.关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ ) 一. ...
- 数据挖掘关联分析中的支持度、置信度和提升度
购物篮分析: 利用关联分析的方法可以发现联系如关联规则或频繁项集. 二元表示:每一行对应一个事务,每列对应一个项,项用二元变量表示,项在事务中出现比不出现更重要,因此项是非对称的的二元变量. 项集(I ...
- 算法设计与分析基础-笔记-上
算法设计与分析基础 绪论 什么是算法 一系列解决问题的明确指令,对于符合一定规范的输入,能够在有限的时间内获得要求的输出. 例子:最大公约数:俩个不全为0 的非负整数 m m m和 n n n的最大公 ...
- [产品]7个大数据挖掘与分析公司介绍
7家值得我们关注的大数据处理以及商业智能分析的创业公司 转载地址 http://www.socialbeta.com/articles/7-big-data-company-list.html 一: ...
- Python-Web之前端基础介绍(上)
一.Web前端介绍 一.什么是网页 网页是基于浏览器的应用程序,是数据展示的载体. 二.网页的组成 浏览器 代替用户向服务器发请求 接收并解析数据展示给用户 服务器 存储数据 处理并响应请求 协议 规 ...
- 数据挖掘——关联分析例题代码实现(下)
1.导包 from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import apri ...
- 购物篮数据两种商品间的关联分析
先讲一个故事,来自于百度知道. 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售.但是这个奇怪的举措却使尿布和啤酒的销量双双增加了.这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例, ...
- Python数据挖掘与机器学习,快速掌握聚类算法和关联分析
摘要:前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题.分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问 ...
- 案例分享 | 某券商利用AI技术进行告警关联分析(上)
本内容来自公众号"布博士"------(擎创科技资深产品专家) 背景: 作为大型券商企业之一,某券商对深入数字化转型,以及对应用.网络.主机.操作系统.中间件.用户使用体验等的全面 ...
最新文章
- java web Junit
- 阿里云服务器ubuntu14.04安装Redis
- base64/32/16编码
- linux下GPRS ppp拨号默认路由问题(存在eth0)
- Red Hat Enterprise Linux Server release 5.6 安装 MongoDB 2.6.4
- css网页布局兼容性有哪些要点与诀窍
- 用符号方法求下列极限或导数matlab,matlab实验
- java path 注解_@PathVariable注解的使用和@Requestparam
- B端出行,缺一个盒子汽车么?
- 人间故事馆话题:聊聊那些被骗经历,让其他人不再被骗
- 分享一个同行的blog,UI方面的。
- Cordova的安装及环境配置
- github 怎么搜索_实用!8个玩转GitHub的小插件,快来试试吧!
- 常用的 JavaScript 库 CDN 加速服务
- PG修改表字段长度报错 cached plan must not change result type Hint: Please restore the result type
- java 类方法中this_Java Eclipse 中 在类与方法调用中 (this)的用法
- 关于cocos2d引擎写的手游加速
- Linux命令——统计文件的字符数、字节数及行数
- 【mmWave】zoomFFT
- 软件 程序与编程语言的解释
热门文章
- Linux无法使用wget下载东西
- java并发包线程池原理分析锁的深度化
- 荣耀十支持鸿蒙OS,不是所有华为荣耀手机都能升级华为鸿蒙OS,只有这48款才行...
- Android中fastboot devices无法发现设备解决方案和adb remount问题解决
- 学习笔记之——Python中类和对象的理解
- 未来计算机的发展英文文章,计算机的现状和未来计算机发展(The status quo of computers and future computer development).doc...
- 播放网易云音乐时,有电话呼入,音乐并不会停止播放。
- ContentProvider android:exported = “true”
- 【天池学习赛 语义分割】自定义数据集时报错处理
- 51单片机PS2键盘解码实验--C51源代码