一、前言
提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;下面我们利用R语言的arules包及Apriori算法对商品交易数据进行关联规则挖掘,

二、常见关联规则:

  1. 关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】
  2. 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生;
  3. 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生;
  4. 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定。

三、与关联分析相关的专业术语包括:

  1. 项集:项(商品)的集合
  2. k-项集:k个项组成的项集
  3. 频繁项集:满足最小支持度的项集,频繁k-项集一般记为Lk
  4. 强关联规则:满足最小支持度阈值和最小置信度阈值的规则

四、算法步骤(两步法)

  1. 第一步先找出所有的频繁项集;
  2. 第二步再由频繁项集产生强关联规则

五、R语言实现过程

######以arules包中的数据集Groceries为例。#####1、加载arules包,获取数据集。library(arules)data(Groceries)#####2、eclat算法求频繁项集。freq_sets <- eclat(Groceries,parameter=list(support=0.05,maxlen=5))#求频集inspect(freq_sets[1:10])#查看频繁项集的前十项inspect(sort(freq_sets,by="support")[1:10]) #根据支持度对求得的频繁项集排序并查看,结果如图。

结果解读:第一个项集表示,如果有100个人去买东西,那么可能有25个人会买“whole milk”,可能有19个人会买“other vegetables”,等等。

#####3、apriori算法求关联规则。rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.3))inspect(sort(rules,by="support")[1:10])#查看前十条关联规则

结果解读:第一条规则,support=0.0748表示“other vegetables”与“whole milk”同时购买的概率为0.0748;confidence=0.3868表示购买了“other vegetables”的同时,还购买“whole milk”的概率为0.3868,lift=1.51>1.00表明购买“other vegetables”对于提升购买“whole milk”的作用度为1.51.

注:lift是判断关联规则是否可靠的一个指标,lift=1说明两个条件没有任何关联;lift<1说明两个条件是相斥的;一般在数据挖掘中选择当提升度大于3时,才承认挖掘出的关联规则是有价值的。

#####4、根据需求条件求关联规则子集。x=subset(rules,subset=rhs%in%"whole milk"&lift>=1.2)#求rhs为“whole milk”且作用度大于1.2的规则。inspect(sort(x,by="support")[1:8])

 #####5、关联规则可视化Library(arulesViz,quietly=TRUE)plot(rules,method="Graph")

【R语言 数据挖掘】R语言如何做关联规则?相关推荐

  1. python语言数据挖掘python语言数据_Python语言数据挖掘01-环境搭建

    本文主要向大家介绍了Python语言数据挖掘01-环境搭建,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. Python是数据挖掘的利器,这里自己边学习边记录下过程.以下操作在Wi ...

  2. R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五

    R语言数据挖掘(关联规则.聚类算法等) 实验内容和步骤: 数据概览 产品分析 性别统计 畅销品 年龄统计 城市居住时间分析 查找顶级消费者 关联规则分析 聚类 实验内容和步骤: 一. 实验内容: 对原 ...

  3. 【R语言】常用的R语言数据挖掘包

    常用的R语言数据挖掘包 与Python相比,R语言的很多算法分别会有不同的作者实现,而每个人有不同的实现方式,所以会产生大量的package.因此,学习R语言需要广泛了解与所研究问题相关的包,这样就比 ...

  4. R语言数据挖掘实战系列(4)

    R语言数据挖掘实战系列(4)--数据预处理 数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具.数据预处理的主要内容包括数据清洗.数据集成.数据变换和数据规约. 一. ...

  5. 《R语言数据挖掘:实用项目解析》——2.6 变量分段

    本节书摘来自华章计算机<R语言数据挖掘:实用项目解析>一书中的第2章,第2.6节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区 ...

  6. R语言--数据挖掘3---关联规则分析

    文章目录 关联规则分析 数据介绍 基本原理介绍 基本概念: Apriori算法 有意义的关联规则 案例分析 总结反思 学习其他同学的代码 参考 代码 关联规则分析 本次报告主要包括以下内容: 数据介绍 ...

  7. 《R语言数据挖掘》----1.12 数据集成

    本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.12节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云 ...

  8. 《R语言数据挖掘:实用项目解析》——第2章,第2.9节无参数方法

    本节书摘来自华章出版社<R语言数据挖掘:实用项目解析>一书中的第2章,第2.9节无参数方法,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区 ...

  9. 《R语言数据挖掘》----1.15 结果可视化

    本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.15节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云 ...

  10. 《R语言数据挖掘:实用项目解析》——1.11 apply原理

    本节书摘来自华章计算机<R语言数据挖掘:实用项目解析>一书中的第1章,第1.11节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社 ...

最新文章

  1. 吴恩达桃李满天下:包括他自己的老爹
  2. synchronized锁
  3. note2 android4.3,玩家们动手吧 Note2安卓4.3固件已泄漏
  4. 计算机mips是什么,在计算机术语中,什么叫MIPS
  5. 操作excel方便么_【Excel好推荐】专业仪表板
  6. 洛谷 P2286 [HNOI2004]宠物收养场
  7. finally块的return语句会覆盖其他语句的return
  8. Python连接mysql密码用密文_druid配置数据库连接使用密文密码
  9. 【热血传奇】 怪物添加(下)
  10. python复制上一条语句快捷键_pycharm快捷键及一些常用设置
  11. Linux 动、静态库原理深剖
  12. PE装到移动硬盘的资料寻回办法
  13. android studio 页面布局
  14. Pig 更新: 发布 0.7 版本
  15. python获取excel数据制作有文字和图表的报告_如何用Python绘制学术报告图表?
  16. 1024程序员节来了,
  17. 自动阅读 到底 能不能赚钱
  18. Xcode14 正式版编译报错‘ does not contain bitcode.解决方案
  19. 最新Sublime Text3 注册码激活码,持续更新!
  20. 反垃圾邮件网关原理(转)

热门文章

  1. java 纳秒 格式化_Java日期时间API系列35-----Jdk8中java.time包中的新的日期时间API类应用,微秒和纳秒等更精确的时间格式化和解析。...
  2. 问题记录:SyntaxError: Missing parentheses in call to ‘print‘.
  3. 如何查看存款和贷款的基准利率
  4. android逻辑分辨率,手机ui设计dpi如何把握,看这3个平台各自的画布设置情况
  5. 微信小程序--实现番茄钟功能
  6. php 字符串替换中文,PHP中文字符串替换其中为*的方法
  7. 【windows】window10打开图片显示黑屏,一直打不开
  8. 亚马逊站外引流如何做?解析厨电大卖的高曝光秘诀
  9. itext pdf 加页眉和页脚加页数(二)
  10. MATLAB 像素画绘制APP