原文链接:http://tecdat.cn/?p=7939

原文出处:拓端数据部落公众号

数据科学Apriori算法是一种数据挖掘技术,用于挖掘频繁项集和相关的关联规则。本模块重点介绍什么是关联规则挖掘和Apriori算法,以及Apriori算法的用法。此外,在小型企业场景中,我们将借助Python编程语言构建一个Apriori模型。

什么是关联规则挖掘?

如前所述,Apriori算法用于关联规则挖掘。现在,什么是关联规则挖掘?关联规则挖掘是一种用于识别一组项目之间的频繁模式和关联的技术。

例如,了解客户的购买习惯。通过查找顾客放置在其“购物篮”中的不同商品之间的关联和关联,可以得出重复的模式.

识别产品/商品之间的关联的过程称为关联规则挖掘。为了实现关联规则挖掘,已经开发了许多算法。Apriori算法是其中最受欢迎的算法,而且可以说是最有效的算法。让我们讨论什么是Apriori算法。

什么是先验算法?

Apriori算法假定频繁项集的任何子集都必须是频繁的。

假设包含{葡萄酒,薯条,面包}的交易也包含{葡萄酒,面包}。因此,根据Apriori原理,如果{酒,薯条,面包}很频繁,那么{酒,面包}也必须很频繁。

Apriori算法如何工作?

Apriori算法中的关键概念是,它假定一个频繁项集的所有子集都是频繁的。同样,对于任何不频繁的项目集,其所有超集也必须不频繁。

让我们在一个非常著名的业务场景市场篮分析的帮助下,尝试并理解Apriori算法的工作原理。

这是一个小时内包含六个事务的数据集。每个事务都是0和1的组合,其中0表示不存在某项,而1表示其存在。

交易编号 葡萄酒 薯片 面包 牛奶
1 1个 1个 1个 1个
2 1个 0 1个 1个
3 0 0 1个 1个
4 0 1个 0 0
5 1个 1个 1个 1个
6 1个 1个 0 1个

我们可以从这种情况下找到多个规则。例如,在葡萄酒,薯条和面包的交易中,如果购买了葡萄酒和薯条,那么客户也会购买面包。

{葡萄酒,薯条} => {面包}

现在我们知道了找出有趣规则的方法,让我们回到示例中。在开始之前,让我们将支持阈值固定为50%。

步骤1:创建所有交易中出现的所有项目的频率表

项目 频率
葡萄酒 4
薯片 4
面包 4
牛奶 5

步骤2根据支持阈值查找重要项目

支持阈值= 3

项目 频率
葡萄酒 4
薯片 4
面包 4
牛奶 5

步骤3从重要的项目开始,使成对的商品与订单无关

项目 频率
葡萄酒,薯条 3
葡萄酒,面包 3
葡萄酒,牛奶 4
薯条,面包 2
薯片,牛奶 3
面包,牛奶 4

步骤4根据支持阈值找到重要项目

项目 频率
葡萄酒,牛奶 4
面包,牛奶 4

第5步:根据第4步中的重要商品,三件一起购买的商品

项目 频率
葡萄酒,面包,牛奶 3

{酒,面包,牛奶}是从给定数据中获得的唯一重要项目集。但是在实际场景中,我们将有数十个项目可用来构建规则。然后,我们可能必须制作四对/五对项集。

Python中的Apriori算法-市场篮子分析

问题陈述

一家零售商店的经理正在尝试找出六个商品之间的关联规则,以找出哪些商品更经常一起购买,以便他可以将这些商品放在一起以增加销量。

数据集

以下是第一天的交易数据。此数据集包含6个项目和22个交易记录。

使用Python进行市场购物篮分析

我们将实现Apriori算法,以帮助经理进行市场分析。

步骤1:导入库

步骤2:载入资料集

步骤3:浏览记录

步骤4:查看 

步骤5: 将Pandas DataFrame转换为列表列表

步骤6:建立Apriori模型

步骤7:打印出规则数量

步骤8:浏览规则

第一条规则的支持值为0.5。该数字是通过将包含“牛奶”,“面包”和“黄油”的交易数量除以交易总数而得出的。

该规则的置信度为0.846,这表明在同时包含“牛奶”和“面包”的所有交易中,也有84.6%的交易包含“黄油”。

提升1.241告诉我们,同时购买“牛奶”和“黄油”的顾客购买“黄油”的可能性是“黄油”的默认可能性的1.241倍。


参考文献

1.探析大数据期刊文章研究热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

4.python主题建模可视化lda和t-sne交互式可视化

5.r语言文本挖掘nasa数据网络分析,tf-idf和主题建模

6.python主题lda建模和t-sne可视化

7.Python中的Apriori关联算法市场购物篮分析

8.通过Python中的Apriori算法进行关联规则挖掘

9.python爬虫进行web抓取lda主题语义数据分析

拓端tecdat|Python中的Apriori关联算法-市场购物篮分析相关推荐

  1. 使用Apriori关联规则算法实现购物篮分析

    Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,而且算法已经被广泛的应用到商业,网络安全等各个领域. 购物篮分析是通过发视频顾 ...

  2. python数据分析与挖掘实战(商品零售购物篮分析)

    一.引言 购物篮分析是商业领域最前沿.最具挑战性的问题之一,也是许多企业重点研究的问题.购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定 ...

  3. 利用Python进行市场购物篮分析——入门篇

    我们从日常生活中获取数据,大量的商业活动以及社交活动为我们提供了丰富的数据.如何从这些看似无用的数据中提取价值,这对于我们程序猿来说应该是我们的职责所在.今天就让我们用Python来进行市场购物篮的分 ...

  4. 3个表的连接需要 个关联条件。_购物篮分析(关联商品销售分析)

    购物篮分析在销售中对组合商品的位置摆放和捆绑售卖有很大的影响作用,正确有效的购物篮商品组合对提高销售额也有明显的效果. 先说明购物篮分析需要用到的表有哪些? 销售表(销售事实表).商品表(各商品的信息 ...

  5. Apriori关联算法讲解以及利用Python实现算法软件设计

    文章目录 一.Apriori关联算法原理概述 1.1 关联分析 1.2 Apriori 原理 1.2.1 Apriori 算法流程步骤 1.2.2 使用Apriori算法来发现频繁集 1.2.3 从频 ...

  6. 拓端tecdat荣获掘金社区入驻新人奖

    2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...

  7. 拓端tecdat荣获2022年度51CTO博主之星

    相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...

  8. python 关联分析算法的包_Python 极简关联分析(购物篮分析)

    关联分析,也称购物篮分析,本文目的: 基于订单表,用最少的python代码完成数据整合及关联分析 文中所用数据下载地址: 使用Python Anaconda集成数据分析环境,下载mlxtend机器学习 ...

  9. python的用途实例-python中pass语句意义与作用(实例分析)

    想必大家都是刚刚才开始接触python这门语言的,今天这篇文章就来带大家来了解一下python这门语言之中常常会用到的一个语句pass语句.想必大家都很好奇python中pass作用是什么,接下来我就 ...

  10. [转载] Python中的Phyllotaxis模式| 算法植物学的一个单位

    参考链接: Python中的Phyllotaxis模式| 算法植物学的单位 简介| 叶底   Phyllotaxis / phyllotaxy是植物茎上叶子的排列,Phyllotactic螺旋形成自然 ...

最新文章

  1. SpringCloud接入EDAS——服务发现篇
  2. 利用who,w,ps和top等指令查看linux下的进程执行情况.,UNIXLINUX操作系统实验指导书...
  3. 云存储基础设施的决定:公共云与私有云
  4. docker 启动容器_crontab入门二:定时启动docker容器并启动容器内部脚本
  5. Delphi中DLL封装业务逻辑的实现
  6. fft快速傅利叶变的C实现
  7. linux固定分辨率,如何锁定分辨率
  8. 阿里巴巴常考面试题及汇总答案
  9. 电子产品的磨砂膜和镜面膜的选择
  10. php 追查框架生命周期,ThinkPHP5框架的生命周期:从发出请求到响应完成
  11. 万万没想到,AI算法开发、OCR应用已经进入零门槛时代!
  12. 漂亮!商汤EDVR算法获NTIRE 2019 视频恢复比赛全部四项冠军,代码将开源!
  13. 5.5 Transformers的改进--自适应Attention
  14. LNMP详解(十六)——Nginx日志切割
  15. Django-----模板嵌套
  16. 2021-08-3126. 删除有序数组中的重复项 数组
  17. 如何将jar包加入到Maven本地仓库
  18. ios定位权限plist_iOS(定位一)后台定位和前台定位权限设置
  19. 索尼手机服务器在哪个文件夹,索尼手机云服务器
  20. FCRD-P帆软考试总结

热门文章

  1. mingw,cygwin,gnuwin32,msys,msys2 的区别
  2. Netty-Pipeline组件
  3. 区块链安全:基于区块链网络攻击的方式原理详解
  4. Spring事务传播实验剖析(一)
  5. RegeX版本更新至2.0.0.4 加入英文语言包
  6. Linux之 linux7防火墙基本使用及详解
  7. 聊天室自动滚动效果实现
  8. bootstrapt使用
  9. 快速学习django
  10. 如何识别一个字符串是否Json格式