中删除某几列_算法--apriori 实战 (某零售企业的商品关联分析)
先别着急看案例,先看一下下面这段话喽,希望对大家有帮助
当上级给大家类似这样一个分析需求时,即使不会也不要着急,冷静的想一下,如果你是老板你是领导,你想要看什么;可以理解为拿到的数据就是这个超市的所有购物小票,想从小票上得到哪些信息呢?是不是想看一下这些购物小票上买的最多的排名前10的商品是哪些?占比又是多少呢?如果有子类的话,是不是想看一下子类的占比是多少?还可以看一下这些占比和库存的关系,这就涉及到补货多少的问题?还有这些商品是不是可以组合卖呢?比如火锅类购物节时与火锅有关的放在一起卖,是不是收益更好呢?这些就是数据分析,就是关联分析;
1、准备工作
1.1、数据源属性
注:这里只是以我拿到的数据,大家可以以自己拿到的数据为例子,做分析做处理
GoodsOrder表:可以理解为每一个id是一个购物小票,比如有10个id是1的,说明这10个商品是一次购买的,是一张小票
id:商品所属类别的编号
Goods:具体的商品名称
GoodsTypes表:
Goods:具体的商品名称
Types:商品类别名称
1.2、plt画图参数
1、autopct:展示百分比数值,可取值4种:
a. %d%%:整数百分比;
b. %0.1f:一位小数;
c. %0.1f%%:一位小数百分比;
d. %0.2f%%:两位小数百分比 | 2、figure:调整图形的大小
3、labels:定义标签
4、字体:plt.rcParams['font.sans-serif'] = 'SimHei'
5、颜色:colors = ['red','yellowgreen','lightskyblue','yellow'] #每块颜色定义
6、explode:#将某一块分割出来,值越大分割出的间隙越大
1.3、安装apyori库
2、查看数据特征,探索性分析
2.2、查看两个数据集是否有空值
2.2、查看销量前10的商品及类别
既然是看商品销售排名前10的商品,某一商品占总数的商品,看一下总数是多少
shape的结果是几行几列的数据,所有第一个值是行数,也就是商品的总数
销量前5的商品:按商品名称进行分组,id列计数统计,并且id降序排列
画图:
2.3、各类商品的销量及其占比
2.4、非酒精饮品内部各商品的销量占比
3、数据挖掘,建模
3.1建模
说明:做建模的数据源,必须是list如:[['面包','牛奶'],['面包','啤酒'],['面包','果汁']]
3.2、结果解析
如上图所示:解析前3条结果;
(1)[其他蔬菜;酸奶]=>[全脂牛奶]支持度约为2.23%,置信度约为51.29%。说明同时购买酸奶、其他蔬菜和全脂牛奶这3种商品的概率达51.29%,而这种情况发生的可能性约为2.23%。
(2)[黄油]=>[全脂牛奶]支持度最大约为2.76%,置信度约为49.72%。说明同时购买其他蔬菜和全脂牛奶这两种商品的概率达49.72%,而这种情况发生的可能性约为2.76%。
(3)[凝乳]=>[全脂牛奶]支持度约为2.61%,置信度约为49.05%。说明同时购买根茎类蔬菜和全脂牛奶这3种商品的概率达49.05%,而这种情况发生的可能性约为2.61%。
从结果可以得出,购买的商品大部分是食品,随着生活质量的提高和健康意识的增加,其他蔬菜、根茎类蔬菜和全脂牛奶均为现代家庭每日饮食的所需品。因此,其他蔬菜、根茎类蔬菜和全脂牛奶同时购买的概率较高,符合人们的现代生活健康意识。
顾客购买其他商品的时候会同时购买全脂牛奶。因此,提出以下建议:
(1) 牛奶放在方便顾客拿的位置
(2) 顾客同时购买其他蔬菜、根茎类蔬菜、酸奶油、猪肉、黄油、本地蛋类和多种水果的概率较高,因此商场可以考虑组合销售 ;还应该在不同季节考虑商品的摆位置
3.3、apriori参数说明
# apriori其他参数说明:
min_support -- The minimum support of relations (float).最小支持度,可用来筛选项集 0.02
min_confidence -- The minimum confidence of relations (float).最小可信度,可用来筛选项集 0.35
min_lift -- The minimum lift of relations (float).最小提升度
max_length -- The maximum length of the relation (integer).序列最小长度
3.4、返回结果集属性介绍
result里每一个项集的属性介绍
items – 项集,
frozenset对象,可迭代取出子集。
support – 支持度,float类型。
confidence – 置信度或可信度, float类型。
ordered_statistics – 存在的关联规则
可迭代,迭代后,其元素的属性:
items_base – 关联规则中的分母项集
confidence – 上面的分母规则所对应的关联规则的可信度
如果喜欢,请点个赞,您的支持,是对我最大的鼓励
中删除某几列_算法--apriori 实战 (某零售企业的商品关联分析)相关推荐
- C语言字符串中删除重复的字符的算法(附完整源码)
C语言字符串中删除重复的字符的算法 C语言字符串中删除重复的字符的算法完整源码(定义,实现,main函数测试) C语言字符串中删除重复的字符的算法完整源码(定义,实现,main函数测试) #inclu ...
- 对下图所示的连通网络G,用克鲁斯卡尔(Kruskal)算法求G的最小生成树T,请写出在算法执行过程中,依次加入T的边集TE中的边。说明该算法的基本思想及贪心策略,并简要分析算法的时间复杂度
对下图所示的连通网络G,用克鲁斯卡尔(Kruskal)算法求G的最小生成树T,请写出在算法执行过程中,依次加入T的边集TE中的 边.说明该算法的基本思想及贪心策略,并简要分析算法的时间复杂度
- android 商品筛选_商品关联分析
写在前面的话: 最近发现,使用R做数据挖掘很是方便,一是能够快速搭建模型,二来有比较成熟的包进行数据可视化.下面详细记录自己用R语言做的一个商品关联分析,一开始对R不是很熟悉,在网上参考很多文章,然后 ...
- 天池比赛-02-用Apriori算法进行商品关联分析
这篇文章是对天池比赛里面的商品关联分析案例的介绍,采用 Apriori 算法发现频繁项集,确定关联关系. 1.基本概念 1.1 关联分析相关概念 频繁项集和关联规则是关联分析中的两个基本概念: ...
- 啤酒和尿不湿?购物篮分析、商品关联分析和关联规则算法都给你搞清楚(上—理论篇)
不管是不是搞数据分析的,相信应该都听过啤酒尿不湿的故事,说的是美国的沃尔玛超市管理人员分析销售数据时发现了一个令人难以理解的现象:"啤酒"与"尿布湿"这两件看上 ...
- pandas 取excel 中的某一列_干货Python Pandas 做数据分析之玩转 Excel 报表分析
本篇文章选自作者在 GitChat 的分享,若有什么问题,可在公众号回复「小助手」添加小助手微信,邀请你进入技术交流群. 各位朋友大家好,非常荣幸和大家聊一聊用 Python Pandas 处理 Ex ...
- 如何快速轻松地在Excel中删除空白行和列
If you have a lot of blank rows in your Excel spreadsheet, you can delete them by right-clicking eac ...
- python dataframe删除某一列_怎样用Python进行数据分析
本文总结了猴子Live课程:怎样用Python进行数据分析,主讲内容包括Numpy和Pandas. 一.一维数据分析 一维数据分析,可以使用Numpy中Array,也可以使用Pandas中的Serie ...
- mysql8中怎么增删一列_关于MySQL的增删改查知识
增删改查基础操作 1.创建查询数据库:mysql>create database web; mysql>show databases; 2.创建数据表: #选择要使用的数据库:mysql& ...
最新文章
- 【Paper】2021_Optimal Distributed Leader-following Consensus of Linear Multi-agent Systems: A Dynamic
- 从零入门 Serverless | 函数计算的可观测性
- 《那些年啊,那些事——一个程序员的奋斗史》——115
- 动态规划求一个序列的最长回文子序列(Longest Palindromic Substring )
- 汇编语言:汇编程序的hello world程序(实验9根据材料编程)
- jdom 读取xml_JDOM分析器–将XML文件读取为Java对象
- case when 效率_采用机械涡轮复合增压系统优化7.8 L柴油机的 稳态效率和排放性能...
- 需求分析,我们应当怎样做
- 谷歌浏览器扩展程序XDM_如何下载和安装扩展程序?
- 基于云开发的成语答题小程序
- 计算机论文指数,我国计算机领域学术论文引用中的马太效应——以《计算机学报》和《计算机研究与发展》为例...
- 备考电商双十一智齿客服主动营销功能大升级
- 在线购物系统 问题描述、词汇表、领域类图
- String StringBuffer StringBuild区别?
- Mac流程图制作工具:Diagrams
- 《点燃我,温暖你》爱心代码复现
- 外星人大战---------------------游戏开发
- CDN 缓存与浏览器缓存
- python免费课程全套-为了学习Python,我汇总了这10个免费的视频课程!
- IDF实验室-伟人的名字
热门文章
- R语言abline函数为图像添加竖线、横线、斜线、回归线实战
- 什么是textRNN?有什么用途?结构是什么样子的?
- eclipse 新建maven项目报错Could not resolve archetype org.apache.maven.archetype修改配置
- 孙立岩 python-basic: 用于学习python基础的课件(一二三四)
- 第三代基因测序技术革新 云计算的应用
- strtok()函数详解
- java自考真题_自考04747JAVA语言程序设计(一)历年真题试卷下载
- 宝塔显示linux inode,Linux显示inode的信息
- 二十七、连续分配管理方式
- 【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding