一、分析背景

近年来,随着新零售业的快速发展,消费者购买商品时有了更多的对比和选择,导致超市行业的竞争日益激烈,利润空间不断压缩。超市的经营管理产生了大量数据,对这些数据进行分析,可以提升超市的竞争力,为超市的运营及经营策略调整提供重要依据。

本文数据来自2019 年“泰迪杯”数据分析职业技能大赛,数据集下载链接如下:

2019A8669.zip - 蓝奏云

二、分析目标

  • 对销售数据进行统计分析,并作可视化展示。
  • 分析顾客的消费行为。
  • 研究促销对销售的影响。

三、分析思路

将数据清洗之后可视化,然后根据可视化的图表找出业务问题并提出解决方案。

本文是将2019 年“泰迪杯”数据分析职业技能大赛的题目用Excle实现一遍,并形成数据分析报告。

四、数据清洗

清洗之前,首先将下载的csv数据复制一份到新的xls文件中,并将该sheet命名为源数据,这份源数据后面就不做改动了。接着将原csv文件关闭,把源数据sheet再复制一份到sheet2中,并将sheet2命名为清洗数据,本次数据分析中的所有数据清洗步骤都将在清洗数据sheet中完成。

4.1选择子集

将sheet2分析中暂用不到的数据进行隐藏,这里我选择了三类编码、销售月份、商品编码以及单位这6列数据。因为有了销售日期,所以销售月份可不用,三类编码和其他两项本次分析暂用不到。

4.2列名重命名

源数据命名都是中文很好理解,所以不用重命名

4.3删除重复值

由于是超市的销售数据,重复数据说明是用户多次购买,所以不能删除重复值,跳过这一步骤。

4.4缺失值处理

首先使用Ctrl+A全选数据然后使用Excle中的快捷键Ctrl+G来定位缺失值,由于本数据集数据较多,缺失值较少,只有个别缺失值,所以将缺失值所在行删除,对数据分析结果没有影响。

4.5一致化处理

清洗数据sheet中的销售日期不是日期格式,所以要使用Excle中的分列功能将销售日期设置为YMD日期格式。

4.6异常值处理

①日期异常

这里异常值比较难找,选中刚刚处理好的销售日期列,筛选之后发现还有两行日期显示为20150229的数据,这里我设置了很久,怎么都变不成规范的日期格式,后来恍然大悟,2015年的2月没有29日,于是这里算是异常值,所以手动将20150229改为20190228即可。

②数据异常

1)在规格型号列的数据筛选时发现,有大量缺失值,按理说该将其删去,但是看左边的小类名称发现可以根据其他完好的数据对其进行补充完整,所以这里算作了异常值处理。

图4.1补充缺失值演示图

2)在筛选销售金额数据时发现销售数量有负值存在,于是查看了一下销售金额果然也有负值,这里是属于异常值,并且经过计算发现值只是负数但是数值本身还是正确的。所以将两列的负值筛选出来调正即可。

五、数据分析

5.1统计每个大类商品的销售金额

图5.1各大类商品销售金额分布图

据图5.1可知,各大类商品销售金额最多的是日配大类,销售金额达到82396.2元,而销售金额最低的是烘焙大类,销售金额仅为110.9元。

5.2统计每个中类商品的促销销售金额和非促销销售金额

图5.2.1各中类商品促销销售金额分布图
5.2.2各中类商品非促销销售金额分布图

这里由于分类数据过多柱状图不易观察,我又制作了各中类商品的促销销售金额和非促销销售金额的前十排行分布图。

图5.2.3各中类商品促销销售金额前十分布图
图5.2.4各中类商品非促销销售金额前十分布图

据图5.2.1至图5.2.4可知,与想象中不同的是,非促销商品销售金额反而更高。在非促销中类商品前十排行中,水果、蔬菜和猪肉占据了半壁江山,而这些都是人民日常生活所必备的商品。所以可得出结论是否促销对生活必需品的销售金额没有影响。

5.3统计生鲜类产品和一般产品的每周销售金额

首先使用Excle中的roundup函数和datedif函数将日期转成对应的第几周,然后使用Excle中的分类汇总功能将销售金额按周分类汇总

图5.3.1生鲜类产品每周销售额变化趋势图
图5.3.2一般类产品每周销售额变化趋势图

据图5.3.1和图5.3.2可知,一般类产品销售额总体高于生鲜类产品销售额,但是一般类产品销售额在第7周有较大的下滑,生鲜产品销售额相对来说较为稳定。第17周到第18周两类商品销售额都大幅度下滑,达到数据的最低点。

5.4统计每位顾客每月的消费额及消费次数

由于数据较多不方便展示,此处两个数据均统计4月总计消费金额前20的顾客和总计消费次数前20的顾客。

图5.4.1每位顾客每月消费金额
图5.4.2每位顾客每月消费次数

5.5绘制生鲜类商品和一般商品每天销售金额的折线图,并分析比较两类产品的销售状况

图5.5生鲜类商品和一般商品销售金额折线图

据图5.5可知,一般商品每日销售金额基本都高于生鲜类商品。一般商品销售金额在2月2日至2月19日期间有剧烈波动,生鲜商品每日销售金额较为稳定。

5.6按月绘制各大类商品销售金额的占比饼图,并分析其销售状况

图5.6.1一月各大类商品销售金额占比饼图
图5.6.2二月各大类商品销售金额占比饼图
图5.6.3三月各大类商品销售金额占比饼图
图5.6.4四月各大类商品销售金额占比饼图

5.7绘制促销商品和非促销商品销售金额的周环比增长率柱状图

图5.7促销商品和非促销商品销售金额的周环比增长率

据图5.7可知,前7周促销商品环比增长率高于非促销商品,第8周两种商品全部销售金额下滑严重导致环比增长率大幅度降低,其中促销商品环比增长率降低至-400%。第9周至第16周促销商品环比增长率总体还是高于非促销商品。第17周两种商品环比增长率再次下降。

5.8分析各大类商品的销售情况,总结其销售规律

图5.8各大类商品月销售金额对比图

据图5.8可知,大类商品多数销售金额波动较小,其中家居、熟食、针织、水产、问题、家电、烘焙类商品几乎没有波动,每月销售金额非常稳定。可知用户对这几类商品需求频率较低。另外2月份是春节的月份,所以用户需要买酒饮过节或送礼导致2月份销售金额大幅上升。

六、总结

数据增长率怎么算_2019 年“泰迪杯”数据分析职业技能大赛A题 超市销售数据分析...相关推荐

  1. 【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)

    [第十一届泰迪杯数据挖掘挑战赛]A 题:新冠疫情防控数据的分析 思路+代码(持续更新) 问题背景 解决问题 代码下载 数据分析 Task1 Task2 Task 3 问题背景 自 2019 年底至今, ...

  2. 【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码

    [2023年第十一届泰迪杯数据挖掘挑战赛]A题:新冠疫情防控数据的分析 32页和40页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]A题:新冠疫情防控数据的分析 ...

  3. 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 31页省一等奖论文及代码

    相关链接 (1)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统负荷预测分析 问题一Baseline方案 (2)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统 ...

  4. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 23页论文及实现代码

    [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 23页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预 ...

  5. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一

    相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 ...

  6. 【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一

    相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]C题泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]C题泰迪内推平台招聘与求职 ...

  7. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题二

    相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 ...

  8. 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 问题二 时间突变分析 Python实现

    目录 相关链接 完整代码下载链接 1 定义绘图函数 2 通过对原始测量应用阈值来查找异常值 3 手动设置阈值 4 使用分位数设置阈值 5 3Sigma原则(IQR) 6 设定分位数 6.1 导入数据 ...

  9. 记第一次Python数据分析练习——2018年“泰迪杯”数据分析职业技能大赛B题(2021/5/20)

    文章目的 本人目前是应用统计专业大二(2021/5/20)的本科生,上学期上过Python课,但说实话讲的不深,过了一个学期也基本上忘光了. 最近深刻地觉得计算机专业真是好啊,以后我也要当程序员.JP ...

最新文章

  1. 点云标注工具:1.PCAT
  2. linux下i2c设备驱动程序,Linux I2C 设备驱动
  3. 回顾 | 2018年十大AI新闻 中国继续占据主导优势
  4. iOS 获取self类型
  5. Android4.0.3 USB OTG底层插入上报过程分析(1)
  6. Elasticsearch之mapping映射入门
  7. 【剑指offer】_17正则表达式的匹配
  8. XP操作系统最优视觉效果
  9. Linux下修改只读文件
  10. linux 进程内存分布,linux C++ 的内存分布情况
  11. 对中小电商卖家来说,找1-2个靠谱的供应链,不需要多
  12. 50k热敏电阻温度对照表c语言,50K热敏电阻温度表
  13. JS怎么唤起百度地图
  14. 管程(Moniter): 并发编程的基本心法
  15. AMD是什么?CMD是什么?他们之间有哪些区别
  16. 网络安全先驱传奇自杀了,他的一生足够拍成一部电影
  17. P1967 货车运输( 最大生成树+LCA or Kruskal重构树)
  18. Testlink 使用步骤
  19. 国产手机销量大跌,终于被迫降价抛售清理库存
  20. 使用注解失败的原因及解决方法

热门文章

  1. 地方旅游产业运行监测与应急指挥平台/旅游资源管理平台/旅游产业监测平台/旅游应急指挥平台/旅游资源统计/旅游线路数据/旅游产业可视化大屏管理系统/餐饮场所数据/游客流量监测/景区数据监测/视频监控
  2. Hadoop初步简介
  3. Django contenttypes组件
  4. UIView转换为UIImage
  5. TCPClient、TCPListener的用法
  6. JS魔法堂:浏览器模式和文档模式怎么玩?
  7. 使用VisualStudio开发php的图文设置方法
  8. Redis的服务端启动和客户端连接
  9. bzoj 4447 小凸解密码
  10. 【代码笔记】Web-ionic单选框