分析如烹饪:让我们一起做数据大厨吧!
来源:一个数据人的自留地 作者:鲸歌
还记得,指引我数据分析入门的那本书,它将数据分析的步骤类比为烹饪的每一步,形象而生动,让我印象深刻。选择数据分析,是基于自己所在的行业以及自己与职业发展的契合度,一路走来,踩过很多坑,但也收获很多成功的喜悦,感谢遇见的每一位天使!
下面就请让我以烹饪的形式来带你做一份数据分析报告吧!
01
分析背景&数据来源(备料)
阿里作为国内电商巨头之一,其在快速发展的同时也面临着诸多残酷的竞争。电商平台作为一个复杂的生态系统,上有不断入驻的品牌商家,下有体量庞大的消费群体,身为衔接者,平台肩挑重任并砥砺前行。母婴大类是平台的重点类目,具有消费者和使用者分离和购买决策周期长等特点,本次分析以阿里母婴大类的数据为主,通过SWOT分析确定本次分析背景,具体见下:
基于如上SWOT分析,我们需要进一步用数据来论证平台母婴发展的现状及其机遇,洞察机遇后该如何抓住风口。
数据来源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
包含2张报表:产品信息表和消费者信息表
报表的具体字段如下图所示:
了解每一列的含义
数据分类,分为3大类:用户、行为和产品
用户数据:用户id、出生日期、性别;
行为数据:用户id、购买数量、购买时间;
产品数据:物品编号、一级分类、二级分类、商品属性;
02
分析目的
通过分析2012年7月至2015年2月的母婴产品用户数据,能够洞察母婴大类发展现状,找到现状背后的原因,为平台2015年的进一步发展提出有效建议。
03
分析思路
首先,分析手头2张报表:
根据报表的字段含义和记录行数可以看出”产品信息表”是主表,”用户信息表”是副表;
从整体与部分来看,”用户信息表”中的用户ID是”产品信息表”中用户ID的部分,侧面说明用户信息表是一个小的样本集。
因此,本文的分析侧重点在于”产品信息表”,”用户信息表”可以起佐证作用。
其次,观察”产品信息表”的统计周期起于2012年7月至2015年2月,以自然年作为筛选条件,12年和15年因数据信息不全,所以重点分析年份锁定13年和14年。
再次,进一步查看”产品信息表”的各个字段,可发现核心字段是【购买数量】,由此可衍生出系列指标:年成交量和年成交量增速。
综上,在分析的时间段和核心指标确立后,可以针对【购买数量】提出如下问题:
2013年和2014年的年成交量是多少?
对比2013年,2014年的年成交量增速是多少?
通过初步数据验证,得出如下图:
最后,明确问题:通过观察产品信息表的2012年7月至2015年2月的母婴大类销售数据,可发现与2013年相比,2014年年成交量增速达到49%,那么14年增长的原因有哪些?如果15年要持续增长,需从在哪些方面进一步提升?
由此,形成分析思路脑图,见如下:
04
分析内容(切配+烹饪+打荷)
根据年成交量=成交用户数*人均成交量这个公式,对公式的组成元素进行一步步拆解。
提出假设1:人均成交量的提升带动14年整体的成交量
收集证据:下图是13年和14年的人均成交量随时间变化的折线图
得出结论:从图表可以看出,13和14年的人均成交量相减差值为0.05,几乎可以忽略不计,所以人均成交量提升带动年成交量的假设不成立。
提出假设2:成交用户数的提升带动14年整体的成交量
收集证据:下图是13年和14年的成交用户数的柱形图
得出结论:从图表可以看出,14年的成交用户数的增速和14年的年成交量的增速趋势相近,由此可以得出14年年成交量的提升来源于成交用户数的增加,该假设成立。
紧接结论,进一步分析【成交用户数】的组成部分,即成交单笔用户数和成交复购用户数。因数据统计周期并不完整,为严谨起见,故本文没有将单笔用户数简单定义为新客。通过数据整理,得出下图:
综上,14年年成交总量的上升源于成交用户数中单笔成交用户数的贡献。
由此引出,单笔用户数增长的原因有哪些?
提出假设1:平台提供的活动促销力度吸引大批具有折扣心智的用户,并促使其转化
收集证据:活动档期可以通过月成交用户数的波动趋势来挖掘,从而进一步锁定突出点的5月和11月,对比分析2年在相同月份上类似活动的成交用户数的差异是否明显
得出结论:活动对用户的吸引力确实很强,比如上图14年双十一当天的用户数接近13年的2倍,也可以从侧面说明,具有活动心智的人群更容易在活动中被平台转化。如有2013年和2014年的具体活动档期的话,可以进一步论证假设成立。
提出假设2:平台提供的产品种类更丰富,不断上新能够吸引大批用户,并促使其转化
收集证据:下面2图基于产品信息表中的产品ID这一字段进行分类统计对比,以确定平台对产品种类的扩充或迭代更新是否能吸引到有此需求的用户人群。
14年成交种类数量=13年与14年共有产品种类+14新增成交种类
得出结论:产品种类的丰富能体现平台运营能力的强弱,满足更多用户的需求是用户数池子蓄水的必要条件。通过数据验证,假设成立,因分析数据时间段集中于13和14年,所以结论还需后续更多数据集进行验证。
紧接产品丰富度的结论,下图是对产品丰富度的进一步拆分,见如下图:
即将如何提升产品的丰富度拆解为如下2个问题:
如何将产品系列做精?
如何将产品带做宽?
无论是二级大类数量的不断扩充还是同一类别下子产品数量的增多,两者都有利于扩充平台产品的丰富度,那么如果平台在现有资源下只能优先选择一个方向的话,那么哪一个方向效果更佳呢?采用相关性分析,见下:
产品水平方向扩充(一级类目下二级类目数量增加)
产品垂直体系扩充(同一类别下产品数量增多)
综上,相关系数对比显示,扩充产品垂直体系对于吸引更多用户数,促进其转化更为有效。
另外,由上述散点图观察可以发现存在部分异常值,如下图:
分析可发现,异常值与成交总量中存在批发订单相关,即存在小部分购买数量超过10件以上的单笔订单,具体占比见如下:
根据如上分析,可以明确”人”是一个关键要素,那么针对如何获取更多的“人”,作为平台方,2015年的持续增长动力来源于哪些方面?
接下来,我开始重点分析开篇说的副表:用户信息表,通过拆解如何获取更精准的人这个问题,可以产生如下子问题:
消费主力军是谁?
消费能力怎么样?
不同性别和年龄段对一级类目的倾向如何?
05
结论
对产品信息表分析,可得出如下结论:
14年年成交量增幅达到49%,其指标上升源于用户人数增加,对用户人数进一步分析可发现平台具有拉新能力强,复购率低的显著特征;
因现有数据报表较少,不足以论证复购率低的原因,根据人均销量可猜测复购率与平台销售商品相关,比如商品十分耐用,或者在使用上更趋向于一次性;
拉新能力强体现在单笔成交用户占比99%+,通过对单笔用户数的购买行为数据分析,可发现受活动吸引力度和产品丰富度的有效影响;
具体分析13和14年的活动特征显著月份,以5月和11月的2个活动高峰点为佐证,发现用户数在14年活动当天的成交人数远远高于13年同时间段,甚至达到翻倍的效果,可见具有聚划算等活动心智的用户更容易被平台获取转化;
产品丰富度是一个平台持续扩张运营的核心指标,通过相关性分析,平台招募更多商家或开发更多产品系列都能促进用户的下单转化。相关分析显示,平台在一个细分类目下提供更多产品数量,可以减少用户的跳失。
06
建议
根据以上结论,在利用AARRR模型和回归分析的基础上,分别提出如下的建议:
AARRR模型:找对人,多留人,提收入,扩规模
获取精准客群:在较低成本下大量获取的人群画像是:0-3岁之间的男童和女童,女童优先级更高,精准人群获取方式上可采用推送高相关性类目的销量Top3产品来吸引,比如对0-3的女童,推送”50014815”的Top3销量产品广告图来投放吸引。
激活&留存:活动是吸引拉新和刺激复购的有效措施,平台可以通过增加活动档期和活动的互动玩法等形式。
推荐:平台可以鼓励商家采用会员制或者老带新的措施,增强用户黏性。
回归分析:可以预测2015的销量,从而调整和优化各部门的KPI指标
如上图,可以根据2015年的总成交量目标拆解到各个一级类目的目标,同时也可以从产品角度确定研发和迭代多少款产品。
以上是我做的数据分析报告,欢迎交流探讨!
关注成都CDA数据分析师
获取数据分析的干货分享和岗位内推机会
分析如烹饪:让我们一起做数据大厨吧!相关推荐
- 西红柿炒鸡蛋怎么做(大厨教程 教你炒出饭店的味道)
声明:整理自bilibili up主投稿 侵权删 链接:美食作家王刚R 备菜 西红柿 两个西红柿去蒂 切成较大的块备用 鸡蛋及小料 打三个鸡蛋 加入少许食用盐 白醋一克(去腥) 顺一个方向搅拌备用 开 ...
- web大屏展示用到的组件_从零开始设计数据大屏—基于Vue
为什么要做数据大屏? 现如今的大数据逐渐发挥出了它的力量,并无形的改变着我们的生活.但大数据在不是从事技术开发的人来说没有很明显的感受,很多人对大数据的概念只是停留在每年网易云音乐对个人听歌的汇总上. ...
- 解决 “数据大屏“ 展示的屏幕适配问题
现在非常流行的大数据可视化方案,不过要做数据大屏有一个很重要的问题就是屏幕适配. 一.引入flexible文件 flexible是移动端屏幕适配非常著名的的插件,能够帮助我们修改rem的值,也就是修改 ...
- 爆肝十小时,为你总结出最全的数据大屏适配屏幕方案
前言 近期公司投放在展厅大屏中演示的大数据页面,出现了文字.图表.表格等多类组件显示错乱的情况,大部分原因还是适配问题. 我们做数据大屏时,因为显示器尺寸不同,会导致展示的时候有留白区域,效果不好,所 ...
- pyecharts+flask制作数据大屏-进阶
去年整理了个pyecharts+flask制作数据大屏的基础版,事情比较多,一直没时间进一步完善.这篇进阶版是基于上篇的基础上,说明如何实现一个功能完整的数据大屏. 注:本人对CSS和JS并不熟悉,只 ...
- 袋鼠云可视化二三事 | 数据大屏设计师,我不信你没有这些困惑!
嗨,我是袋鼠云的一个数据可视化设计师,在公司主要负责画大屏.在去年画了60多张大屏页面之后,我失去了青春和头发,化解了一些对于数据可视化工作的迷茫,我整理了其中的一些,希望能带给大家一点启发.我将主要 ...
- python导出数据顿号做分隔符_Python语言和matplotlib库做数据可视化分析
这是我的第51篇原创文章,关于数据可视化分析. 阅读完本文,你可以知道: 1 Python语言的可视化库-matplotlib? 2 使用matplotlib实现常用的可视化? 0前言 数据记者和信息 ...
- python预测算整理集合 python根据历史数据,预测未来数据 神经网络时间序列预测python 销售收入分析与预测 神经网络预测控制 Python 源码 4个lstm做数据预测的案例源代码
python 预测未来/神经网络/负荷/飞机零件故障/链路预测程序源码 1.python实现TensorFlow2股票股价预测(源码) 2.负荷预测(py thon例子,实时负荷预测,15分钟到4小时 ...
- 实战 | 用Python爬取《云南虫谷》3.6万条评论,并做数据统计可视化展示分析,好看!...
最近鬼吹灯系列网剧<云南虫谷>上线,作为鬼吹灯系列作品,承接上部<龙岭迷窟>内容,且还是铁三角原班人马主演,网友直呼非常好看! 今天,我们就用Python爬取目前全部剧集的评论 ...
最新文章
- Enterprise Library: Configuration Application Block应用向导篇, Part 1
- CodeFirst实战:用文本数据库存档软件配置
- Java线程的概念:什么是线程?
- Java 8 (10) CompletableFuture:组合式异步编程
- spring boot注释_使用Spring Boot和注释支持配置Spring JMS应用程序
- Arrays.deepToString() 方法同时适用于基元数组和对象数组
- JDBC编程专题9之JDBC事务
- python导入matplotlib模块_从NumPy导入python子模块有什么区别,matplotlib包
- Python 多线程总结
- php set medias,manage-medias.php
- TinyXML2 入门教程
- 系统学习NLP(三十二)--BERT、XLNet、RoBERTa、ALBERT及知识蒸馏
- Java输入/输出流
- 解决win7 sp1专业版无法安装更新
- raw格式转换jpg软件 V5.2
- 8脚51单片机DIY时间显示+闹钟技术分享(一)
- IBM OMNIBUS INSTALL
- 深度解析NRF24L01
- 管理类综合-论证有效性分析思路总结
- HTTP状态码分类(常用HTTP状态码和HTTP状态码大全)
热门文章
- 前端开发入门 --摘自慕克网大漠穷秋
- 直接在html打开ppt,无需频繁跳转 教你在PPT内直接看网页
- 100base-fx 单模/多模接口是什么意思
- 微信公众号检测本地App, 安装则打开,未安装则下载的实现方式
- 计算机网络实验--Cisco Packet Tracer 实验
- React-fiber架构的解释
- Mac M1安装pycharm专业版,幼儿教学
- ECCV 2020预会议 直播笔记| Suppress and Balance: A Simple Gated Network for Salient Object Detection
- AtCoder Beginner Contest 177 A~D 题解
- 骑行318、 2016.7.17