本项目数据来源:阿里天池数据集

数据概览: 本数据为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据,数据集包含两个表格:

  • (sample)sam_tianchi_mum_baby(base 表):包含用户ID、儿童出生日期、儿童性别的基本信息
  • (sample)sam_tianchi_mum_baby_trade_history(trade 表):包含用户ID、类别ID、购买数量、购买时间、商品ID及属性等信息




分析目的: 分析既往数据表现,寻找优化切入点,并针对性提出改善方案,已达到提升销量和营业额、减少经营成本的效果。

分析思路: 从营运、产品、用户三个指标维度,继续拆分细化数据,提出假设,分析问题

一、 数据清洗(Python)

  • base 表包含 user_id, birthday, gender 3个特征维度,共953行数据。
  • trade表包含user_id, auction_id, cat_id, bat1, buy_mount, day 6个特征维度,共29971行数据。

缺失值处理:
base 表无缺失值,trade 表 property 特征缺失144条数据,由于该特征主要用于机器学习预测分析,与本分析关联度不大,暂且取出。

异常值处理:
base 表 birthday 特征可视化,去除出生早于2000年的离散值;
trade 表 buy_amount 特征可视化,去除超过3个标准差的离散值。

# 数据可视化
btd = base.birthday.value_counts().sort_index()
plt.figure(figsize=(15,3))
sns.scatterplot(x=btd.index,y=btd.values,alpha=0.5)
plt.title('(原数据)婴儿出生日期与订单数分布图',fontsize=15)
plt.ylabel('购买订单数')
plt.xlabel('婴儿出生日期')
plt.show()
# 去除异常值
base.drop(base['birthday'][base['birthday']<20000101].index,inplace=True)

# 数据可视化
qtt = trade.buy_mount.value_counts().sort_index()
plt.figure(figsize=(15,3))
sns.scatterplot(x=qtt.index,y=qtt.values,alpha=0.5)
plt.title('(原数据)商品购买量与订单数分布图',fontsize=15)
plt.ylabel('购买订单数')
plt.xlabel('商品购买量')
plt.show()

一致化处理:
base 表 birthday 特征、trade 表 day 特征,由整数类型转化为日期类型;
user_id、auction_id、cat_id、cat1 特征,由整数类型转化为字符串类型。

二、电商市场环境

  • 2012年,被业内称为双十一的爆发点,这一年淘宝商城正式更名为天猫;
  • 2013年,包括广州、上海、杭州等9个城市,获批成为跨境电子商务试点。同年,苏宁、美团、银泰、PPTV等加入电商购物节大军,让双十一演变成了一种新的消费潮流和文化节日。同年,淘宝推出第一届“双十二”购物街,名为“全民疯抢”。
  • 2014年,进入跨境电商元年,亚马逊向中国消费者开通部分美国商品直销通道,天猫国际、聚美海外购、唯品会全球特卖等平台的跨境业务上线。同年,腾讯入股京东,京东、阿里相继上市。

三、数据分析(Power BI)

3.1 营运分析

3.1.1 销量指标

2012.07-2015.02 期间总销量 49586件(去除异常值后的数据),市场销量整体呈现上升趋势。

  • 2013 年销量同比 48.97%(统计期间:7月2日 - 12月31日,2012年上半年数据缺失);
  • 2014 年销量同比 50.85%(统计期间:全年,2013年与2014年数据都完整无缺失);
  • 2015 年销量同比 126.37%(统计期间:1月1日 - 2月5日,2015年2月5日后数据缺失)。

从季度销量情况看,第一季度普遍消费疲软,第四季度则大幅上升,且皆呈现同比增长状态。

  • 2015Q1 由于数据缺失,季度同比数据无参考意义,此外,各季度同比增长皆超过30%;
  • 其中 2013Q3 同比增长最高 67.54%,2014Q4 销量总计最高 7674件 同比 53.97%。

问题1:第一季度普遍消费疲软,第四季度则大幅上升的原因?

问题2:2015 年(1月1日 - 2月5日)销量同比大幅增长至 126.37% 的原因?

由 1月-2月销售量情况图(按日划分)可知:

  • 2013/2/1-2013/2/15 处于销量谷底,2013年春节假期:2013/2/9-2013/2/15;
  • 2014/1/26-2014/2/3 处于销售谷底,2014年春节假期:2014/1/31-2014/2/6;

销售低谷时段与春节假期基本吻合,其原因可能是部分企业提早放假、快递停运等。此外,2015年春节假期为 /2/19-2/25,相对较晚,因此1月销量受影响不大,同比增长较高。因此,可以认为每年第一季度的销量下降,与春节假期有较大关系。

由 11月-12月销售量情况图(按日划分)可知:

  • 在11月11日、12月12日当天,每年销量都呈现激增状态,且销量逐年递增;
  • 因此,可以认为每年第四季度的销量上涨,与双十一、双十二电商活动有很大关系。
3.1.2 订单数 & 用户数 & 复购率

订单数合计 29940 笔(去除异常值后),与销量分布大体一致呈现上升趋势,平均订单销量为 1.66件。

  • 订单数在 2014Q4 与销量一致达到最高,而平均订单销量为 1.58 件,2014 年全年平均订单销量在 Q3 处于谷底状态 1.57件;
  • 与 2014 年情况相反,2013Q3 平均订单销量处于最高水平 1.81 件,随后 Q4 跌至谷底 1.54件,订单数与销量皆环比上升。

问题一:第四季度平均订单销量、人均销量下降的原因?

  • 从第四季度平均订单销量看,除 2012Q4 年外(2012 年被业内称为双十一的爆发点),2013Q4 与2014Q4 订单销量与订单数环比皆有较大提升,而平均订单销量皆处于较低水平,也就是销量增长速度相对慢于订单增长速度(与人均销量情况分布大体一致)。
  • 从2013年、2014年双十一、双十二活动玩法来看,侧重于“全场折扣”、“消费立减”、“充值红包”等单品类、福利使用限制条件较少的活动玩法,缺少搭售、多件消费的刺激。因此建议,类似双十一、双十二等节假日活动,除了提升整体用户数与订单数外,需考虑从“交叉销售”、“多件促销”等角度,提升单均销量与人均销量。

问题二:在下单用户数呈现上升趋势的背景下,订单复购率持续走低的原因?

  • 订单复购率 = (订单总数 - 下单用户总数)/ 下单用户总数
  • 下单用户总数总体增长,复购率持续走低,可以推断,从2012年开始,电商消费习惯已逐渐被培养,但该习惯更倾向于低频率的购物消费。同时从产品角度推测,可能一方面产品质量把控不足,缺乏用户黏性,另一方面数据选取的品类为耐用型产品品类,消费倾向低频消费。因此建议,品类布局除了低频次的商品外,应逐渐布局高频次商品,同时加强商品质量监控,此外可利用“会员机制”、“push推送”、“限期购物券”等运营手段,提升用户回流,提高用户复购率。

3.2 产品指标



年龄层:未出生、婴儿期(12个月以内)、幼儿期(1-3岁)、学龄前期(3-7岁)、学龄期(7岁以上)

  • 大类 28 与 50008168 销量与子类别数最多,订单复购率与1月份销量的年均增长率皆处于中上水平,儿童的性别与年龄层分布类似,说明这两类商品的用户是有可能部分重叠的,建议考虑捆绑、买赠、个性化推荐等角度,提高交叉销售机会,同时可搭配销量较低类别商品,提高整体销量。
  • 大类 38,虽然销量与子类别数较少,但人均销量、复购率、以及1月份销量的年均增长率皆居首位。说明该类别商品的潜在市场较大,而子品类较少,用户选择余地较少。从其购买用户的儿童特征看,女童居多,且幼儿期与婴儿期居多。因此建议,从用户特征角度出发,适量增加大类 38 的子类别数,给予用户更多的选择空间,从而刺激消费。
  • 大类 50014815 从销量与增量角度看,皆处于中等水平,但其用户特征鲜明,从性别角度看,女童占比超过3/4,从年龄角度看,婴儿占比超58%。因此建议,从用户画像角度,突出品类适用特征,并通过个性化推荐,提高品类曝光率,刺激用户消费。
  • 大类 50022520,出生前购买的用户超67%,因此建议同大类 50014815,突出品类特征。但由于该类 与大类 12265008 的销量、人均销量、以及复购率都不高,市场需求较低,从成本角度,建议减少进货,以免库存积压。从销售角度,建议与高销量且用户画像类似的大类商品搭配销售。
  • 从子类别销量占比情况看,销量较高的大类均有其明星子类别。大类 38 在整体销量上与大类 122650008 和 50022520 类似,但在子类别销量上,其TOP1产品销量占整体销量的50%以上。结合订单复购率与人均销量来看,可推测与头部效应有关,因此建议销量较低的大类,打造头部产品效益,带动整体消费。

从各月份大类商品销售情况来看,5月份(5月1日-5月12日)、10月份(10月1日-10月17日) 50008168 大类销量短暂的超过 28 大类,这两段期间均为小长假节假日,说明 50008168 大类的消费高峰与节假日相关性较强。

3.3 用户指标


从用户儿童性别与年龄层分布数据看,各年龄层的女童用户销量,均超过男童用户销量。

结合商品大类与年龄层销量数据,随着年龄增长 50008168 大类需求逐渐增长,50014815 需求降低。

  • 未出生:50014815、50022520、5008168、28(各类用品销量分布较为均匀)
  • 婴儿期(1岁以内):50014815(TOP)、5008168、28
  • 幼儿期(1-3岁):50014815、50008168、28、38(各类用品销量分布较为均匀)
  • 学龄前期(3-7岁):50008168(TOP)、28
  • 学龄期(7岁以上):50008168

结合商品大类与性别销量数据,大类 50014815 和 38,女童用户购买量居多,其他品类占比较为接近。

  • 男童用户购买量占较大市场份额的商品大类:50022520
  • 女同用户购买量占较大市场份额的商品大类:50014815、38

根据用户最近一次购买时间、购买频率以及购买量,构建RFM模型,其中评分指标如下:

类别 R(Recency) F(Frequency) M(Monetary)
最小值 0 1 1
最大值 948 4 176
平均值 384.16 1 1.66
中位数 336 1 1
标准差 263.89 0.03 5.03

构建RFM评分系统如下:

类别 1 分 2 分 3 分 4 分 5 分
R-SCORE >600 天 450-600 天 300-450 天 150-300 天 <=150 天
F-SCORE 1 次 2 次 4 次
M-SCORE 1 件 1-50 件 50-80 件 80-110 件 >110 件
  • 根据RFM模型,将用户进行分类。“一般挽留用户”、“一般发展用户” 用户数占比分别为 47.96%、39.93%,而其销量占比与“重要挽留用户”、“重要发展用户”相差不大,皆为20%-30%之间。
  • 由于F、M 的分布较为偏斜,标准差较小(复购用户数太少、用户平均购买量较为一致),导致“重要价值用户”以及“重要保持用户”的用户分布较少。

因此建议,一方面注重新用户的引流,通过提高用户数及人均销量,提高整体消费情况;另一方注重平均订单销量、以及复购率的提升,从儿童年龄增长的角度、以及性别与商品类别关联度角度,提高商品推荐质量,培养用户忠诚度,通过合适的商品组合搭配,提高单均销量。

四、总结与建议

1、根据异常值剔除前后销量分布图可知,用户的购买量相差较大,少数用户购买量巨大,对销量分布有明显影响,建议做好大客户服务,保持长期合作关系。

2、 母婴用品整体销量呈现逐年增长趋势,在重要节假日、以及电商活动期间,销售量波动较大,需从库存、物流、营销等角度做好商品管理,重点关注春节、双十一、双十二、5月与10月的前两周。

3、所有品类产品复购率都处于较低水平,用户黏性不足,需从产品质量、购物体验、营销手段等分析各品类复购率低的原因,并对导致复购率低的因素进行改善,从而提高留存率与复购率。

4、从品类角度看,销量贡献主要集中在大类 28、50008168、38,其中大类 38 潜在市场较大,用户复购率较高,但子品类较少,建议丰富子品类,刺激用户消费。

5、婴幼儿家长是购买主力,且女童家长消费比例普遍高于男童家长,同时随着年龄增长,购买需求也由大类 50014815 转向大类 50008168,商品营销活动,与个性化推荐可侧重借鉴此类用户画像。

6、由于整体用户黏性不足,重要价值用户较少,反而一般挽留用户数与销量占比最高。从用户黏性角度,需结合商品本身特性等,重点了解复购率低的原因。同时关注新用户引流与促活,结合捆绑、买赠、满减、push等营销手段,提高单均销量。

阿里天池:母婴用品电商数据分析(Power BI 可视化)相关推荐

  1. 电商数据分析方案和BI强强联合,一站式做分析

    搭建一个电商大数据分析平台需要哪些条件?总的来说需要一套满足电商数据分析需求的方案,一个能够提供强大数据计算分析功能和数据可视化图表的平台,比如电商数据分析方案和奥威BI软件这样的组合. 电商数据分析 ...

  2. 盘点国产BI软件中,那些电商数据分析功能

    老牌国产BI软件基本都是适用于所有行业,会为各行各业的提供智能数据可视化分析功能板块,那么,老牌国产BI软件之一的奥威BI软件又为电商数据分析提供了哪些功能板块,效果怎样? 1.提供标准化跨境电商分析 ...

  3. 做电商数据分析可视化,这个国产BI软件很香

    电商数据分析的数据采集整合工作量大,对实时性要求高,特别是跨境电商物流周期长不利于做库存计划不说,还容易出现运营.物流.财务.生产信息脱节等情况.难,但难不倒国产BI软件.在国内外BI软件中,国产BI ...

  4. 电商数据分析案例 与 职责要求

    一.数据分析的流程.数据分析的流程主要分为六步骤, 遵循这种方法,一个完整的数据分析项目就出来了. (1)明确分析目的:我们接到一个分析任务,首先要弄清楚我们分析的对象是什么,要达成怎样的目的,不能陷 ...

  5. 电商数据分析流程 | Excel实操

    世界上最深入人心的数据分析工具,是Excel,在日本的程序员考试中,程序语言部分,是可以选择Excel表格工具作为考试选项的.可见其重要性. 数据分析的步骤: 提出问题 理解数据 数据清洗 构建模型 ...

  6. GA 电商数据分析实践课

    课程介绍 一个电商的流量会某天突然大涨 30%,或者大跌 30%:季节性(比如11.11)订单量会出现突然大涨或大跌: 碰到这些异常,作为电商数据分析师的你需要查出导致异常数据的主要原因(或甚至更深层 ...

  7. 分享个常用的跨境电商数据分析平台

    在跨境电商人眼中,适合用在跨境电商数据分析上的大数据分析平台该是怎样的?是效率高.财务指标计算快.业务能随时自助分析,最好是能将平台自身的分析经验分享给跨境电商企业,为企业提供更专业的服务.这样的大数 ...

  8. 85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

    蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置. 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的消费者洞察和产品洞察, ...

  9. python数据分析与数据化运营_电商数据分析与数据化运营.pdf

    作 者 :刘振华 出版发行 : 北京:机械工业出版社 , 2018.06 ISBN号 :978-7-111-59819-0 页 数 : 194 丛书名 : 数据分析与决策技术丛书 原书定价 : 69. ...

最新文章

  1. 不同stm32f103芯片内部外设资源
  2. 数据结构-队列详解(类C语言版)
  3. garch预测 python_数据科学方面的Python库,实用!
  4. centos linux7 系统安装
  5. 代码注释(图案:键盘)
  6. Oracle并行事务回滚相关参数及视图
  7. Mysql数据库 自动增长 重新从0开始
  8. java socket是什么_Java网络编程-JavaSocket编程是什么呢?
  9. Android之ListView
  10. 登录失败 12306服务器不稳定,为什么12306登陆失败
  11. 贾扬清谈云原生 - 让数据湖加速迈入3.0时代
  12. 2019,我们拿什么定义未来手机?
  13. JINI和java space入门
  14. 安装ArcGIS10.2,localhost没有有效的许可管理器的解决办法
  15. GPT硬盘分区命令parted
  16. 《Android群英传》读书笔记9.Android系统信息与安全机制
  17. Autodesk Inventor Routed Systems: Harness Autodesk Inventor Routed Systems: Harness Lynda课程中文字幕
  18. 大数据项目(基于spark)--新冠疫情防控指挥作战平台项目
  19. 如何设置WordPress文章特色图像(Featured Image)
  20. MP4 | MP4文件格式的解析

热门文章

  1. 看炉石传说如何围绕核心理念打造浑然一体的游戏
  2. Python实现一个简单的自动评论,自动点赞,自动关注脚本
  3. Excel怎么批量将CSV格式转换为xlsx或xls格式?VBA、宏、软件?
  4. android5.0省电优化,如何让Android 5.0手机省电?
  5. Bootstrap Your Own Latent 划重点
  6. Linux命令:scp
  7. 集成学习多样性度量总结
  8. pytorch多模态实践基础
  9. lwip网络接口netif
  10. 关于考研复试,我们需要知道的