淘宝用户行为数据分析详解

  • 前言
  • 一. 提出问题
    • 1.基于AARRR漏斗模型分析用户行为
    • 2.基于RFM模型找出有价值的用户
      • R-Recency(最近一次购买时间)
      • F-Frequency(消费频率)
      • M-Money(消费金额)
  • 二.理解数据
    • 1. 数据来源
    • 2.各字段含义
  • 三.数据清洗
    • 1.观察记录
    • 2.列名重命名
    • 3.删除重复值
    • 4. 一致化处理
  • 四. 构建模型
    • 1.分析用户使用户行为的漏斗模型
    • 2, 不同时间尺度下用户行为模式分析
      • 1)分析一周内每天的用户行为
      • 2)分析一天内用户每小时的行为
    • 3, 不同商品种类的用户行为
      • 1)统计浏览次数、收藏次数和加入购物车次数最多的商品。
      • 2)统计所用商品的购买次数
  • 4.基于RFM理论找出有价值的用户
  • 五. 结论与建议
    • 1.通过AARRR模型分析用户使用的各个环节
    • 2.研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律
    • 3.找到用户对不同种类商品的偏好,找到针对不同商品的营销策略
    • 4.通过RFM模型找出最具价值的核心付费用户群,对这部分用户的行为进行分析

前言

  • 随着移动互联网多年的快速发展,移动互联网已进入下半场 ,不再依靠用户红利来经营,发展业务,告别粗糙的/高成本企业发展的方式,开始转而精细化管理,结合市场、渠道、用户行为等数据分析,对用户展开有针对性的运营活动,提供个性化、差异化的运营策略,以实现运营目的行为。本文利用sql对淘宝用户行为数据进行分析,通过用户行为分析业务问题,提供针对性的运营策略。

一. 提出问题

  • 本次分析的目的是想通过对淘宝用户行为数据分析,为以下问题提供解释和改进建议:

    • 1.分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率,找到需要改进的环节
    • 2.研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律
    • 3.找到用户对不同种类商品的偏好,找到针对不同商品的营销策略
    • 4.找出最具价值的核心付费用户群,对这部分用户的行为进行分析
    • 为了分析这些问题,我们使用以下两种模型进行分析

1.基于AARRR漏斗模型分析用户行为

  • 本文通过常用的电商数据分析指标,采用AARRR漏斗模型拆解用户进入APP后的每一步行为。AARRR模型是根据用户使用产品全流程的不同阶段进行划分的,针对每一环节的用户流失情况分析出不同环节的优化优先级,主要通过以下个各阶段来进行分析:

2.基于RFM模型找出有价值的用户

  • 由于不同用户对公司带来的收益差别很大,而且根据二八定律20%的做有价值用户能带来80%的收益,因此需要对用户进行价值评价,找到最有价值的用户群,并针对这部分用户进行差异化的营销。
  • 这里参考著名的 RFM 模型对用户进行评价:
  • 这三个维度互相关联,反映了每个用户的现在价值潜在价值,将每个维度分成5个区间进行评分,通过计算分数找到最有价值的用户,并对用户进行分类,可以有针对性的不同类型用户采用不同的营销策略

R-Recency(最近一次购买时间)

  • R指用户上一次消费的时间上一次购物时间距今最近的顾客通常在近期响应营销活动的可能性也最大,对于APP而言,很久没有购物行为可能意味着用户放弃了APP的使用,重新唤起用户也需要更多的成本。

F-Frequency(消费频率)

  • F指用户在某段时间内的购物次数,消费频率越高意味着这部分用户对产品的满意度最高,用户粘性最好忠诚度也最高

M-Money(消费金额)

  • M指用户在某段时间内的购物金额,这也是为公司带来价值的最直接体现,而消费金额较高的用户在用户总体中人数较少,却能创造出更多价值,是需要重点争取的对象。

二.理解数据

1. 数据来源

  • 阿里云天池: https://tianchi.aliyun.com/dataset/dataDetail?dataId=649
  • 本数据集包含了2017年11月25日至2017年12月3日之间,约有一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
  • 时间跨度约为一个礼拜,从周六到下个周日
LOAD DATA LOCAL INFILE "E:\\C-05-数据分析实战y\\taobao_analyse\\UserBehavior.csv"
INTO TABLE user
FIELDS TERMINATED BY ","
LINES TERMINATED BY "\n";

2.各字段含义

  • 注意到,用户行为类型共有四种,它们分别是
  • 关于数据集大小的一些说明如下

三.数据清洗

1.观察记录

  • 数据记录达到一亿条,为了方便分析及效率,源数据是已经按照user_id排序好的,取5百万行到8百万行之间的3百万行记录进行分析。

2.列名重命名

  • 将原有的列名简化为user,item,category,behavior,date

3.删除重复值

  • 用户的购买行为由于时间精确到小时,确实会存在少量用户在一小时内重复购买或浏览统一商品的行为,因此不对此部分数据进行处理。

4. 一致化处理

  • 时间数据中原为时间戳格式,需要将其分为两列,以便研究每日和一段日期内数据变化。
ALTER TABLE user ADD hour CHAR(20);
UPDATE user SET hour=date;
UPDATE user SET date=FROM_UNIXTIME( date,'%Y-%m-%d');
UPDATE user SET hour=FROM_UNIXTIME( hour,'%H');
  • 完成数据清洗后的数据:

四. 构建模型

1.分析用户使用户行为的漏斗模型

  • 利用AARRR模型分析用户行为,此处数据主要涉及用户刺激和购买转化的环节,通过用户从浏览到最终购买整个过程的流失情况,包括浏览、收藏、加入购物车和购买环节,一个周内的各项指标如下:

    • 访问用户总数(UV):29233
    • 页面总访问量(PV):2685348
    • 平均每人每周访问量为91.8次页面
SELECT COUNT(DISTINCT user) AS UV,
(SELECT COUNT(*) FROM user WHERE behavior='pv') AS PV,
(SELECT COUNT(*) FROM user WHERE behavior='pv')/COUNT(DISTINCT user) AS 'PV/UV'
FROM user;

  • 跳失率=只点击一次浏览的用户数量/总用户访问量
SELECT COUNT(*)
FROM (SELECT user
FROM user GROUP BY user
HAVING COUNT(behavior)=1) AS a;

  • 统计时间为一周,只有1个人浏览了一次就离开淘宝,分析记录虽然仅为部分数据,但仍可以看出淘宝拥有足够的吸引力让用户停留app,这也符合日常观察。
  • 用户总行为数漏斗计算
SELECT behavior,COUNT(*)
FROM user
GROUP BY behavior
order by behavior desc;

  • 由于收藏和加入购物车都为浏览和购买阶段之间确定购买意向的用户行为,且不分先后顺序,因此将其算作同一阶段,可以看到从浏览到有购买意向只有9.51%的转化率,当然有部分用户是直接购买而未通过收藏和加入购物车,但也说明大多数用户浏览页面次数较多,而使用购物车和收藏功能较少,而购买次数占使用购物车和收藏功能的23.24%,说明从浏览到进行收藏和加入购物车的阶段是指标提升的重点环节。
  • 独立访客漏斗模型计算:
SELECT behavior,COUNT(DISTINCT user) AS '用户数'
FROM user
GROUP BY behavior
ORDER BY COUNT(DISTINCT user) DESC;

  • 上面是每一步用户行为的独立用户数,可以看到使用APP的用户中PUR(付费用户占比)为68.2%,用户付费转化率相当高。

2, 不同时间尺度下用户行为模式分析

1)分析一周内每天的用户行为

SELECT date,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '浏览数',
SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '收藏数',
SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '购物车',
SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付费数'
FROM user
GROUP BY date
ORDER BY date;


  • 可以看到明显不同,从左到右为周一到周日的数据,在平时,工作日时各项指标平稳,而到周末高涨,推测是上班族因工作逛淘宝的时间少,而周末有充足的精力,购买能力也增加。因此平日运营可以将活动集中在周末进行。

2)分析一天内用户每小时的行为

  • 此处取12月1号(周五)当天的用户数据
SELECT hour,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '浏览数',
SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '收藏数',
SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '购物车',
SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付费数'
FROM user
where date = "2017-12-01"
GROUP BY hour
ORDER BY hour
  • 取11月28号(周二)当天的用户数据
  • 取12月2号(周六)当天的用户数据
  • 上两张图分别时周二和周六的用户行为变化,波动起伏接近,高峰都出现在晚上20点到23点,之后午夜进入低谷,符合大部分人的作息时间。在晚上20点到23点,进行各种直播活动等互动营销手段,可能取得更大的收益。

3, 不同商品种类的用户行为

1)统计浏览次数、收藏次数和加入购物车次数最多的商品。

SELECT item, COUNT(user) AS 'times'
FROM user WHERE behavior='buy'
GROUP BY item
ORDER BY times DESC
LIMIT 30

  • 列出浏览量前30的商品,排第一的商品item_id为812879,为914次,那是否进入销量榜单呢, 对商品销量和收藏前也进行了统计:

  • 在销量榜单中并没有看到浏览量第一和第二的商品, 说明这些吸引用户更多注意力的商品没有很好的转化为实际销量,仅更多的进入收藏中。
  • 同时浏览量前排的商品均能在收藏量前列中,说明浏览数与收藏的关系更为直接。

2)统计所用商品的购买次数

SELECT times AS "购买次数" , COUNT(item)AS "商品数"
FROM (SELECT item, COUNT(user) AS 'times' FROM user WHERE behavior='buy' GROUP BY item) AS buy_times
GROUP BY times
ORDER BY COUNT(*);
  • 商品购买次数分布:
  • 根据本次分析的数据,只购买一次的商品有38248种,购买两次的商品有5146种,本次分析的商品有45937种,购买一次的商品占到83.8%,说明商品售卖主要依靠长尾商品的累计效应。而非爆款商品的带动。

4.基于RFM理论找出有价值的用户

  • 由于数据源仅仅为9天的数据,且没有商品的金额,无法统计M值。
  • 计算消费间隔R值,最近消费时间和最大时间(2017-12-03)间隔时间,最近购买时间的区间为0-8,将其分为3档,0-2,3-5,6-8分别对应的R评分0到2
CREATE VIEW pay_B AS
SELECT user, DATEDIFF('2017-12-03',MAX(date)) AS B FROM user
WHERE behavior='buy'
GROUP BY user;SELECT user, (CASE WHEN B BETWEEN 0 AND 2 THEN 2
WHEN B BETWEEN 3 AND 5 THEN 1
WHEN B BETWEEN 6 AND 8 THEN 0
ELSE null END) AS R
FROM pay_B
ORDER BY R DESC

  • 计算消费频率F值,付费用户中消费次数从低到高为1-93次,将其分为6档1-9,10-19,20-29,30-39,40-49,50以上,对应F评分分别为0-5分
CREATE VIEW pay_times AS SELECT user,count( item ) AS times from user where behavior = "buy"
group by user order by count( item ) DESC;SELECT user ,(CASE WHEN times between 1 AND 9 THEN 0
WHEN times BETWEEN 10 AND 19 THEN 1
WHEN times BETWEEN 21 AND 29 THEN 2
WHEN times BETWEEN 31 AND 39 THEN 3
WHEN times BETWEEN 41 AND 49 THEN 4
WHEN times >= 50 THEN 5 ELSE NULL END) AS F
FROM pay_times
ORDER BY F DESC

  • 从中我们可以得到用户的RFM分数,用户user_ID为337305的用户综合评分为5分,购买次数为93,是体系中的最有价值用户,综合评分大于4的用户属于活跃的成熟客户,可以积极推送营销信息,对于综合评分为4,2的用户,可以通过传递新品,通知店铺活动信息,对于评分小于2的用户,运营活动可以重点针对这部分用户,提高用户使用产品的频率,可以通过拼团打折、积分兑换等活动唤起用户注意力。
  • 我们提取出评分最高的超级用户行为数据,发现该用户每天都产生了购买行为,且从未使用过收藏功能,购物车的使用频率极低,并且购买行为在周末达到高峰,可以根据该用户的活跃规律进行相关活动的推送,由于商品种类数据为脱敏数据,很遗憾此处无法分析该用户购买的商品类型。
  • 本文图表数据资料:[https://www.jianguoyun.com/p/DSACrTAQ8IeCBxiE_ZYD)

五. 结论与建议

  • 本文分析了淘宝用户行为数据共300万条,从四个不同角度提出业务问题,使用AARRR模型和BFM模型分析数据给出如下结论和建议。

1.通过AARRR模型分析用户使用的各个环节

  • a.获取用户

    • 由于数据中没有给出每个用户第一次的登陆的时间,我们暂且把浏览行为视为用户的获取,
  • b.激活用户
    • 用户行为包括点击、放进购物车、收藏以及购买,由于收藏和加入购物车都为浏览和购买阶段之间确定购买意向的用户行为,且不分先后顺序,因此将其算作一个阶段,从浏览到有购买意向只有9.51%的转化率,当然有一部分用户是直接购买,但也说明大多数用户以浏览页面为主而购买转化较少,此处为转化漏斗中需要改善和提高的环节。
    • 针对这一环节改善转化率的建议有:
      • (1)优化电商平台的搜索匹配度和推荐策略,主动根据用户喜好推荐相关的商品,优化商品搜索的准确度和聚合能力,对搜索结果排序优先级进行优化。
      • (2)在商品详情页的展示上突出用户关注的重点信息,精简信息流的呈现方式,减少用户寻找信息的成本
      • (3)优化加入购物车和收藏按键的触达,用户在滑屏时也能方便触达,增加功能使用的次数。
  • c.提高留存
    • 淘宝APP的留存相对而言较为稳定,让用户提高、保持使用淘宝电商平台的频率相对而言更加重要。
  • d.增加收入
    • 使用APP的用户中有61%的付费用户,付费转化率相当高。
  • e.用户推荐
    • 淘宝本身用户基数庞大,知名度高,个人认为在一二线城市的用户基本已经达到饱和,传播工作需要针对三四线城市的渠道下沉,在这些地区针对用户价格敏感度高的特性开展类似拼多多的拼团转发和打折促销活动,扩大这部分用户的使用率。

2.研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律

  • 以一周为周期进行波动,一周中的高峰期在周末,符合上班族作息时间中的空闲时期。而平时一天中,在晚十点后出现高峰期。针对高峰期进行营销活动收益最高,此时使用人数最多,活动容易触达用户,营销活动的形式可以通过促销、拼团、直播等形式进行。

3.找到用户对不同种类商品的偏好,找到针对不同商品的营销策略

  • 商品售卖主要依靠长尾商品的累积效应,而非爆款商品的带动。而浏览次数前列的商品甚至没有进入销量前30,说明这些吸引用户更多注意力的商品没有很好的转化为实际销量。
  • 针对浏览量高而销量不高的这部分商品,需要提高的是用户从点击进入商品详情页到最终购买的体验。作为商家端可以从以下几个方面提高销售额:
    • (1) 商品详情页的实际价格是否相比展示价格偏差过大,有的商家为了吸引用户点击在商品展示页投放的价格具有较强吸引力,但实际价格偏高,在用户心中反而引起反感
    • (2)详情页的信息流展示是否合理,是否将用户最想看到的部分置于容易看到的位置,便于信息的获取
    • (3)优化商品展示的形式,利用视频等方式给用户更直观的感受,提高照片的美观程度
    • (4)评论区评价管理,尤其对于差评区的用户反馈进行认真对待,提高自身服务质量

4.通过RFM模型找出最具价值的核心付费用户群,对这部分用户的行为进行分析

  • R和F评分都很高的用户是体系中的最有价值用户,需要重点关注,并且活动投放时需谨慎对待,综合评分大于4的用户属于活跃的成熟客户,可以积极推送营销信息,对于综合评分为4~2的用户,可以通过传递新品,通知店铺活动信息,对于评分小于2的用户,运营活动可以重点针对这部分用户,提高用户使用产品的频率,可以通过拼团打折、积分兑换等活动唤起用户注意力。

  • 链接:https://www.jianshu.com/p/4f64d739fba2

淘宝用户行为数据分析详解相关推荐

  1. mysql 时间段内的周末_淘宝用户行为数据分析(MySQL)

    利用MySQL对淘宝用户行为数据进行分析.分析步骤如下: 1 提出问题 2 理解数据 3 数据清洗 4 构建模型 5 结论 6 建议 淘宝是目前国内最大的电商平台,人们网购的主要渠道之一.买家通过搜索 ...

  2. 天池-淘宝用户行为数据分析(python+Tableau)

    天池-淘宝用户行为数据分析(python+Tableau) 一.背景 ​ 用户行为分析可以让产品更加详细.清楚地了解用户的行为习惯,从而找出网站.app.推广渠道等产品存在的问题,有助于产品发掘高转化 ...

  3. 第七课 淘宝客站群赚钱详解

    网赚项目之站群 第七课 淘宝客站群赚钱详解 第一, 选择淘客程序,如淘客帝国,织梦,多多返利网等 第二, 选择长尾关键词,做站群之前一定要先选择好关键词,特别是长尾关键词,如"出席婚礼应该带 ...

  4. 基于MySQL的淘宝用户行为数据分析

    前言 本文针对淘宝app的运营数据,以行业常见指标对用户行为进行分析,包括UV.PV.新增用户分析.漏斗流失分析.留存分析.用户价值分析.复购分析等内容,使用的分析工具以MySQL为主,涉及分组汇总, ...

  5. 案例:淘宝用户行为数据分析(SQL实现)

    一.项目介绍 本文针对淘宝APP的运营数据,使用阿里云天池上公开的数据集,以行业常见指标对用户行为进行分析,主要工具为MySQL,涉及分组汇总,引用变量,视图,关联查询等内容,可视化工具为excel和 ...

  6. 大数据实战 --- 淘宝用户行为数据分析

    目录 开发环境 数据描述 功能需求 数据准备 数据清洗 用户行为分析 找出有价值的用户 开发环境 Hadoop+Hive+Spark+HBase 启动Hadoop:start-all.sh 启动zoo ...

  7. python控制手机模拟器_Appium+python自动化之连接模拟器并启动淘宝APP(超详解)...

    简介 上一篇讲解完模拟器的安装.配置好以后,就好比我们手机已经买好,并且系统已经做好了,就差我们用数据线和电脑连接开始实战了,这篇宏哥就带着小伙伴们和童鞋们趁热打铁,讲解和分享一下如何连接模拟器(电脑 ...

  8. 你了解淘宝大秒杀系统设计详解吗?

    1. 一些数据 2. 热点隔离 3. 动静分离 4. 基于时间分片削峰 5. 数据分层校验 6. 实时热点发现 7. 关键技术优化点 7.1 Java处理大并发动态请求优化 7.2 同一商品大并发读问 ...

  9. 淘宝大秒杀系统设计详解

    摘要:最初的秒杀系统的原型是淘宝详情上的定时上架功能,由于有些卖家为了吸引眼球,把价格压得很低.但这给的详情系统带来了很大压力,为了将这种突发流量隔离,才设计了秒杀系统,文章主要介绍大秒系统以及这种典 ...

  10. Java程序员,你了解淘宝大秒杀系统设计详解吗?

    1. 一些数据 大家还记得2013年的小米秒杀吗?三款小米手机各11万台开卖,走的都是大秒系统,3分钟后成为双十一第一家也是最快破亿的旗舰店.经过日志统计,前端系统双11峰值有效请求约60w以上的QP ...

最新文章

  1. 在IIS6.0下ASP .NET 的版本冲突问题
  2. DWZ中Tree树形菜单的treeCheck如何获取返回值解决方案
  3. SAP专家培训之Netweaver ABAP内存管理和内存调优实践
  4. 新建WindowsPhone项目时提示未将对象引用设置到对象的实例
  5. Java 导入导出Excle表格 两种方式
  6. CSocket,CAsyncSocket多线程退出时的一些注意事项(解决关闭WinSoket崩溃的问题)
  7. condition实现通知部分线程
  8. listview mysql 安卓_Android——ListView与数据库的结合
  9. MSN Messenger去广告和其他修改方法
  10. windows server2016忘记密码,windows重置密码,windows破解密码,win10忘记密码,win10破解密码,windows server2016破解密码
  11. Python爬虫BeautifulSoup4小记
  12. tcp 握手失败_TCP三次握手四次挥手总结(流程、常见问题、会发生的攻击、防范方法)...
  13. Tesseract OCR图片提取中文并转换为Excel的示例(附Python代码)
  14. 华信云SMS短信平台介绍
  15. ARP协议详解(3)--arp欺骗
  16. props写法_详解Vue内部怎样处理props选项的多种写法
  17. 遥控小车之:HTML5+ 虚拟摇杆
  18. R语言绘图—多边树状图
  19. 大数据疫情可视化平台1_基于Hadoop3.2.1、Hive3.1.2、搭建疫情信息可视化系统
  20. 传感技术复习笔记(5)——电容式传感器

热门文章

  1. try固定搭配_英语词汇:regret cease try等词的固定搭配用法
  2. PDF在线裁剪页面(一页剪切为多页并自动合并)的方法
  3. 海外媒体稿件内容怎么写更出色
  4. 小程序 长按转发_微信小程序实现限制用户转发功能的实例代码
  5. mxnet:Optimizer rescale_grad
  6. t分布f分布与样本均值抽样分布_T检验和其他假设检验的P值怎么理解
  7. C++ 智能指针 atuo_ptr,unique_ptr,shared_ptr,weak_ptr
  8. python在视频上方加字_如何用python 在视频上添加自己的logo
  9. soul—产品体验报告
  10. Excel表格怎么随机打乱顺序