1、数据来源

阿里云天池: https://tianchi.aliyun.com/dataset/dataDetail?dataId=649
本数据集包含了2017年11月25日至2017年12月3日之间,约有一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
时间跨度约为一个礼拜,从周六到下个周日

2、各字段含义



3、数据清洗

使用CDH6.3.0搭建的大数据平台,数据下载后上传文件至hdfs的/user/root/UserBehavior目录下

su hdfs -c "hadoop dfs -mkdir /user/root/UserBehavior"
su hdfs -c "hadoop dfs -chown -R root:root /user/root/UserBehavior"
hdfs dfs -put /app/localData/UserBehavior/UserBehaviors.csv /user/root/UserBehavior/

查看目录:

hdfs dfs -ls /user/root/

使用hiveserver2连接平台

beeline -u jdbc:hive2://node01:10000
 use default;

新建外表:

create external table ods_userBehaviors (userId int,itemId int,categoryId int,behaviorType string,time bigint) row format delimited fields terminated by ',' stored as textfile location '/user/root/UserBehavior';

查询前10条

select * from ods_userbehaviors limit 10


做个总条目聚合:

select count(*) from ods_userbehaviors;

发现报错,/user目录的权限问题

使用hdfs用户使/user目录权限为777

su hdfs -c "hadoop dfs -chmod -R 777 /user/root"

再运行

发现总条目数为3835331,使用时间为333.622seconds.

4、构建模型

本次分析的目的是想通过对淘宝用户行为数据分析,为以下问题提供解释和改进建议:
1.分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率,找到需要改进的环节
2.研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律
3.找到用户对不同种类商品的偏好,找到针对不同商品的营销策略
4.找出最具价值的核心付费用户群,对这部分用户的行为进行分析

本文通过常用的电商数据分析指标,采用AARRR漏斗模型拆解用户进入APP后的每一步行为。AARRR模型是根据用户使用产品全流程的不同阶段进行划分的,针对每一环节的用户流失情况分析出不同环节的优化优先级,主要通过以下个各阶段来进行分析:

1.基于AARRR漏斗模型分析用户行为

本文通过常用的电商数据分析指标,采用AARRR漏斗模型拆解用户进入APP后的每一步行为。AARRR模型是根据用户使用产品全流程的不同阶段进行划分的,针对每一环节的用户流失情况分析出不同环节的优化优先级,主要通过以下个各阶段来进行分析:

2.基于RFM模型找出有价值的用户

由于不同用户对公司带来的收益差别很大,而且根据二八定律20%的做有价值用户能带来80%的收益,因此需要对用户进行价值评价,找到最有价值的用户群,并针对这部分用户进行差异化的营销。
这里参考著名的 RFM 模型对用户进行评价:

R-Recency(最近一次购买时间)
R指用户上一次消费的时间,上一次购物时间距今最近的顾客通常在近期响应营销活动的可能性也最大,对于APP而言,很久没有购物行为可能意味着用户放弃了APP的使用,重新唤起用户也需要更多的成本。
F-Frequency(消费频率)
F指用户在某段时间内的购物次数,消费频率越高意味着这部分用户对产品的满意度最高,用户粘性最好,忠诚度也最高。
M-Money(消费金额)
M指用户在某段时间内的购物金额,这也是为公司带来价值的最直接体现,而消费金额较高的用户在用户总体中人数较少,却能创造出更多价值,是需要重点争取的对象。
这三个维度互相关联,反映了每个用户的现在价值和潜在价值,将每个维度分成5个区间进行评分,通过计算分数找到最有价值的用户,并对用户进行分类,可以有针对性的不同类型用户采用不同的营销策略。

以上两个模型的论述摘自https://www.jianshu.com/p/4f64d739fba2

模型

1.分析用户使用户行为的漏斗模型

利用AARRR模型分析用户行为,此处数据主要涉及用户刺激和购买转化的环节,通过用户从浏览到最终购买整个过程的流失情况,包括浏览、收藏、加入购物车和购买环节,一个周内的各项指标如下:
UV:

select count(distinct userId) from ods_userbehaviors
37376

PV:

select count(*) from ods_userbehaviors where behavior = 'pv';
3433849

PV/UV:91.87

UV PV 每人平均每周访问次数PV/UV
37376 3433849 91.87

跳失率
跳失率=只点击一次浏览的用户数量/总用户访问量(PV)
也叫蹦失率,即访问该页面就关闭的PV数占总PV数的比例

select count(*) from (select userId from ods_userbehaviors group by userId having count(behaviorType)=1) as a;
1

即跳失率=1/3433849,统计时间为一周,只有1个人浏览了一次就离开淘宝,分析记录虽然仅为部分数据,但仍可以看出淘宝拥有足够的吸引力让用户停留app,这也符合日常观察。

跳失率
1/3433849

用户总行为数漏斗计算
每一种行为的总数量排序:

select behaviortype,count(*) from ods_userbehaviors group by behaviortype order by behaviortype desc;
+---------------+----------+
| behaviortype  |   _c1    |
+---------------+----------+
| pv            | 3433849  |
| fav           | 111140   |
| cart          | 213634   |
| buy           | 76707    |
+---------------+----------+
从浏览到有购买意向转化率 使用购物车和收藏功能购买率
(fav+cart) /pv buy/(fav+cart)
9.5% 23%

由于收藏和加入购物车都为浏览和购买阶段之间确定购买意向的用户行为,且不分先后顺序,因此将其算作同一阶段,可以看到从浏览到有购买意向只有9.5%的转化率,当然有部分用户是直接购买而未通过收藏和加入购物车,但也说明大多数用户浏览页面次数较多,而使用购物车和收藏功能较少,而购买次数占使用购物车和收藏功能的23.6%,说明从浏览到进行收藏和加入购物车的阶段是指标提升的重点环节。
独立访客漏斗模型计算:

select behaviortype,count(distinct userid) as num from ods_userbehaviors group by behaviortype order by num desc;
+---------------+--------+
| behaviortype  |  num   |
+---------------+--------+
| pv            | 37223  |
| cart          | 28122  |
| buy           | 25400  |
| fav           | 14943  |
+---------------+--------+
行为 用户数
pv 37223
cart 28122
buy 25400
fav 14943

上面是每一步用户行为的独立用户数,可以看到使用APP的用户中PUR(付费用户占比)为68%,用户付费转化率相当高。

PUR付费用户占比
buy/uv=68%
2. 不同时间尺度下用户行为模式分析

1)分析一周内每天的用户行为
思路:通过行为字段进行分组,统计每种行为的数量,排序

 SELECT from_unixtime(time, 'yyyy-MM-dd'),sum(case when behaviortype = 'pv' then 1 else 0 end) as liulanshu,sum(case when behaviortype = 'fav' then 1 else 0 end ) as shoucangshu,sum(case when behaviortype = 'cart' then 1 else 0 end ) as gouwuche, sum( case when behaviortype = 'buy' then 1 else 0 end ) as goumaishu from ods_userbehaviors GROUP BY from_unixtime(time, 'yyyy-MM-dd')
+-------------+------------+--------------+-----------+------------+
|    日期     | 浏览数  | 收藏数 | 购物车  | 购买数  |
+-------------+------------+--------------+-----------+------------+
| 2015-02-06  | 1          | 0            | 0         | 0          |
| 2017-09-11  | 1          | 0            | 0         | 0          |
| 2017-10-10  | 1          | 0            | 0         | 0          |
| 2017-10-31  | 1          | 0            | 0         | 0          |
| 2017-11-03  | 14         | 0            | 0         | 0          |
| 2017-11-06  | 1          | 0            | 0         | 0          |
| 2017-11-12  | 2          | 0            | 0         | 0          |
| 2017-11-15  | 4          | 0            | 0         | 0          |
| 2017-11-18  | 19         | 0            | 0         | 0          |
| 2017-11-21  | 25         | 0            | 0         | 0          |
| 2017-11-24  | 1507       | 0            | 0         | 0          |
| 2017-11-27  | 341435     | 11087        | 21244     | 8538       |
| 2017-11-30  | 358866     | 11379        | 21588     | 8533       |
| 2017-12-02  | 476867     | 15344        | 30771     | 9792       |
| 1970-01-01  | 1          | 0            | 0         | 0          |
| 2017-11-04  | 1          | 0            | 0         | 0          |
| 2017-11-10  | 2          | 0            | 0         | 0          |
| 2017-11-13  | 6          | 0            | 0         | 0          |
| 2017-11-16  | 10         | 0            | 0         | 0          |
| 2017-11-19  | 33         | 0            | 0         | 0          |
| 2017-11-22  | 53         | 0            | 0         | 0          |
| 2017-11-25  | 354564     | 11519        | 21416     | 7535       |
| 2017-11-28  | 338412     | 11192        | 20626     | 8096       |
| 2017-12-03  | 473456     | 15348        | 30150     | 9974       |
| 2017-12-06  | 3          | 0            | 0         | 0          |
| 2017-07-03  | 2          | 0            | 0         | 0          |
| 2017-09-16  | 2          | 0            | 0         | 0          |
| 2017-11-02  | 1          | 0            | 0         | 0          |
| 2017-11-05  | 1          | 0            | 0         | 0          |
| 2017-11-11  | 5          | 0            | 0         | 0          |
| 2017-11-14  | 6          | 0            | 0         | 0          |
| 2017-11-17  | 18         | 0            | 0         | 0          |
| 2017-11-20  | 20         | 0            | 0         | 0          |
| 2017-11-23  | 181        | 0            | 0         | 0          |
| 2017-11-26  | 364554     | 12004        | 22513     | 7722       |
| 2017-11-29  | 349892     | 11413        | 21111     | 8468       |
| 2017-12-01  | 373859     | 11854        | 24215     | 8049       |
| 2017-12-04  | 6          | 0            | 0         | 0          |
| 2018-08-28  | 16         | 0            | 0         | 0          |
| 2037-04-09  | 1          | 0            | 0         | 0          |
+-------------+------------+--------------+-----------+------------+

可以看到明显不同,从左到右为周一到周日的数据,在平时,工作日时各项指标平稳,而到周末高涨,推测是上班族因工作逛淘宝的时间少,而周末有充足的精力,购买能力也增加。因此平日运营可以将活动集中在周末进行。

3, 不同商品种类的用户行为

1)统计浏览次数、收藏次数和加入购物车次数最多的商品。

select itemid,count(userid) as times from ods_userbehaviors where behaviortype = 'buy' group by itemid order by times desc limit 30;
+----------+--------+
|  itemid  | times  |
+----------+--------+
| 3122135  | 58     |
| 3031354  | 32     |
| 2964774  | 27     |
| 2560262  | 26     |
| 1910706  | 25     |
| 1042152  | 23     |
| 1116492  | 23     |
| 257772   | 23     |
| 3189426  | 22     |
| 3964583  | 22     |
| 3237415  | 21     |
| 1034594  | 21     |
| 1684440  | 20     |
| 1813380  | 19     |
| 1535294  | 19     |
| 11517    | 18     |
| 1168232  | 18     |
| 2267309  | 18     |
| 4458366  | 18     |
| 705557   | 18     |
| 1095113  | 18     |
| 3685477  | 17     |
| 1415828  | 17     |
| 1595279  | 17     |
| 4401268  | 17     |
| 609649   | 17     |
| 4260261  | 16     |
| 3452114  | 16     |
| 4024409  | 16     |
| 3557522  | 15     |
+----------+--------+

UserBehavior用户行为分析相关推荐

  1. 判断用户是否存在再进行新增_MySQL用户行为分析

    一.背景介绍 在互联网整体人口红利消失的背景下,电商平台流量成本不断提升,逐渐由流量思维开始向用户思维转变.本文希望通过对用户在平台上留下的的日常操作数据,进一步来分析用户的消费行为特点. 二.理解数 ...

  2. 数据分析案例之淘宝用户行为分析完整报告

    一.项目背景 UserBehavior为淘宝用户行为的数据集,数据集包括了2017年11月25日至2017年12月3日之间,有大约82万随机用户的用户行为(行为包括点击pv,购买buy,加购物车cha ...

  3. 【入门数据分析】淘宝用户行为分析

    前言 分析目的:本文基于淘宝1年的交易数据对其用户行为进行多角度分析,对相关问题进行解释并提供建议. 分析工具:MySQL.excel 主要模型:AARRR模型 一.分析问题和思路 本文采用淘宝电商的 ...

  4. 数据分析项目实战1——淘宝用户购买行为分析(天池)

    一.分析背景.数据来源.数据解释 https://tianchi.aliyun.com/dataset/649 由于userbehavior数据集的数据量较大,本次分析使用Navicat将前10万条数 ...

  5. 万字详解用户行为分析

    作者:知乎-一只废鹅  编辑:数据社 全文共7416个字,建议收藏阅读 01 提出问题和应用模型 1.本次分析的目的是想通过对淘宝用户行为进行数据分析,为以下问题提供解释和改进建议: (1)分析用户使 ...

  6. 基于机器学习技术的用户行为分析:当前模型和应用研究综述(A survey for user behavior analysis based on machine learning technique)

    A survey for user behavior analysis based on machine learning techniques: current models and applica ...

  7. 基于电商数据的用户行为分析之需求分析

    电商用户行为分析需求分析说明书 项目名称: 电商用户行为分析 修订时间: 2021-05-28 修订版本: 1.0 一.引言 1.目的 通过编写需求分析文档,对基于电商数据的用户行为分析系统进行介绍, ...

  8. 用户行为分析案例——天池数据集User Behavior Data from Taobao

    用户行为分析过程 说明 一.数据集与分析目的 1.数据集 2.分析目的 二.数据处理 1.数据预览 2.数据处理 三.数据提取与分析 1.网站流量分析 2.用户分析 3.商品销售分析 四.总结 1.关 ...

  9. 【数据分析实战经验】淘宝用户行为分析①-AARRR、RMF模型(数据量:百万级,工具mysql)

    电商平台的用户行为分析,能一定程度的推动运营.产品等迭代,提供决策支持. 数据集来源: 阿里云池 样本量: 3835331 方法工具: 本文用2017年11月至12月的淘宝用户行为,AARRR模型及R ...

最新文章

  1. react 从使用 看定义
  2. SpringBoot笔记:SpringBoot集成MinIO分布式文件系统
  3. shanghai road map and the operational time for 12306 system
  4. 两个月学习Python的胡言乱语
  5. django中URL常用配置方法
  6. python录制生成自动化脚本_懒人做自动化测试之二--自动化脚本录制
  7. 二广高速公路4标段道路设计--武汉理工大学本科生毕业设计
  8. 计算机和未来汽车有联系吗,汽车的未来是会奔跑的计算机?
  9. 专业的WiFi检测工具有哪些?如何解决wifi信号不好?
  10. 【Mockplus教程】账号和购买
  11. 怎么用计算机弹出soldout,《SOLDOUT2》游戏怎么玩 游戏攻略玩法全面介绍
  12. 一文了解基金投资的方法
  13. Unity 组合键输入及容易忽略的问题
  14. vb常用内部函数(四):随机数函数
  15. Cisco(GNS3) - 路由器接口类型
  16. Oracle问题imp-10019:由于ORACLE错误12899而拒绝行
  17. Software-Defined Networking:A comprehensive Survey
  18. Qt保存Excel格式数据
  19. 2021 AAAI Fellow名单重磅出炉!华人学者遗憾连续两年无缘入选
  20. HTML5与CSS3及Less

热门文章

  1. Erigon 最新执行客户端安装教程
  2. RGB和HSV颜色模型
  3. xmind8使用甘特图与导出甘特图PDF
  4. TPM零知识学习九 —— tpm全安装流程复盘(上)
  5. 用户画像如何分析 用户画像如何获取
  6. KSM大解锁:5月将有110万枚KSM可用于Kusama上的DeFi应用
  7. 小米路由器登录服务器无响应是怎么回事,小米路由器登录界面打不开怎么办? | 192路由网...
  8. 私有云是伪命题:真正的私有云 ≈ 公有云
  9. 再谈防火墙的流量控制
  10. 一款vista边栏Gadgets汉英翻译(翻译14种语言的边栏工具下载)