一、项目介绍

1.1 项目背景
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。本数据集包(UserBehavior.csv)含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。

1.2 分析目的
本次分析的目的是通过对淘宝用户行为进行数据分析,为以下问题提供提供解释和改进建议:
①分析用户在淘宝使用过程常见的电商分析指标,并建立用户转化漏斗模型,确定各个环节的流失率,寻找需要优化的环节。
②分析用户在不同时间维度下的行为,找到用户在不同时间周期下的活动规律,并推出相应的活动策略。
③找到用户的商品偏好,针对不同商品找到对应的营销策略。
④通过RFM模型对用户进行分层,对不同类型的用户行为进行分析,并提出相应的运营策略。

1.3 数据来源
数据来源:淘宝用户购物行为数据集_数据集-阿里云天池
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。
UserBehavior.csv
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
注意到,用户行为类型共有四种,它们分别是
关于数据集大小的一些说明如下
二、分析框
三、数据清洗

3.1 导入数据,修改表字段
源数据表字段不明确,修改其名称,同时修改对应数据类型:user_id, item_id, category_id, behavior_type, time_stamp

3.2 去除重复值
将各字段‘不是null’打钩,并选定userID,itemID,timestamps作为主键。
这一步可以确保表格中没有空值与重复值。

结果显示没有重复值。

3.3 查找缺失值

对比查询结果,无缺失值,数据集数据质量较高。

3.4 转换时间格式

3.5 过滤异常值

剔除异常值
共剔除511条异常值
然后再检查一遍看数据是否已经剔除干净

四、数据分析
4.1 基于用户行为漏斗模型分析用户行为
4.1.1 了解用户行为整体情况
4.1.1.1 常见数据指标统计

独立访客总数(UV):10202
页面总访问量(PV):939535
统计区间平均每人页面访问量(PV/UV):约为92

4.1.1.2 留存率
① 用户次日、3日、5日、7日留存人数
首先查询第一日活跃用户数,同时建立一个新表用来存放留存数据

查询次日留存用户,三日、五日、七日留存人数查询方式相同,修改一下日期即可


② 留存率
留存率一直保持在75%以上,甚至7日后还能达到77.42%,留存率较高。

4.1.1.3 复购率
复购率是在一个时间范围内重复消费的用户,即消费次数在两次及以上的用户在总消费用户中的占比。
复购率约为66.27%,复购率较高,说明平台用户的忠诚度较高

4.1.1.4 跳出率
跳失率定义:仅仅访问了单个页面的用户占全部访问用户的百分比,或者从首页离开的网站的用户占所有访问用户的百分比。
跳失率可以反映用户对网站内容的认可程度,或者说网站是否对用户有吸引力。而网站的内容是否能够对用户有所帮助留住用户也直接可以在跳失率中看出来,所以跳失率是衡量网站内容质量的重要标准。
跳出率只有0.09%,几乎为0,说明商品或者商详页内容对于用户具有较强的吸引力。
小结:
综合留存率、复购率和跳失率来看,淘宝的用户忠诚度较高,且内容质量高,可以吸引用户持续使用,因此,需要重视用户关系,继续维系用户忠诚度。

4.1.2 用户行为转化漏斗模型分析
漏斗分析模型已经广泛应用于各行业的数据分析工作中,用以评估总体转化率、各个环节的转化率,以科学评估促销专题活动效果等,通过与其他数据分析模型结合进行深度用户行为分析,从而找到用户流失的原因,以提升用户量、活跃度、留存率,并提升数据分析与决策的科学性等。
(1)用户总行为转化漏斗

从<用户总行为转化漏斗>可以看出:
①浏览详情页后比例最高的行为是加入购物车,猜测用户再对比商品时,更倾向于加入购物车。
② 收藏商品行为比例较小,且小于加入购物车行为,原因可能是因为收藏后 ,用户无法直接进行结算,需要再次进行点击-加购-支付等一系列流程。
③ 占比最小的用户行为是购买商品,仅占浏览详情页行为的2.27%,可以看出用户点击浏览商品后流失量比较大,现在将如何减少点击行为到购买行为之间的流失作为下面的分析方向。

(2) 独立访客转化漏斗

从<独立访客转化漏斗>可以看出:
收藏行为用户最少,低于加购行为用户。浏览页面详情后,购买的转化率较高,达到68.47%,下面拆解分析哪种购物方式促进了用户的购买转化。

(3) 拆解不同行为路径
将购买行为拆解为四种:点击——购买、点击——加购——购买、点击——收藏——购买、点击——收藏——加购——购买
先新建一个临时视图,存放每个用户的行为数据。
① 浏览——购买 路径
浏览:34226
购买:1735
购买转化率:5.01%

② 浏览——加购——购买 路径
浏览:316811
加购:26581
购买:9870
购买转化率:3.12%

③ 浏览——收藏——购买 路径
浏览:37895
收藏:3297
购买:1268
购买转化率:3.35%

④ 浏览——收藏——加购——购买 路径
浏览:144245
收藏:9843
加购:9164
购买:4306
购买转化率:2.99%

小结:
浏览——购买 路径 的购买转化率最高,可以通过增加这部分用户所占比例来提高销量,例如在浏览页面增加 优惠活动提示等,来促进加购的用户来进行收藏操作。

4.2 从时间维度分析用户行为
4.2.1 每天的用户行为分析
每日用户行为数据变化

在2017年11月25日-2017年12月3日统计窗口内,11月25日-26日及12月2日-3日为周末。

通过每日用户行为数据变化可知:11月25日-12月1日,数据波动变化范围很小,12月2日-12月3日,各项数据指标明显上涨,高于前7天的各项数据指标。但上一个周末(11月25日-11月26日)的各项数据指标并未存在明显涨幅,所以12月2日-12月3日数据指标的上涨与周末的相关度较小,并且由每日用户行为数据图可知,日活跃用户数、浏览数、收藏数、加购数的涨幅相比于购买数更为明显,因此推测12月2日-12月3日数据指标的上涨可能与淘宝双十二预热活动有关,预热会使购买前置动作的浏览、收藏、加购行为量增长。

4.2.2 每时的用户行为分析
每时用户行为数据变化
通过每时用户行为数据变化可知,在2-5点左右,各项数据指标进入低谷期,在9-18点,数据呈现一个小高峰,波动变化较小(其中,在12点和16-17点有小幅度下降),在18-23点,各数据指标呈现一个大高峰,并且在21点左右达到日数据的最大峰值,数据的变化趋势符合大部分用户的正常作息规律。
在制定运营策略时,可以利用这个规律进行创收,选择在用户最活跃的时间段20-22点间使用直播带货、优惠活动等营销手段。

4.3 从商品维度分析用户行为
可以从销量和浏览量两个维度对商品受欢迎程度进行分析。浏览量高的商品可能是因为被页面或广告等吸引而来,或者只是感兴趣,用户并不一定会购买;而销量高的商品可能才是用户真正需要的,用户搜索和点击购买的目标比较明确。因此需要同时结合销量与浏览量两个维度进行分析。
4.3.1 商品排行榜分析
4.3.1.1 合并商品销量、浏览、加购、收藏排行榜TOP20
—— 商品销量前20
——浏览量前20
—— 收藏前20

—— 加购前20

—— 合并四个表

结果显示,销量前20的商品中只有3件商品的浏览量、加购量排到了前20(且没有排进前10)。反映出销量与浏览量(以及收藏、加购量)之间的相关性较差,销量高的商品浏览量(以及收藏、加购量)不一定高,因此需要同时结合销量与浏览量两个维度进行分析。下面将以商品销量和浏览量两个维度对商品进行四象限划分,分析不同商品对应的用户行为,并提出相应的改进措施。

4.3.2 商品四象限划分
销量和浏览量两个维度的界限值分别取4、40(需要根据实际业务场景确定界限值),将商品按照销量和浏览量划分为四个象限。
第一象限:该象限内商品的销量和浏览量都较高,说明该象限内商品的转化率比较高,是受欢迎产品。
优化建议:重点推送该象限内的商品,提高商品的曝光度,同时可以多做一些活动,吸引更多的潜在用户购买。

第二象限:该象限内的商品销量较高,但浏览量较低。产生这种现象的原因可能是:
①该象限内的商品可能属于某类特定群体的刚需产品,特定受众搜索目标比较明确,浏览后直接购买的可能性较高;
②该象限内的商品受众广,本身转化率就高,但是引流入口数量少,导致商品的曝光量低。
优化建议:收集浏览和购买了该象限内商品的用户信息,分析用户画像,结合商品特定,核实商品是否存在特定受众。
①若存在,平台可以针对该类用户进行精准推送,同时还可以为该类商品的用户建立专属社群,为用户交流提供更便捷的平台,进一步增加用户粘性;
②若不存在,则可以为该象限内的商品增设引流入口,多渠道进行推广引流,设置高频率搜索关键词提高曝光率,浏览量上去,销量可能会随之提升。

第三象限:该象限内商品的浏览量和销量都较低,需要考虑引流入口和商品本身两方面的原因。
优化方法:
①假设是商品的宣传力度过小导致商品的浏览量和销量较低,考虑增加引流入口的数量,提高该象限内商品的曝光量,然后监测商品的浏览量和销量是否有所提升。
②假设是商品本身原因,用户对此类商品不感兴趣,即使是增加引流入口也不能提升此类商品的浏览量和曝光量,那么就需要考虑商品是否真的为用户所需,商品过往的流量趋势如何,是否具有季节性(需要在特定时间推广此类产品) 等因素,如果排除所有因素,那么就需要考虑将此类产品直接优化掉,避免造成资源浪费。

第四象限:该象限内商品的浏览量较高,但销量都较低,主要分析一下原因:
①目标人群:商品本身的宣传非常效果非常好,但是指向性不明确,导致很多非目标受众点击商品,但没有购买,从而拉低了销量;
②商品定价:商品定价过高,存在同类可替代的高性价比商品,用户就会转向其他同类商品;
③商详页、客服及评价:用户无法从商详页和客服处得到更多的商品详细信息,或者商品差评较多,或者其他客户的评价中提到了用户比较介意的问题,导致用户没有直接购买;
④购买流程:商品优惠券使用方式负责,或凑单购买流程复杂,使得用户放弃购买;
⑤运费、物流时效、退换货政策:运费高且没有优惠活动,物流时效长,没有售后保障,用户对网站信任度低因而放弃购买。
优化方法:根据上述可能的原因使用调研、A/B测试等方法查明原因,对症下药。

4.3.3 “长尾效应”分析
根据商品销量对商品进行分类统计
售出的商品总共有18338件,购买次数为1的商品有16188件,占总数的88.28%,说明该平台主要依靠长尾商品累计效应带动平台销量,而不是爆款商品带动销量。

4.4 基于RFM用户分层模型分析用户行为
由于数据集中不包含订单金额,故本次分析中不考虑M维度,只从R、F两个维度来分析,对两个维度的指标进行分级打分,最终按照综合得分对用户分层。
4.4.1 R维度分析
数据源时间跨度为2017年11月25日到12月3日,共计9天。现将其分为三个区间:
时间间隔在[0:2]中,记R_Score值3分
时间间隔在[3:5]中,记R_Score值2分
时间价格在[6:8]中,记R_Score值1分

——先算出每个用户的最近一次消费距离2017-12-03有多少天,然后赋值,打分,最后统计不同分值的用户数量
从结果可以看出,有超半数的用户的最近一次购买时间距离2017-12-03的间隔在3天内,说明该平台的用户粘性较好。

4.4.2 F维度分析

计算用户的消费频率F值,对F值进行打分。根据F值最大值72和最小值1,将范围分为6个区间:
消费频次在[1:9],记F_Score值1分
消费频次在[10:19],记F_Score值2分
消费频次在[20:29],记F_Score值3分
消费频次在[30:39],记F_Score值4分
消费频次在[40:49],记F_Score值5分
消费频次在[50:72],记F_Score值6分


分数1 占比 :0.06%
分数2 占比 :0.01%
分数3 占比 :0.07%
分数4 占比 :0.27%
分数5 占比 :2.87%
分数6 占比 :96.71%

可见,在统计区间内,有96.71%的用户在平台消费了1-9次,只有3.24%的用户在平台消费10次及10次以上。

根据RF综合得分(最大值9,最小值2),对用户进行分层:
RF分为2-3分,为易流失用户
RF分为4-5分,为挽留用户
RF分为6-7分,为发展用户
RF分为8-9分,为忠诚用户

用户分层结果:
挽留用户的占比最高,这部分用户可待挖掘的潜在价值很大,可对这部分用户进行定时促活,如上新提醒、优惠发放、提供更精准的商品推荐等,留住用户并提高其消费频率;
易流失用户的占比较高,这部分用户可能在其他平台找到了更优惠或者产品体验感更好的替代产品,可以对这部分用户进行调研找到易流失的原因,并采取价格激励,优惠发放等方式召回用户;
发展用户的占比较低,可以对这部分用户定期推送新品和促销活动来进一步提高消费频率;
忠诚用户的占比最低,这部分用户属于高价值用户,可以针对这部分用户创建会员制度,定制专属的运营策略来保持用户粘性,如专属优惠,专属节日礼品,免费赠品,新品内测,积分兑换购买商品,专属客服等等。

五、结论与建议
本文从四个维度分析了淘宝用户行为数据近100万条,整体结论和建议如下:
5.1 用户行为转化漏斗分析
①平台的留存率和复购率较高,跳失率几乎为0,说明淘宝平台的商品对用户具有足够的吸引力,且其中大部分用户习惯在淘宝平台进行日常购物(对平台有依赖性),因此平台应重点维系老用户的忠诚度。
根据留存率、复购率和跳失率来看,淘宝平台的商品对用户具有足够的吸引力(复购率高,跳失率低),说明淘宝平台目前处于“忠诚度模式”中,重点为维系老用户的忠诚度。
②根据用户行为转化分析来看,从浏览商品详情页UV到有购买意向有68.84%的转化率,说明淘宝平台的商品能够满足大部分用户的需求(购买转化率较高),而从浏览商品详情页PV到有购买意向只有2.27%的转化率,说明用户在购买商品前会大量浏览商品详情页进行对比筛选。浏览商品详情页这一环节是指标提升的重点环节,可以从推荐机制入手,根据用户日常浏览行为,尽量做到精准推荐,减少用户寻找信息的时间成本。

针对上述环节改善转化率的建议:
①根据用户的搜索习惯、喜好等,优化平台的搜索匹配度和推荐策略,从而为用户推荐匹配度更高的商品,尽量做到精准推送。
②在商详页的展示上突出用户的重点关注信息,精简信息流的呈现方式,减少用户寻找信息的时间成本。

5.2 时间维度用户行为分析
①从日期维度来看,用户的各种行为数据指标在周末和工作日的差别不大,但是受双12等大型平台活动影响较大。可以进一步扩大分析范畴,比如:
以一年为单位进行环比分析,标注出各个比较大的购物节,重点关心购物节前后的用户行为数量变化,同时对每周末进行比较,分析购物节推广活动安排在周末/非周末对用户行为的影响;
在一年中对各个月进行同比分析,对比购买行为的趋势,找出整月中是否有购买行为上升的规律(结合用户年龄数据进行分析,购买行为上升可能与发工资的时段有关)。
②从时间维度来看,用户的各种行为活跃高峰期都在晚间的20-22点,可以根据这个规律制定更高效的运营策略,可以选择在用户最活跃的时间段20-22点间使用直播带货、优惠活动等营销手段。

5.3 商品维度分析用户行为
商品销量与商品浏览量的相关性较差,浏览量高的商品销量不一定高,销量高的商品浏览量不一定高,所以没有必要一味提高浏览量, 销量并不会随之增加。根据四象限划分图的分析,应重点提升第二、三、四象限内的商品:
①针对第二象限的商品(销量高,浏览量低)应分析用户画像,若存在,平台可以针对该类用户进行精准推送,同时还可以为该类商品的用户建立专属社群,为用户交流提供更便捷的平台,进一步增加用户粘性;若不存在,则可以为该象限内的商品增设引流入口,多渠道进行推广引流,设置高频率搜索关键词提高曝光率,浏览量上去,销量可能会随之提升。
②针对第三象限的商品(销量低,浏览量低)应先分析此类产品过往的流量趋势(是否具有季节性,需要在特定时间推广此类产品),根据流量趋势布局和增加引流入口的数量,看销量是否会随之提升,若提高曝光量后商品的销量还是比较低迷,说明用户对商品不感兴趣,就需要考虑商品是否是用户真正需要的,效果不好的商品可以考虑直接优化掉;
③针对第四象限的商品(销量低,浏览量高)应从目标人群、商品定价、商品详情页、客服及评价、购买流程、物流、售后保障这几个方面着手,根据可能的原因使用调研、A/B测试等方法查明原因、对症下药。

5.4 根据“长尾效应”对商品进行分析
通过分析发现,淘宝平台商品的销量主要是依靠“长尾效应”而非爆款商品的带动,但是繁多的种类对于商家来说其实是一种经营负担,成本也较高。其实一个平台可以根据不同目标(拉新、流水/爆款、利润)打造商品获利。
①用于拉新的商品一般具有商品的独特性,能够吸引人,建议重点加大宣传力度突出产品独特性,同时关注产品质量(退货率),做好品控。
②对于爆款商品,建议做出价格优势(VS竞品价格优势),同时在品控上提高产品质量,宣传上增大力度(在其他平台上引流),展现上突出产品优势(主图、详情页、评论)等。
③对于利润款商品,需要较精细化的运营策略,重点分析受众人群的喜好,做到精准推送,产品图片、详情页设计美观且突出产品优势(市场差异化,用户需求),提高产品质量和服务质量,提高产品好评率等。

5.5 RMF模型分析
通过RFM模型对用户进行分层,并对不同类型的用户采取不用的运营策略:
①挽留用户:这类用户的占比最高,这部分用户可待挖掘的潜在价值很大,可对这部分用户进行定时促活,如上新提醒、优惠发放、提供更精准的商品推荐等,留住用户并提高其消费频率;
②易流失用户:这类用户的占比较高,这部分用户可能在其他平台找到了更优惠或者产品体验感更好的替代产品,可以对这部分用户进行调研找到易流失的原因,并采取价格激励,优惠发放等方式召回用户;
③发展用户:这类用户的占比较低,可以对这部分用户定期推送新品和促销活动来进一步提高消费频率;
④忠诚用户:这类用户的占比最低,这部分用户属于高价值用户,可以针对这部分用户创建会员制度,定制专属的运营策略来保持用户粘性,如专属优惠,专属节日礼品,免费赠品,新品内测,积分兑换购买商品,专属客服等等。

电商用户行为数据分析(MySQL+Tableau)相关推荐

  1. 基于 flink 的电商用户行为数据分析【8】| 订单支付实时监控

    本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者 ...

  2. 基于 flink 的电商用户行为数据分析【9】| 电商常见指标汇总 + 项目总结

    本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者 ...

  3. 电商用户行为数据分析实战(MySQL +PowerBI)

    目录 一.项目概况 二.数据源 三.数据清洗 3.1 选择子集导入,匹配适合的数据类型 3.2 列重命名 3.3重复值处理 3.4 缺失值处理 3.5 异常值处理 从timestamps字段中提取日期 ...

  4. 对电商用户的数据分析!

    一.以淘宝等为主的用户分析场景 以淘宝.京东和拼多多为典型的用户+商品消费场景,是国内用户量最多的业务场景,也是产生利润最多的业务场景.在这其中,客户拥有最大的自主权,如何有效地加以利用或辨别客户在行 ...

  5. 尚硅谷大数据技术之电商用户行为数据分析

    尚硅谷大数据技术之电商用户行为分析 第1章 项目整体介绍 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘 ...

  6. 淘宝电商用户行为数据分析及可视化—基于MySQL/Tableau/PPT(含分析报告及代码)

    本项目以阿里巴巴移动电商平台-淘宝APP的真实用户-商品行为数据 User Behavior Data on Taobao App 为基础,使用MySQL进行数据清洗,使用AARRR模型.RFM模型. ...

  7. 淘宝电商用户行为数据分析及可视化—基于MySQL/Power BI(含代码)

    本项目以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,使用MySQL进行数据清洗,以AARRR模型.RFM模型为基础展开分析,再用Power BI做可视化,最后从提升用户活跃度.促进商品成交.差 ...

  8. 电商用户行为数据分析

    前言 本文针对淘宝app的运营数据,以行业常见指标对用户行为进行分析,包括UV.PV.新增用户分析.漏斗流失分析.留存分析.用户价值分析.复购分析等内容: 本文使用的分析工具以MySQL为主,涉及分组 ...

  9. 电商用户购买行为数据分析

    1 相关背景 数据来源:该数据集来自The UCI Machine Learning Repository 数据背景:该数据集是英国某电商在2年内的全部在线销售数据,该电商主要销售独特的全时礼品,多数 ...

最新文章

  1. linux 修改mysql密码
  2. 2021CCPC网络赛部分题解
  3. linux 同步 mac,WorkFlowy Beta for Mac(跨平台同步笔记工具)
  4. 【svn】svn的使用
  5. 荷兰牛栏 荷兰售价_荷兰的公路货运是如何发展的
  6. ngrok 别人搭建好的
  7. Go语言的goroutine
  8. 【辨异】limit, limitation
  9. Android获取Java类名/文件名/方法名/行号
  10. 自然语言处理——语言模型(二)
  11. To shade or not to shade
  12. error:bucket is protected
  13. Linux-2.6.21的负载均衡
  14. 论文精读:车尧-《社会网络视角下战略性新兴产业的专利情报研究》
  15. php把字体调大,phpDesigner 8调整字体大小的方法。
  16. layabox 打印_LayaBox开发实战之实现一个简单的模板类
  17. 删除可恶的7654.com,7654导航篡改首页恢复,如何解决浏览器被7654劫持
  18. 【Designing ML Systems】第 6 章 :模型开发和离线评估
  19. Unity音频可视化
  20. 如何成为一个更好的Android开发者?写给正在求职的安卓开发

热门文章

  1. C语言答案杨崇艳,下列关于儿童语句发展的说法中,哪些是正确的? ( )
  2. 第十四周温湿度传感器采集
  3. 直播预告: EMNLP 2020 专场四| AI TIME PhD
  4. Ubuntu 18.04 cuda 9.0 双1080TI 只显示一张
  5. 基于物联网技术的智慧病房管理系统(二)—— RTOS、AHT20 与 按钮功能实现
  6. 【转载】各大IT巨头面试题
  7. c语言rand函数_C语言随机函数学不明白?一知识一案例,全面解析C语言随机函数
  8. 报错 Resource gutenberg not found.Please use the NLTK Downloader to obtain the resource:
  9. Python any() 函数
  10. 西南大学计算机考研备考经验分享907