使用MySQL进行数据分析——以淘宝用户数据为例

1. 背景介绍

本文主要是练习使用 mysql 进行数据分析,结合 excel 进行可视化分析,数据来源为阿里云天池的淘宝用户数据集,本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

字段解释为:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳

注意到用户行为类型有四种,分别是:

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品

关于数据集的大小说明:

维度 数量
用户数量 987,994
商品数量 4,162,024
用户数量 987,994
商品类目数量 9,439
所有行为数量 100,150,807

由于数据集太过庞大,本人电脑可能不堪重负,用 python 读取发现有十亿条数据,用 mysql 载入也太费时间(导入一个小时才导入了几百万条),因此本文使用部分数据进行分析。

2.

3. 数据清洗

3.1 缺失值处理

select count(UserID),count(ItemID),count(CategoryID),count(BehaviorType),count(TimeStamp)
from userbehavior

发现并没有缺失值,总共有3694900条数据

3.2 重复值处理

select UserID,ItemID,Timestamp
from userbehavior
group by UserID,ItemID,Timestamp
having count(*) > 1


发现有两行数据是重复的,因此删除这两行数据。

3.3 时间变量处理

观察数据发现Timestamp字段为时间戳,并非传统的时间日期,需要对这一字段进行处理。

alter table userbehavior add date DATE ,add time VARCHAR(10)

新增 日期date 和 时间time 字段

update userbehavior set date = from_unixtime(Timestamp,'%Y-%m-%d'),
time = from_unixtime(Timestamp,'%k')

利用 from_unixtime 函数将 日期 和 时间 从时间戳中提取出来,这一过程时间很长,可能需要几分钟,大家可以喝口水稍等一会儿

使用MySQL进行数据分析——以淘宝用户数据为例相关推荐

  1. 【入门数据分析】淘宝用户行为分析

    前言 分析目的:本文基于淘宝1年的交易数据对其用户行为进行多角度分析,对相关问题进行解释并提供建议. 分析工具:MySQL.excel 主要模型:AARRR模型 一.分析问题和思路 本文采用淘宝电商的 ...

  2. Python数据分析案例—淘宝用户行为分析

    赛题与数据 一.项目背景 本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析 ...

  3. 数据分析项目-淘宝用户数据分析

    分析思路 1. 分析用户在使用淘宝APP时的行为,确定相关指标,确定用户流失环节. 2. 分析用户在不同时间段的行为趋势变化. 3. 通过对部分商品的用户行为分析,提出针对不同类型用户的调整建议. A ...

  4. MYSQL数据分析项目 - 淘宝用户行为分析

    目录 一.项目简要 1 数据背景 2 项目目标 3 分析思路 二.数据说明 1 取样说明

  5. 用python爬取淘宝用户数据的单位是_国内有没有数据爬取方面的公司?

    1).diffbot,官网:https://www.diffbot.com/,这是被腾讯资本加持的一家人工智能公司,通过人工智能技术,让"机器"识别网页内容,抓取关键内容,并输出软 ...

  6. 基于Python的淘宝行为数据可视化分析

    项目背景&总结: 项目背景 完成如下商业分析任务,通过数据分析和可视化展示,充分挖掘数据的价值,让数据更好地为业务服务: 流量分析:PV/UV是多少,通过分析PV/UV能发现什么规律? 漏斗分 ...

  7. mysql 时间段内的周末_淘宝用户行为数据分析(MySQL)

    利用MySQL对淘宝用户行为数据进行分析.分析步骤如下: 1 提出问题 2 理解数据 3 数据清洗 4 构建模型 5 结论 6 建议 淘宝是目前国内最大的电商平台,人们网购的主要渠道之一.买家通过搜索 ...

  8. 【数据分析实战经验】淘宝用户行为分析①-AARRR、RMF模型(数据量:百万级,工具mysql)

    电商平台的用户行为分析,能一定程度的推动运营.产品等迭代,提供决策支持. 数据集来源: 阿里云池 样本量: 3835331 方法工具: 本文用2017年11月至12月的淘宝用户行为,AARRR模型及R ...

  9. 基于MySQL的淘宝用户行为数据分析

    前言 本文针对淘宝app的运营数据,以行业常见指标对用户行为进行分析,包括UV.PV.新增用户分析.漏斗流失分析.留存分析.用户价值分析.复购分析等内容,使用的分析工具以MySQL为主,涉及分组汇总, ...

最新文章

  1. php openssl做什么,php php_openssl.dll文件有什么用?
  2. floor--朝负无穷大方向取整
  3. STM32使用串口IDLE中断的两种接收不定长数据的方式
  4. 转【微信小程序 四】二维码生成/扫描二维码
  5. Java 并发编程—有锁互斥机制及AQS理论
  6. 热电偶校验仪_热电偶校验方法_烟台一等热电偶,干湿两用温度校验炉公司
  7. html数据复制到剪切板
  8. 2021-02-03-延长一天时间的有效方法
  9. 分库分表解决方案之ShardingSphere
  10. hibernate集合类型映射
  11. 年终总结系列2:人人都在讲的全面风险管理,真的做到了吗?
  12. 使用VIsio绘制E-R图
  13. 编写一个油猴脚本,去除百度首页的广告卡片(亲测有效)
  14. GitLab CI/CD 初体验
  15. 用慧编程做计算机,慧编程人工智能应用, 比个手势就能做算术!
  16. cv2高动态范围成像(HDRI、HDR)
  17. 厦门大学计算机专业录取分数线2019,厦门大学2019年各省录取分数线及各专业录取分数线...
  18. 深度链接、延迟深度链接、App Links以及关于LinkedME实现深度链接的原理解析
  19. Android开发随手记1
  20. element ui 上传图片

热门文章

  1. fifa15android教程,FIFA15安卓离线单机版
  2. 一些简答题技巧小整理
  3. GNU make使用(一)
  4. vue父页面实时给子页面传值
  5. MCU是什么——结构与组成
  6. python怎么做https请求_Python使用https请求的方法
  7. unity3d 常见图形/音频制作软件
  8. Angular、React、Vue.js 等 6 大主流 Web 框架都有什么优缺点
  9. 萍乡电子工程师多少钱一个月_电子工程师工资是多少
  10. Cesium缓冲区分析