使用MySQL进行数据分析——以淘宝用户数据为例
使用MySQL进行数据分析——以淘宝用户数据为例
1. 背景介绍
本文主要是练习使用 mysql 进行数据分析,结合 excel 进行可视化分析,数据来源为阿里云天池的淘宝用户数据集,本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
字段解释为:
列名称 | 说明 |
---|---|
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’) |
时间戳 | 行为发生的时间戳 |
注意到用户行为类型有四种,分别是:
行为类型 | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
关于数据集的大小说明:
维度 | 数量 |
---|---|
用户数量 | 987,994 |
商品数量 | 4,162,024 |
用户数量 | 987,994 |
商品类目数量 | 9,439 |
所有行为数量 | 100,150,807 |
由于数据集太过庞大,本人电脑可能不堪重负,用 python 读取发现有十亿条数据,用 mysql 载入也太费时间(导入一个小时才导入了几百万条),因此本文使用部分数据进行分析。
2.
3. 数据清洗
3.1 缺失值处理
select count(UserID),count(ItemID),count(CategoryID),count(BehaviorType),count(TimeStamp)
from userbehavior
发现并没有缺失值,总共有3694900条数据
3.2 重复值处理
select UserID,ItemID,Timestamp
from userbehavior
group by UserID,ItemID,Timestamp
having count(*) > 1
发现有两行数据是重复的,因此删除这两行数据。
3.3 时间变量处理
观察数据发现Timestamp字段为时间戳,并非传统的时间日期,需要对这一字段进行处理。
alter table userbehavior add date DATE ,add time VARCHAR(10)
新增 日期date 和 时间time 字段
update userbehavior set date = from_unixtime(Timestamp,'%Y-%m-%d'),
time = from_unixtime(Timestamp,'%k')
利用 from_unixtime 函数将 日期 和 时间 从时间戳中提取出来,这一过程时间很长,可能需要几分钟,大家可以喝口水稍等一会儿
使用MySQL进行数据分析——以淘宝用户数据为例相关推荐
- 【入门数据分析】淘宝用户行为分析
前言 分析目的:本文基于淘宝1年的交易数据对其用户行为进行多角度分析,对相关问题进行解释并提供建议. 分析工具:MySQL.excel 主要模型:AARRR模型 一.分析问题和思路 本文采用淘宝电商的 ...
- Python数据分析案例—淘宝用户行为分析
赛题与数据 一.项目背景 本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析 ...
- 数据分析项目-淘宝用户数据分析
分析思路 1. 分析用户在使用淘宝APP时的行为,确定相关指标,确定用户流失环节. 2. 分析用户在不同时间段的行为趋势变化. 3. 通过对部分商品的用户行为分析,提出针对不同类型用户的调整建议. A ...
- MYSQL数据分析项目 - 淘宝用户行为分析
目录 一.项目简要 1 数据背景 2 项目目标 3 分析思路 二.数据说明 1 取样说明
- 用python爬取淘宝用户数据的单位是_国内有没有数据爬取方面的公司?
1).diffbot,官网:https://www.diffbot.com/,这是被腾讯资本加持的一家人工智能公司,通过人工智能技术,让"机器"识别网页内容,抓取关键内容,并输出软 ...
- 基于Python的淘宝行为数据可视化分析
项目背景&总结: 项目背景 完成如下商业分析任务,通过数据分析和可视化展示,充分挖掘数据的价值,让数据更好地为业务服务: 流量分析:PV/UV是多少,通过分析PV/UV能发现什么规律? 漏斗分 ...
- mysql 时间段内的周末_淘宝用户行为数据分析(MySQL)
利用MySQL对淘宝用户行为数据进行分析.分析步骤如下: 1 提出问题 2 理解数据 3 数据清洗 4 构建模型 5 结论 6 建议 淘宝是目前国内最大的电商平台,人们网购的主要渠道之一.买家通过搜索 ...
- 【数据分析实战经验】淘宝用户行为分析①-AARRR、RMF模型(数据量:百万级,工具mysql)
电商平台的用户行为分析,能一定程度的推动运营.产品等迭代,提供决策支持. 数据集来源: 阿里云池 样本量: 3835331 方法工具: 本文用2017年11月至12月的淘宝用户行为,AARRR模型及R ...
- 基于MySQL的淘宝用户行为数据分析
前言 本文针对淘宝app的运营数据,以行业常见指标对用户行为进行分析,包括UV.PV.新增用户分析.漏斗流失分析.留存分析.用户价值分析.复购分析等内容,使用的分析工具以MySQL为主,涉及分组汇总, ...
最新文章
- php openssl做什么,php php_openssl.dll文件有什么用?
- floor--朝负无穷大方向取整
- STM32使用串口IDLE中断的两种接收不定长数据的方式
- 转【微信小程序 四】二维码生成/扫描二维码
- Java 并发编程—有锁互斥机制及AQS理论
- 热电偶校验仪_热电偶校验方法_烟台一等热电偶,干湿两用温度校验炉公司
- html数据复制到剪切板
- 2021-02-03-延长一天时间的有效方法
- 分库分表解决方案之ShardingSphere
- hibernate集合类型映射
- 年终总结系列2:人人都在讲的全面风险管理,真的做到了吗?
- 使用VIsio绘制E-R图
- 编写一个油猴脚本,去除百度首页的广告卡片(亲测有效)
- GitLab CI/CD 初体验
- 用慧编程做计算机,慧编程人工智能应用, 比个手势就能做算术!
- cv2高动态范围成像(HDRI、HDR)
- 厦门大学计算机专业录取分数线2019,厦门大学2019年各省录取分数线及各专业录取分数线...
- 深度链接、延迟深度链接、App Links以及关于LinkedME实现深度链接的原理解析
- Android开发随手记1
- element ui 上传图片