云起实验室:数据湖构建DLF数据探索快速入门-淘宝用户行为分析
点击立即参与云产品场景体验https://developer.aliyun.com/adc/scenario/c46e97cc1ccf4a31881296ee95bb607a?spm=a2c6h.13858375.0.0.59eb5b90CgVsAr
建议体验时长:1小时
云产品资源使用时长:0小时
体验简介
本教程通过使⽤数据湖构建(DLF)产品对于淘宝⽤户⾏为样例数据的分析,介绍DLF产品的数据发现和数据探索功能。
教程内容包括:
1. 服务开通:开通阿⾥云账号及DLF/OSS相关服务
2. 样例数据集下载和导⼊:下载样例数据(csv⽂件),并上传⾄OSS
3. DLF数据发现:使⽤DLF⾃动识别⽂件Schema并创建元数据表
4. DLF数据探索:使⽤DLF数据探索,对⽤户⾏为进⾏分析,包括⽤户活跃度、漏⽃模型等
数据说明
本次测试的数据集来⾃阿⾥云天池⽐赛中使⽤的淘宝⽤户⾏为数据集,为了提⾼性能,我们做了⼀定的裁剪。数据集中以csv的格式存储了⽤户⾏为及商品样例数据。数据范围:2014年12⽉1⽇ - 2014年12⽉7⽇数据格式:
user表:
Column |
Description |
Comment |
user_id |
Identity of users |
Sampled&desensitized |
item_id |
Identity of items |
Desensitized |
behavior_type |
The user behavior type |
Including click, collect,add-to-cart and payment, the corresponding values are 1, 2, 3 and 4,respectively. |
user_geohash |
Latitude(user location when the behavior occurs, whichmay be null) |
Subject to fuzzing |
item_category |
The category id of the item |
Desensitized |
time |
The time of the behavior |
To the nearest hours |
item表:
Column |
Description |
Comment |
item_id |
Identity of items |
Sampled & desensitized |
item_ geohash |
user location where the behavior occurs (may be null) |
generated by longitude and altitude through a certain privacy-preserving algorithm |
item_category |
The category id of the item |
Desensitized |
云起实验室:数据湖构建DLF数据探索快速入门-淘宝用户行为分析相关推荐
- 数据湖构建DLF数据探索快速入门-淘宝用户行为分析
简介 本教程通过使⽤数据湖构建(DLF)产品对于淘宝⽤户⾏为样例数据的分析,介绍DLF产品的数据发现和数据探索功能.教程内容包括:1. 服务开通:开通阿⾥云账号及DLF/OSS相关服务2. 样例数据集 ...
- 体验实验室之数据湖构建DLF专场,动手实践完成小任务,领取定制polo衫!
阿里云体验实验室 是为开发者打造的一站式体验学习平台,在这里你可以了解并亲自动手体验各类云产品和云计算基础,无需关注资源开通和底层产品,无需任何费用.只要有一颗想要了解云.学习云.体验云的心,这里就是 ...
- MySQL数据项目分析实战——淘宝用户行为分析
MySQL数据项目分析实战--淘宝用户行为分析 一.项目背景 二.项目目标 2.1分析目的 2.2分析维度 三.数据的收集与整理 3.1数据来源 3.2数据说明 3.3理解数据 3.4导入数据 四.数 ...
- 数据湖构建DLF快速入门 实验笔记
一.登录阿里云账号,点击进入DLF控制界面 DLF控制台⻚⾯https://dlf.console.aliyun.com/cn-hangzhou/home?spm=a2c6h.13858378.0.0 ...
- 【数据分析实战经验】淘宝用户行为分析①-AARRR、RMF模型(数据量:百万级,工具mysql)
电商平台的用户行为分析,能一定程度的推动运营.产品等迭代,提供决策支持. 数据集来源: 阿里云池 样本量: 3835331 方法工具: 本文用2017年11月至12月的淘宝用户行为,AARRR模型及R ...
- DLF +DDI 一站式数据湖构建与分析最佳实践
简介: 本文由阿里云数据湖构建 DLF 团队和 Databricks 数据洞察团队联合撰写,旨在帮助您更深入地了解阿里云数据湖构建(DLF)+Databricks 数据洞察(DDI)构建一站式云上数据 ...
- DLF + DDI 一站式数据湖构建与分析最佳实践
数据湖技术圈 作者 陈鑫伟(熙康), 阿里云计算平台事业部技术专家 冯加亮(加亮), 阿里云计算平台事业部技术研发 1 背景 随着数据时代的不断发展,数据量爆发式增长,数据形式也变得更加多样.传 ...
- 腾讯云首次披露云原生智能数据湖全景图,数据湖之争再起波澜
(图片下载自视觉中国) 数据湖并不是一个很有历史感的概念,从2010年才首次被Pentaho创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,至今发展仅有十多年,但已经成为一个谈到大数据 ...
- 大数据实战 --- 淘宝用户行为数据分析
目录 开发环境 数据描述 功能需求 数据准备 数据清洗 用户行为分析 找出有价值的用户 开发环境 Hadoop+Hive+Spark+HBase 启动Hadoop:start-all.sh 启动zoo ...
最新文章
- PEAR, PECL和Perl的区别
- spark编程基础--2.2scala基础知识
- javascript:面向对象编程基础:多态
- zbb20180929 thread java并发编程之Condition
- JavaScriptjQuery 基本使用
- javascript调用在有母版的页面中注意的几点记录
- 可称之为“伟大”的公司
- 程序员修炼之道:从小工到专家读后感02
- 被迫学计算机,电脑强迫人学习
- 一个由于Pricing RFC引起的UI超时问题
- Angular_PWA使用+Demo
- 107_Power Pivot员工效率监控
- labelImg安装所遇到的那些坑
- 网上书城图书模块及首页分页
- Java学习笔记:Word中创建图表如此简单
- 数据结构--树与二叉树
- 德国风力发电机发电数据集(13w多条数据)
- Windows11 安装教程(ultraiso制作启动盘)
- JSON实例简单教程
- 微信公众号/企业微信插件用python的操作