电商数仓:用户行为数据仓库(一)数据仓库建设和技术选型
文章目录
- 数据仓库概念
- 项目需求分析
- 架构设计
- 技术选型
- 系统结构设计
- 数据流程设计
- 框架和版本选型
- 集群资源规划设计
数据仓库概念
数据仓库(Data WareHouse),简写为DW或DWH,为企业决策制定过程,提供所有系统数据支持的战略集合,通过对数据仓库中的数据分析,帮助企业改进业务流程,控制成本,提高产品质量
数据仓里不是数据的最终目的地,而是为数据最终目的地做好准备,这些准备对数据:清洗,转义,分类,重组,合并,拆分,统计
项目需求分析
1.数据采集平台搭建
2.用户行为数据仓库的分层搭建
3.实现业务数据仓库的分层搭建
4.针对数据仓库中的数据进行留存,转化率,CMV,复购率,活跃等报表分析
架构设计
技术选型
数据采集传输 : Flume,Kafka,Logstash,DataX,Sqoop
数据存储: Hive.Mysql,HDFS,HBase,S3
数据计算:spark,Hive,Tez,Flink,Storm
数据查询 : Presto,Impala,Kylin
系统结构设计
数据流程设计
框架和版本选型
产品 | 版本 |
---|---|
Hadoop | 2.7.2 |
Flume | 1.7.0 |
Kafka | 0.11.0.2 |
Kafka Manager | 1.3.3.22 |
Hive | 1.2.1 |
Sqoop | 1.4.6 |
MySQL | 5.6.24 |
Azkaban | 2.5.0 |
Java | 1.8 |
Zookeeper | 3.4.10 |
Presto | 0.189 |
注意: 框架选择最近半年左右稳定版
集群资源规划设计
服务器hadoop102 | 服务器hadoop103 | 服务器hadoop104 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | DataNode SecondaryNameNode |
Yarn | NodeManager | Resourcemanager NodeManager | NodeManager |
Zookeeper | Zookeeper | Zookeeper | Zookeeper |
Flume(采集日志) | Flume | Flume | |
Kafka | Kafka | Kafka | Kafka |
Flume(消费Kafka) | Flume | ||
Hive | Hive | ||
MySQL | MySQL | ||
Presto | Presto |
电商数仓:用户行为数据仓库(一)数据仓库建设和技术选型相关推荐
- 尚硅谷大数据项目之电商数仓(4即席查询数据仓库)
尚硅谷大数据项目之电商数仓(即席查询) (作者:尚硅谷大数据研发部) 版本:V4.0 第1章 Presto 1.1 Presto简介 1.1.1 Presto概念 1.1.2 Presto架构 1.1 ...
- 电商数仓项目系列一:数据仓库简介
一.数仓定义 数据仓库顾名思义就是存储数据的仓库,不同于业务数据库用作业务支撑,数据仓库是分析系统最核心的组成部分,使用这些数据为我们的报表分析(各种销售指标),广告推广(在什么地方.什么渠道投放广告 ...
- 数据仓库之电商数仓-- 1、用户行为数据采集
目录 一.数据仓库概念 二.项目需求及架构设计 2.1 项目需求分析 2.2 项目框架 2.2.1 技术选型 2.2.2 系统数据流程设计 2.2.3 框架版本选型 2.2.4 服务器选型 2.2.5 ...
- 数据仓库之电商数仓-- 4、可视化报表Superset
目录 一.Superset入门 1.1 Superset概述 1.2 Superset应用场景 二.Superset安装及使用 2.1 安装Python环境 2.1.1 安装Miniconda 2.1 ...
- 数据仓库之电商数仓-- 3.4、电商数据仓库系统(ADS层)
目录 九.数仓搭建-ADS层 9.1 建表说明 9.2 访客主题 9.2.1 访客统计 9.2.2 路径分析 9.3 用户主题 9.3.1 用户统计 9.3.2 用户变动统计 9.3.3 用户行为漏斗 ...
- 数据仓库之电商数仓-- 3.3、电商数据仓库系统(DWT层)
目录 八.数仓搭建-DWT层 8.1 访客主题 8.2 用户主题 8.3 商品主题 8.4 优惠券主题 8.5 活动主题 8.6 地区主题 8.7 DWT层首日数据导入脚本 8.8 DWT层每日数据导 ...
- 数据仓库之电商数仓-- 3.2、电商数据仓库系统(DWS层)
目录 七.数仓搭建-DWS层 7.1 系统函数 7.1.1 nvl函数 7.1.2 日期处理函数 7.1.3 复杂数据类型定义 7.2 DWS层 7.2.1 访客主题 7.2.2 用户主题 7.2.3 ...
- 数据仓库之电商数仓-- 2、业务数据采集平台
目录 一.电商业务简介 1.1 电商业务流程 1.2 电商常识(SKU.SPU) 1.3 电商系统表结构 1.3.1 活动信息表(activity_info) 1.3.2 活动规则表(activity ...
- 电商数仓描述_大数据企业级电商数据仓库架构设计和实现(技术点与企业接轨)...
课程咨询和资料获取请加老师QQ 1011800132 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿 ...
最新文章
- I/O流。简单利用File.copy
- python基础07_tuple_dict
- 如何在ESXi 5.5主机上安装ESXi 5.5客户机
- 4月 .NET 线上 Meetup,快来报名
- 数学的意蕴与价值(建议收藏)
- Python 第三方模块之 matplotlib - 绘图库
- 使用C#打造通用的数据库连接类
- bzoj 3039: 玉蟾宫(悬线法)
- 在K3凭证处理中的部份实用操作
- k8s springboot 文件_用Kubernetes部署Springboot或Nginx,也就一个文件的事
- 1051: [HAOI2006]受欢迎的牛 (tarjan强连通分量+缩点)
- Unity for Windows: III–Publishing your unity game to Windows Phone Store
- 小程序商城源码,小程序源码带前端+后台+数据库 ,免费分享
- 天勤2022数据结构(四)数组、矩阵与广义表
- activiti设计器会签人员配置
- 十万部冷知识:“澳大利亚”为什么属于亚洲球队?
- 使用MQTTNet包实现客户端与服务端通讯
- 人鱼之伤的怪物原型=克苏鲁的deep one
- Gikee区块链浏览器全新发布,新增BTC、ETH两大公链
- Facade和Adapter