文章目录

  • 数据仓库概念
  • 项目需求分析
  • 架构设计
    • 技术选型
    • 系统结构设计
    • 数据流程设计
    • 框架和版本选型
    • 集群资源规划设计

数据仓库概念

数据仓库(Data WareHouse),简写为DW或DWH,为企业决策制定过程,提供所有系统数据支持的战略集合,通过对数据仓库中的数据分析,帮助企业改进业务流程,控制成本,提高产品质量

数据仓里不是数据的最终目的地,而是为数据最终目的地做好准备,这些准备对数据:清洗,转义,分类,重组,合并,拆分,统计

项目需求分析

1.数据采集平台搭建

2.用户行为数据仓库的分层搭建

3.实现业务数据仓库的分层搭建

4.针对数据仓库中的数据进行留存,转化率,CMV,复购率,活跃等报表分析

架构设计

技术选型

数据采集传输 : Flume,Kafka,Logstash,DataX,Sqoop

数据存储: Hive.Mysql,HDFS,HBase,S3

数据计算:spark,Hive,Tez,Flink,Storm

数据查询 : Presto,Impala,Kylin

系统结构设计

数据流程设计

框架和版本选型

产品 版本
Hadoop 2.7.2
Flume 1.7.0
Kafka 0.11.0.2
Kafka Manager 1.3.3.22
Hive 1.2.1
Sqoop 1.4.6
MySQL 5.6.24
Azkaban 2.5.0
Java 1.8
Zookeeper 3.4.10
Presto 0.189

注意: 框架选择最近半年左右稳定版

集群资源规划设计

服务器hadoop102 服务器hadoop103 服务器hadoop104
HDFS NameNode DataNode DataNode DataNode SecondaryNameNode
Yarn NodeManager Resourcemanager NodeManager NodeManager
Zookeeper Zookeeper Zookeeper Zookeeper
Flume(采集日志) Flume Flume
Kafka Kafka Kafka Kafka
Flume(消费Kafka) Flume
Hive Hive
MySQL MySQL
Presto Presto

电商数仓:用户行为数据仓库(一)数据仓库建设和技术选型相关推荐

  1. 尚硅谷大数据项目之电商数仓(4即席查询数据仓库)

    尚硅谷大数据项目之电商数仓(即席查询) (作者:尚硅谷大数据研发部) 版本:V4.0 第1章 Presto 1.1 Presto简介 1.1.1 Presto概念 1.1.2 Presto架构 1.1 ...

  2. 电商数仓项目系列一:数据仓库简介

    一.数仓定义 数据仓库顾名思义就是存储数据的仓库,不同于业务数据库用作业务支撑,数据仓库是分析系统最核心的组成部分,使用这些数据为我们的报表分析(各种销售指标),广告推广(在什么地方.什么渠道投放广告 ...

  3. 数据仓库之电商数仓-- 1、用户行为数据采集

    目录 一.数据仓库概念 二.项目需求及架构设计 2.1 项目需求分析 2.2 项目框架 2.2.1 技术选型 2.2.2 系统数据流程设计 2.2.3 框架版本选型 2.2.4 服务器选型 2.2.5 ...

  4. 数据仓库之电商数仓-- 4、可视化报表Superset

    目录 一.Superset入门 1.1 Superset概述 1.2 Superset应用场景 二.Superset安装及使用 2.1 安装Python环境 2.1.1 安装Miniconda 2.1 ...

  5. 数据仓库之电商数仓-- 3.4、电商数据仓库系统(ADS层)

    目录 九.数仓搭建-ADS层 9.1 建表说明 9.2 访客主题 9.2.1 访客统计 9.2.2 路径分析 9.3 用户主题 9.3.1 用户统计 9.3.2 用户变动统计 9.3.3 用户行为漏斗 ...

  6. 数据仓库之电商数仓-- 3.3、电商数据仓库系统(DWT层)

    目录 八.数仓搭建-DWT层 8.1 访客主题 8.2 用户主题 8.3 商品主题 8.4 优惠券主题 8.5 活动主题 8.6 地区主题 8.7 DWT层首日数据导入脚本 8.8 DWT层每日数据导 ...

  7. 数据仓库之电商数仓-- 3.2、电商数据仓库系统(DWS层)

    目录 七.数仓搭建-DWS层 7.1 系统函数 7.1.1 nvl函数 7.1.2 日期处理函数 7.1.3 复杂数据类型定义 7.2 DWS层 7.2.1 访客主题 7.2.2 用户主题 7.2.3 ...

  8. 数据仓库之电商数仓-- 2、业务数据采集平台

    目录 一.电商业务简介 1.1 电商业务流程 1.2 电商常识(SKU.SPU) 1.3 电商系统表结构 1.3.1 活动信息表(activity_info) 1.3.2 活动规则表(activity ...

  9. 电商数仓描述_大数据企业级电商数据仓库架构设计和实现(技术点与企业接轨)...

    课程咨询和资料获取请加老师QQ  1011800132 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿 ...

最新文章

  1. I/O流。简单利用File.copy
  2. python基础07_tuple_dict
  3. 如何在ESXi 5.5主机上安装ESXi 5.5客户机
  4. 4月 .NET 线上 Meetup,快来报名
  5. 数学的意蕴与价值(建议收藏)
  6. Python 第三方模块之 matplotlib - 绘图库
  7. 使用C#打造通用的数据库连接类
  8. bzoj 3039: 玉蟾宫(悬线法)
  9. 在K3凭证处理中的部份实用操作
  10. k8s springboot 文件_用Kubernetes部署Springboot或Nginx,也就一个文件的事
  11. 1051: [HAOI2006]受欢迎的牛 (tarjan强连通分量+缩点)
  12. Unity for Windows: III–Publishing your unity game to Windows Phone Store
  13. 小程序商城源码,小程序源码带前端+后台+数据库 ,免费分享
  14. 天勤2022数据结构(四)数组、矩阵与广义表
  15. activiti设计器会签人员配置
  16. 十万部冷知识:“澳大利亚”为什么属于亚洲球队?
  17. 使用MQTTNet包实现客户端与服务端通讯
  18. 人鱼之伤的怪物原型=克苏鲁的deep one
  19. Gikee区块链浏览器全新发布,新增BTC、ETH两大公链
  20. Facade和Adapter

热门文章

  1. 全球与中国的前50家最佳网站
  2. oracle 提示ORA-00942: 表或视图不存在,但是plsql查询有数据,解决办法
  3. 关于indexOf的全等匹配
  4. 学习编程先学什么?怎么学习编程?
  5. 那些程序员才懂的笑话
  6. 进入BeOS的花花世界 系列四
  7. AsyncTask使用
  8. php英文月份,月份英文、月份英文的縮寫│English Learning線上免費英文學習網、線上英文...
  9. SNS网站LinkedIn的Java架构技术
  10. 布法罗大学计算机硕士学费,纽约布法罗大学学费是多少