目录

  • 一、为什么要进行数据分层?数据分层的好处?
    • 1、原因
    • 2、好处
  • 二、hive数仓分为哪几层?
    • 1、ODS层:数据运营层(贴源层)
    • 2、DW层: 数据仓库层
      • (1)DWD层:数据明细层
      • (2)DWM层:数据中间层
      • (3)DWS层:数据汇总层(服务)
    • 3、ADS层:应用层

一、为什么要进行数据分层?数据分层的好处?

1、原因

对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控。

2、好处

清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
数据血缘追踪:简单来讲可以这样理解,我们最终给业务呈现的是一张能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
把复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
屏蔽原始数据的异常:屏蔽业务的影响,不必改一次业务就需要重新接入数据。

二、hive数仓分为哪几层?

来源于各种途径的日志表(以json格式存在的数据),通过工具解析传入ODS层

1、ODS层:数据运营层(贴源层)

这一层是最贴近源数据的一层,数据源中的数据经过抽取、洗净、传输,装入本层,一般来讲数据不需要进行过多的数据清洗工作,原封不动的接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面DW层来做

作用
这一层的作用相当于是一个接口层,用来引入数据。
例如:
把1号一天的数据存储起来,等待2号集中处理这些数据,这我们叫做T+1模式,这有一个调度平台,可以定时,在凌晨0点的时候将数据存入ODS层,如果出错就会发出预警,将错误信息发送到手机,然后你去处理

我们需要做的是?
建好表。
例如:
我们建表的时候创建一个varchar(20)类型的表格,这时候来了一个varchar(30)类型的数据,这个时候就会报错,程序就会无法继续运行。所以一应要建好表

2、DW层: 数据仓库层

(1)DWD层:数据明细层

对ODS层做预处理,根据需求对数据进行处理,例如给定一些数据ID、name、age、region、user_type,这其中有中文,就可以将这些中文使用case when *** then ** end方式增加一个标签代表这个数据

(2)DWM层:数据中间层

该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。

(3)DWS层:数据汇总层(服务)

将上一层处理过的数据进行汇总,一遍进行后续查询

3、ADS层:应用层

在DW层处理完成的数据通过工具进行可视化加工,当数据处理完成存储在Hive中,处理完成的数据可以通过ETL工具推送到关系型数据库中(例如Mysql),一般情况下,数据都有一个储存周期,400天左右,我们使用的可视化-工具平台(基于关系型数据库Mysql储存时间400天左右),可以进行同比(年)、环比(月),这些数据形成一个数据集(结果),最后一步就是根据业务需求来配置报表

感谢阅读,我是啊帅和和,以为大数据专业大四学生,祝你快乐。

Hive数据仓库分层架构相关推荐

  1. B06 - 004、数据仓库分层架构

    初学耗时:0.5h 注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端. 一.数据仓库分层架构   1.1  数据仓库架构分层.   1.2  数据仓库架构分层详解.   1.3 ...

  2. 一文带你认清数据仓库“维度模型设计”与“分层架构” | 原力计划

    作者 | Alice菌 责编 | 王晓曼 出品 | CSDN博客 数据仓库纬度模型设计 1. 纬度建模基本概念 维度模型是数据仓库领域大师Ralph Kimall所倡导,他的<数据仓库工具箱&g ...

  3. 五、Hive数据仓库(完整版)

    1.数据仓库的介绍 1.1. 数据仓库的基本概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库顾名思义,**是一个很大的数据存储集合,出于企业的分析性报告和决策支持 ...

  4. 数据仓库面试题——数据仓库分层

    答案来源:大数据面试题V3.0,523道题,679页,46w字 问过的一些公司:字节 x 2,字节(2021.07)-(2021.08)-(2021.10),阿里 x 2,爱奇艺,百度 x 2,百度( ...

  5. 数据仓库分层设计(基于Hive)

    1.数据仓库逻辑分层架构 先来看数据仓库的逻辑分层架构: 分层名称可能不一样,但基本是都是这样 想要看懂数据仓库的逻辑分层架构,先要弄懂以下概念 数据源 : 数据来源,互联网公司的数据来源随着公司的规 ...

  6. 1、Hive数据仓库——概念及架构

    文章目录 Hive 1.2.1 大数据体系概述 Hive架构 数据仓库 Hive 是什么 Hive的安装 版本介绍 学习Hive 安装主要流程 Hive与传统数据库比较 Hive的存储格式 TextF ...

  7. 数据仓库的架构与设计

    https://blog.csdn.net/trigl/article/details/68944434 公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个 ...

  8. oracle 数据立方_大数据之数据仓库分层

    大数据之数据仓库分层 1. 什么是数据分层? 2. 数据分层的好处 一种通用的数据分层设计 3. 举例 4. 各层会用到的计算引擎和存储系统 5. 分层实现 6.数据分层的一些概念说明 7.大数据相关 ...

  9. 数仓(四)数据仓库分层

    上一节我们了解了数仓中常见的两大建模体系:关系建模和维度建模,并论述了维度建模的4个步骤. 数仓(二)关系建模和维度建模 数仓(三)简析阿里.美团.网易.恒丰银行.马蜂窝5家数仓分层架构 其实数仓建模 ...

最新文章

  1. 抛弃注意力,类Transformer新模型实现新SOTA
  2. java执行时的两个常见问题(无法加载主类)
  3. iOS 深入解析之NSArray
  4. [css] 你知道全屏滚动的原理是什么吗?它用到了CSS的哪些属性?
  5. springboot, thymeleaf 教你快速搭建网站
  6. tnsnames.ora配置未生效_nginx高可用配置未生效问题跟踪
  7. 13日直播预告丨Oracle多套库整合到多租户平台案例分享
  8. 有趣的圣诞节 库的打包
  9. 《趣学JavaScript——教孩子学编程》——第1章 认识JavaScript1.1 认识JavaScript
  10. 有没有更好的方法在JavaScript中执行可选的函数参数? [重复]
  11. CentOS7+rsync+sersync实现数据实时同步
  12. 黑苹果无线网卡选择intel还是博通?及其驱动方式详解
  13. 台式计算机找不到无线连接,台式机如何连接wifi_台式机找不到无线网络
  14. pdfFactory 7PDF 虚拟打印机官方注册码版下载
  15. opencv studay3
  16. 大白话搞懂什么是同步/异步/阻塞/非阻塞
  17. iPhone更换字体教程,无需越狱,支持所有苹果设备!
  18. 基于采样的规划算法之动态窗口法(DWA)
  19. python cnn 股市_股市分析——ATR指标(附python代码)
  20. 软件项目需求管理培训

热门文章

  1. 系统级性能调优工具Perf成功移植到龙芯处理器
  2. 云计算与大数据——大数据的概念
  3. Dubbo:搭建管理控制台(dubbo-admin)
  4. 用Arduino制作一个功能最基础的辉光钟
  5. 遥感技术在城市内涝方向的应用及实例
  6. 自己信奉的十句英语名言
  7. RaspberryPi 自组网
  8. Apache Atlas 1.2.0 安装部署
  9. 电子元器件图片、名称、符号图形对照(精编请收藏)
  10. 【Unity 31】 Unity中的文件读写, json,Get和Post,聚合数据接口的使用