数据仓库分层的原因多维数据模型元数据技术
韩亚飞_yue31313_韩梦飞沙 QQ:313134555
数据仓库分层的原因
编号 |
要点 |
描述 |
---|---|---|
1 | 提高效率 | 通过数据预处理提高效率,因为预处理,所以会存在冗余数据 |
2 | 应对变化 | 如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大 |
3 | 逻辑清晰 | 通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了 |
标准的数据仓库分层:
编号 |
分层 |
分层 |
描述 |
---|---|---|---|
1 | ods | 临时存储层 | 它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。 |
2 | pdw | 数据仓库层 | 它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据 |
3 | mid | 数据集市层 | 它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度讲,它是轻度汇总级别的数据,已经不存在明细的数据了。 |
4 | app | 应用层 | 数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。 |
ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)
也可分三层:
操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM)
数据缓存层,核心数据层,分析应用层。
数据仓库
数据仓库可以理解为中间集成化数据管理的一个平台
数据仓库的存储并不需要存储所有原始数据,因为比如你存储冗长的文本数据完全没必要,但需要存储细节数据,因为需求是多变的,而且数据仓库是导入数据必须经过整理和转换使它面向主题,因为前台数据库的数据是基于oltp操作组织优化的,这些可能不适合做分析,面向主题的组织形式才有利于分析。
多维数据模型
多维数据模型就是说可以多维度交叉查询和细分,应用一般都是基于联机分析处理(online analytical process OLAP)
元数据
元数据,也叫解释性数据,或者数据字典,会记录数据仓库中模型的定义,各层级之间的映射关系,监控数据仓库的数据状态和etl的任务运行状态。一般通过元数据资料库来统一存储和管理元数据。
技术:
数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上
消息系统:可以加入Kafka防止数据丢失
实时计算:实时计算使用S
数据仓库分层的原因多维数据模型元数据技术相关推荐
- 数据仓库——分层原理
目录 一.什么是数据仓库 二.数仓建模的意义,为什么要对数据仓库分层? 三.ETL 四.技术架构 五.数仓分层架构 数仓逻辑分层 1.数据引入层(ODS,Operational Data Store, ...
- 数据仓库系列(四)数仓架构以及多维数据模型的设计
文章目录 一.前言 二.数据仓库的定义 三.数据仓库的特点 四.数据仓库的作用 五.数据仓库的架构 六.数据仓库的要求 七 .数据仓库分层 八.数据仓库四个层次的划分 8.1 ODS层 8.2 PDW ...
- 【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )
商务智能系列文章目录 [商务智能]数据预处理 [商务智能]数据仓库 ( 多维数据模型 | 多维数据分析 ) 文章目录 商务智能系列文章目录 前言 一.数据仓库 与 传统数据库 区别 二.数据仓库系统体 ...
- 数据仓库分层和元数据管理
数仓的分层架构 按照数据流入流出的过程,数据仓库架构可分为三层--源数据.数据仓库.数据应用. 数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据 ...
- 数据仓库多维数据模型
一.概述 多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式.雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别. 二.星型模式(star schema) 星型 ...
- 16-数据仓库之数据建模、数据建模表的分类、数据建模步骤、数据分层的原因和优点
九.数据仓库 9.1 数据处理方式 9.1.1 OLTP 定义理解 OLTP的全称是On-line Transaction Processing,中文名称是联机事务处理 特点 主要用于管理事物,用来处 ...
- 一种通用的数据仓库分层方法
0x00 概述 数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用.而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明, ...
- 数据仓库dw层_数据仓库分层之辩
前言,这篇文章最早见过是在2009年的某一个论坛上并保存了下来, 今天发出来读了一遍,不禁思考本质上这些年我们到底进步了什么? 数据仓库的分层可以算是数据仓库架构的子话题.在前段时间参与的一次讨论中, ...
- 深度 | 数据仓库分层存储技术揭秘
简介: 作者: 沄浩.士远 一 .背景 据IDC发布的<数据时代2025>报告显示,全球每年产生的数据将从2018年的33ZB增长到2025年的175ZB,平均每天约产生491EB数据.随 ...
最新文章
- 好看的dialog,sweet Alert Dialog 导入Android Studio
- 找出字符串中所有数字
- andriod之log打印
- MongoDB 访问控制
- 2007年淘宝网手机销量统计报告
- vfp控制excel使用sort_使用Python根据索引合并Excel表
- 关于java垃圾回收器(GC)的一些基础知识
- 两种方法清空memcache
- 黑马Java学习笔记之-----数组
- python集成包地址 Anaconda 一键安装拥有所有包
- COM组件注册DLL不成功
- 打印机软件未通过电脑测试,打印机测试错误 原因administrator解决办法
- IT奶爸的育儿学习之路
- 勒索病毒WannaCry深度技术分析:详解传播、感染和危害细节
- linux返回根目录的命令
- django 框架模型之models常用的Field,这些Field的参数、及常见错误原因及处理方案。
- MySql查询当前版本
- c语言求佩尔方程的解,佩尔方程
- springboot如何解析邮箱
- [笔试题记录]T01 最优高铁修建方案
热门文章
- java 集成pageoffice_springboot 集成 pageoffice,实现在线打开,编辑,保存 word 文件...
- 数据结构七大排序算法图解
- 速查!2020年平均工资出炉,这个行业最香:177544元!
- c/c++字节序转换(转)
- 地心地固坐标系(ECEF)与站心坐标系(ENU)的转换
- Windows 2003分区魔术师:Diskpart
- python 关闭烦人的科学模式
- ELK kibana查询与画图
- 新手如何快速入门人工智能?
- 微小目标识别研究(1)——白酒杂质识别论文搜集