目录

1、数据仓库所处环节

操作层

数据仓库

数据集市

个体层

2、数据仓库概念

面向主题的

集成的

随时间变化的

非易失的

3、一般架构

STAGE层

ODS层

MDS层

ADS层

DIM层

ETL调度系统

元数据管理系统

4、设计的两个重要问题

1、 粒度

2、 分区


1、数据仓库所处环节

在一个成体系、结构化的数据应用场景下,数据和处理有四个层次: 操作层、数据仓库层、部门/数据集市层、个体层。

操作层

操作层是指为具体业务提供实时响应的各个业务系统,比如常见的订单系统、ERP、用户中心等等具体业务系统,这些系统中的数据一般都是存入关系型数据库。它们是数据的来源。

数据仓库

数据仓库收集操作层各个业务系统中的数据,进行统一格式、统一计量单位,规整有序地组织在一起,为数据分析、数据挖掘等需求提供数据支持。

数据集市

部门/数据集市层是各个部门根据自己的数据分析需求,从数据仓库中抽取自己部门所关心的数据报表。

个体层

个体层中的不同角色个体有读取不同数据的权限。

2、数据仓库概念

数据仓库是一个面向主题的、集成的、非易失的、随时间变化的,用来支持管理人员决策的数据集合,数据仓库中包含了粒度化的企业数据。

面向主题的

数据仓库不同于传统的操作型系统,传统的操作型系统中的数据是围绕功能进行组织的,而数据仓库是针对于某一个主题进行分析数据用的,比如针对于销售主题、针对于客户主题等等。

集成的

不同产品或者系统中的数据是分散在各自系统中的,并且格式不一致、计量单位不一致。而数据仓库必须将多个分散的数据统一为一致的、无歧义的数据格式后,并解决了命名冲突、计量单位不一致等问题,然后将数据整合在一起,才能称这个数据仓库是集成的。

随时间变化的

数据仓库要体现出数据随时间变化的情况,并且可以反映在过去某一个时间点上数据是什么样子的,也就是随时间变化的含义。而传统的操作型系统,只能保存当前数据,体现当前的情况。

非易失的

非易失是指:数据一旦进入数据仓库,就不能再被改变了,当在操作型系统中把数据改变后,再进入数据仓库就会产生新的记录。这样数据仓库就保留了数据变化的轨迹。

3、一般架构

STAGE层

业务系统的数据接入到数据仓库时,首先将业务数据仓储到STAGE层中,Stage层作为一个临时缓冲区,并屏蔽对业务系统的干扰。 
       STAGE层中的表结构和数据定义一般与业务系统保持一致。 
       Stage中的数据可以每次全量接入也可以每次增量接入,一般都有会数据老化的机制,不用长期保存。 
       Stage的数据不会对外部开放。

ODS层

ODS才是数据仓库真正意义上的基础数据,数据是被清洗过的,ODS层的数据是定义统一的、可以体现历史的、被长期保存的数据。 
       ODS层的数据粒度与Stage层数据粒度是一致的。 
       Stage层中的数据是完全形式的源数据,需要进行清洗才能进入ODS层,所以说ODS层是数据仓库格式规整的基础数据,为上层服务。

MDS层

MDS是数据仓库中间层,数据是以主题域划分的,并根据业务进行数据关联形成宽表,但是不对数据进行聚合处理,MDS层数据为数据仓库的上层的统计、分析、挖掘和应用提供直接支持。 
MDS层的数据也可以执行一定的老化策略。

ADS层

ADS层是数据仓库的应用层,一般以业务线或者部门划分库。这一层可以为各个业务线创建一个数据库。 
ADS层的数据是基于MDS层数据生成的业务报表数据,可以直接作为数据仓库的输出导出到外部的操作型系统中(MySQL、MSSQL、Hbase、Elasticsearch等)。

DIM层

DIM层是数据仓库数据中,各层公用的维度数据。比如:省市县数据。

ETL调度系统

对接入数据仓库的数据进行清洗、数据仓库各层间数据流转都需要大量的程序任务来操作,这些任务一般都是定时的,并且之间都是有前后依赖关系的,为了能保证任务的有序执行,就需要一个ETL调度系统来管理。

元数据管理系统

描述数据的数据叫做元数据,元数据信息一般包括表名、表描述信息、所在数据库、表结构、存储位置等基本信息,另外还有表之间的血缘关系信息、每天的增量信息、表结构修改记录信息等等。 
数据仓库中有大量的表,元数据管理系统就是用来收集、存储、查询数据仓库中元数据的工具,这个系统为数据使用方提供了极大的便利。

4、设计的两个重要问题

1、 粒度

粒度是指数据仓库中数据单元的细节程度或综合程度的级别。粒度会深刻地影响数据量的大小以及数据仓库的查询能力。 
细节程度越高,粒度级别就越低,查询就越灵活;相反,细节程度越低,粒度级别就越高。 
       双重粒度: 
       双重粒度是存储两个粒度下的数据:一个是全量的细节数据;另一个是轻度综合的数据。

2、 分区

数据分区是指把数据分散到可独立处理的分离物理单元中去。恰当地进行分区可以给数据仓库带来多个方面的好处: 
(1) 数据装载 (2) 数据访问 (3) 数据存档 (4) 数据删除 (5) 数据监控 (6) 数据存储
---------------------

备注:原文地址

数据仓库基本概念介绍相关推荐

  1. 数据仓库指标概念介绍(原子/派生/衍生)

    1.原子指标 不加任何修饰词的指标就是原子指标,也叫度量,一般存在于olap表中,涉及聚合操作,例如订单量,用户量的等等. 原子指标=业务过程(动作)+度量,如支付(事件)金额(度量),交易笔数.交易 ...

  2. Kylin(一)概念介绍

    Kylin(一)概念介绍 概念解释 数据仓库 商业智能 OLAP OLTP Cube和cuboid 事实表,维度表 维度和度量 即席查询 多维数据模型 星型模型(star schema) 雪花模型(s ...

  3. cocos2d-x一些核心概念介绍

    cocos2d-x一些核心概念介绍 Cocos2d-x中有很多概念,这些概念很多来源于动画.动漫和电影等行业,例如:导演.场景和层等概念,当然也有些有传统的游戏的概念.Cocos2d-x中核心概念:导 ...

  4. FPGA之道(75)静态时序分析(一)基本概念介绍

    文章目录 前言 基本概念介绍 常用时间参数介绍 tsu 建立时间要求 建立时间余量 th 保持时间要求 保持时间余量 tco Maximum frequency (or Minimum period) ...

  5. Lesson 13.2 模型拟合度概念介绍与欠拟合模型的结构调整策略

    一.模型拟合度概念介绍与实验 1.测试集的"不可知"悖论   通过此前课程内容介绍,我们已经知道了机器学习模型主要通过模型在测试集上的运行效果来判断模型好坏,测试集相当于是&quo ...

  6. linux块设备驱动(一)——块设备概念介绍

    linux块设备驱动(一)--块设备概念介绍 本文来源于: 1. http://blog.csdn.net/jianchi88/article/details/7212370 2. http://bl ...

  7. c语言 activemq,activemq概念介绍

    ActiveMQ概念介绍 是Apache下的开源项目,完全支持JMS1.1和J2EE1.4规范的JMS Provider实现,消息中间件. 消息中间件: A传递消息到B(功能或者系统),有比较强的耦合 ...

  8. HTML/CSS学习笔记01【概念介绍、基本标签】

    w3cschool菜鸟教程.CHM(腾讯微云):https://share.weiyun.com/c1FaX6ZD HTML/CSS学习笔记01[概念介绍.基本标签.表单标签][day01] HTML ...

  9. 《统计自然语言处理》读书笔记 一.基础知识及概念介绍

    最近准备学习自然语言处理相关的知识,主要参考<统计自然语言处理·宗成庆>和<Natural Language Processing with Python>,推荐大家阅读.第一 ...

最新文章

  1. R语言nchar函数统计字符串中字符个数实战
  2. android游戏画面抖动,抖音游戏主播是怎么直播手机画面的?
  3. gitlab 迁移、升级打怪之路:8.8.5-- 8.10.8 -- 8.17.8 -- 9.5.9 -- 10.1.4 -- 10.2.5
  4. 可怕的乖孩子_小说《可怕的乖孩子》讲了一个什么故事?
  5. delphi实现两个目录路径的链接
  6. 关于reduce中遍历2次数据的问题
  7. android word转html标签,如何将Word转换为网页html格式的方法(附代码清理方法)
  8. 万字图解Java多线程,不信你学不会!
  9. struts2路径配置_Struts 2结果路径配置示例
  10. 深入剖析Android音频(二)AudioSystem
  11. ibm服务器如何进入u盘装系统,加密u盘在电脑上怎么打开ibm服务器u盘装系统
  12. Error starting ApplicationContext. To display the conditions report re-run your application with ‘de
  13. 本周AI热点回顾:RTX3080被黄牛炒上天;百度资本助力AI 制药,已有十几位博士加入;百度联手打造AI沉浸互动展中国首秀
  14. Snapchat三类广告形式及收益提升技巧详解
  15. 回归预测 | MATLAB实现SSA-LSTM和LSTM多输入单输出
  16. n9009+android+4.4.2,三星N9009 (Galaxy Note 3 电信版 Android 4.4)ROOT教程,一键获取ROOT权限...
  17. ValueError: tile cannot extend outside image
  18. 数据集收集-包含《COVID-19》,《英国在线零售业务》,《电商行业用户行为分析数据集》,《电商婴儿用户》,《亚马逊手机》等17个数据集,用于数据分析挖掘,kaggle比赛练习
  19. 华为又一重拳!迄今为止最强5G基带芯片、全球最快CPE正式发布!...
  20. 电销外呼系统的外显号码可以自己选择吗?

热门文章

  1. 测试用例的设计方法(全)
  2. DataGear 轻松制作支持图表联动的全国地图、省级地图数据可视化看板
  3. 数据、运营相关案例问答题(一)【牛客网:数据分析试题广场】
  4. 2022危化品企业双重预防机制数字化建设成为迫切任务
  5. android解决kotlin问题Expecting member declaration
  6. 解决mysql的中文问号或乱码问题
  7. 阿里云实人认证 人脸识别
  8. VS2010播放.WAW音频文件
  9. Python金融数据分析入门到实战-视频课程
  10. 采用SpringBoot发送简单、抄送、密送、带附件邮件