数仓的分层架构

按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用。

数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

源数据层(ODS) :此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。
数据仓库层(DW) :也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
数据应用层(DA或APP) :前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

为什么要对数据仓库分层?

用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数仓的元数据管理

元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。

数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。

元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体。

数据仓库分层和元数据管理相关推荐

  1. mysql 数据仓库 元数据_数据仓库中的元数据管理

    1. 引言 元数据是数据仓库中的一个重要组成部分,元数据管理系统则是构建,管理,维护和使用数据仓库系统的核心部件. 2. 基础知识 2.1 元数据的定义 元数据是指来自企业内外的所有物理数据和知识,包 ...

  2. qstring 属于元数据类型吗_数据仓库的“元数据管理”

    作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...

  3. 元数据管理、治理、系统、建设方案、范例等

    [数据治理工具]–元数据系统 1.元数据系统 1.1 概述 如果想建设好元数据系统,需要理解元数据系统的相关概念,如数据.数据模型.元数据.元模型.ETL.数据血缘等等. 首先,要清楚数据的定义.数据 ...

  4. 数据仓库分层的原因多维数据模型元数据技术

    韩亚飞_yue31313_韩梦飞沙 QQ:313134555 数据仓库分层的原因 编号 要点 描述 1 提高效率 通过数据预处理提高效率,因为预处理,所以会存在冗余数据 2 应对变化 如果不分层而业务 ...

  5. 数据仓库与元数据管理

    数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况.随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据.数据仓库中的数据是从许多业务处理系统中抽取 ...

  6. 数据仓库-6.元数据管理

    元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一 ...

  7. 数据仓库(五)元数据管理

    概述 元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息.元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数 ...

  8. 数据仓库-元数据管理

    一.什么是元数据 元数据(Metadata),又称中介数据.中继数据,为描述数据的数据(data about data),一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数 ...

  9. 数据仓库-数据仓库元数据管理

    目录 数据仓库元数据管理 数据仓库元数据管理 元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及ETL的任务运行状态.一般会通过元数据资料库(Me ...

最新文章

  1. 如何在命令提示符下编译运行含有Package的java文件
  2. sleep( ) 和 wait( ) 的这 5 个区别,你知道几个
  3. JavaScript获取距离某天前或后的日期
  4. MFC的Application Wizard所生成的各种文件功能
  5. 用反射实现简单的框架
  6. Script error.全面解析
  7. 利用MATLAB实现人脸识别GUI程序设计
  8. Mac使用手册:如何检查 Mac 或 iOS 设备仍在保修范围内
  9. 金融计量经济学中使用R构建置信区间
  10. WordPress后台定制-为WooCommerce产品增加自定义字段
  11. 计算机网络ip进制转换方法,IP地址与二进制之间的转换
  12. 宜信智能监控平台建设实践|分享实录
  13. 安卓Apk安装出错:更新包与已安装应用的签名不一致,但在应用管理中却找不到这个已经卸载的应用
  14. android ppi,300ppi是人眼极限是断章取义_手机Android频道-中关村在线
  15. python识别颜色并提取轮廓_pythonopencv检测并提取目标颜色
  16. PYTHON鼠标记录器 一个简单的鼠标记录器 可以修改坐标和点击的时间
  17. 软件案例分析:商业音乐软件还是开源音乐软件?
  18. 如何实现数据可视化分析?有这个解决方案就够了
  19. 部署k3s + Rancher
  20. JTAG基本原理及仿真器性能比较

热门文章

  1. Spring注解方式实现定时器
  2. JavaScript内存泄漏知多少?
  3. Android随机生成四则运算
  4. Objective-C 内存管理机制
  5. HashMap与HashTable联系与区别
  6. Python开发【第七篇】: 面向对象和模块补充
  7. AESNI/XData勒索病毒来袭 目前主要在乌克兰传播 它居然还能使用硬件加速加密过程...
  8. IP Cam须改原厂密码防黑客
  9. 安卓开源项目周报1220
  10. 前端三大技术 HTML、CSS、JavaScript 快速入门手册