文章目录

  • 元数据(metadata)的概念
    • Data about Data
    • 定义
    • 技术元数据
    • 业务元数据
    • 总结
  • 数据仓库
    • ODS简单的理解为 Operational Data Store, 运营数据仓储 数据整合层(也叫做数据缓冲层)
    • EDW简单理解为 Enterprise Data Warehouse, 企业数据仓库
    • ODS与EDW之间的差异
      • 使用角色
      • 数据来源
      • 数据获取性能和及时性
      • 数据架构
      • 数据共享能力
      • 数据系统提供应用数据查询
      • 数据存储
      • 系统技术特征
      • 系统可靠性
      • 系统开放性
    • 数据仓库分层
      • 最底层的细节数据
      • 中间层是多维模型
  • 参考资料

元数据(metadata)的概念

Data about Data

  • 狭义的解释是用来描述数据的数据
  • 广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息、数据都可以叫作元数据

定义

按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。

技术元数据

存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据

  • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;
  • 业务系统、数据仓库和数据集市的体系结构和模式
  • 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;
  • 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

业务元数据

从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据

  • 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。
  • 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。
  • 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

总结

搭建数据仓库中最容易缺失的就是对元数据的管理,很少有数据仓库团队具备完整的元数据,当然搭建数据仓库的工程师本身就是活的元数据,但无论是为了用数据的人还是数据仓库自身的团队着想,元数据都不可或缺。一方面元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们能自主地快速获取数据,另一方面数据仓库团队成员可以从日常的数据解释中解脱出来,无论是对后期的不断迭代更新和维护还是培训新的员工,都非常有好处,元数据可以让数据仓库的应用和维护更加高效。

数据仓库

ODS简单的理解为 Operational Data Store, 运营数据仓储 数据整合层(也叫做数据缓冲层)

  • ODS存储了运营系统(如OLTP(联机事务处理)系统)近实时的详细数据
  • 为了寻找能满足快速加载和数据整合的性能要求,并且减少面向分析需求的变更和扩充对生产系统影响的解决方案

EDW简单理解为 Enterprise Data Warehouse, 企业数据仓库

  • 为企业各级的经营决策和市场营销提供及时、精确、全面的数据支持和科学、方便、体系化的分析工具和使用方法,为除生产系统以外的管理、分析等需求提供数据支撑,实现业务数据与分析数据的分离。
  • 解决目前市场等部门信息获取能力和分析决策手段不能适应企业环境变化和精确化管理要求的问题,并通过各种形式的主题,专题分析,支撑针对性营销、上市信息披露、精确化管理.有效降低营销成本,减少客户流失,寻找商机,达到提升企业价值的目的。

ODS与EDW之间的差异

使用角色

  • ODS主要面向营业、渠道等一线生产人员和一线管理人员,为了实现准实时、跨系统的运营细节数据的查询,以获得细粒度的运营数据展现,例如渠道人员查询客户的全视图信息由ODS提供数据支撑。
  • EDW主要面向专业分析人员、辅助决策支持人员等,为了实现基于历史数据的统计分析和数据挖掘,以获得客户深层次的特征和市场发展的规律,例如专业分析人员的经营状况趋势分析由EDW提供支撑。

数据来源

  • ODS需要的大部分运营数据直接来源生产系统。 ODS中的部分分析结果数据来源于EDW,例如客户洞察信息等[^1]。
  • EDW需要的运营数据,如果在ODS中已存在,EDW则直接从ODS获取这部分数据。· EDW需要的运营数据,如果在ODS中没有,EDW则直接从生产系统获取这部分数据。

数据获取性能和及时性

  • ODS支持OLTP类型的数据更新,数据更新时间短,数据可实现准实时更新,性能与及时性都高于EDW
  • EDW中的数据一般通过批量加载进入,数据更新速度慢,无法实现准实时更新,数据更新时间不足以支持实时的报表和事件监控需求。

数据架构

  • ODS以关注生产运营过程的统计与监控为主的生产视角主题域方式来组织数据;ODS提供操作数据的统计,主要提供应用需要的细粒度运营数据。ODS中也存在部分粗粒度汇总数据,但汇总的维度少且简单
  • EDW关注对历史数据的深层次分析与挖掘.从分析与挖掘的需要出发按不同主题维度来汇总与组织数据。EDW提供历史数据的展示和分析,主要提供多层粗粒度汇总数据.汇总的维度多且复杂。

数据共享能力

  • ODS为其他生产系统提供运营数据的准实时数据共享服务
  • EDW一般不为生产系统提供此类准实时的数据共享服务。系统中的数据只供本系统分析与挖掘应用使用。

数据系统提供应用数据查询

  • ODS提供生产环境下的数据查询,查询的交易量较小,不耗费太多资源,有确定的完成速度。而EDW提供分析环境下的查询,查询单元量较大,消耗的资源很多,完成的速度也不确定
  • ODS提供生产环境下实时性较高的生产经营报表,而EDW提供分析环境下的主题分析与挖掘报表。动态报表。
  • ODS提供面向少量维度的细粒度数据的统计,而EDW提供面向多个维度的多层粗粒度数据的主题统计、分析及深层次的挖掘。
  • ODS提供绩效管理和统计、数据质量审计和监控管理等功能。
  • EDW提供趋势分析、客户消费行为分析和评估等功能

数据存储

  • 客户等关键实体数据。ODS长久保存当前数据,EDW长久保存当前与历史数据。
  • 详单数据。ODS保存1个月到3个月;EDW保存2年。
  • 汇总数据。ODS保存3年;EDW保存5年。
  • 其他数据。ODS保存l3个月;EDW保存3年

系统技术特征

  • ODS主要面对大并发用户数、小数据量的访问,EDW主要面对小并发用户数、大数据量的访问。
  • ODS数据库优化同时侧重索引和分区技术;EDW数据库优化主要侧重分区技术。
  • ODS支持OLTP类型和OLAP(联机分析处理)类型的数据操作,EDW支持OLAP类型的数据操作。

系统可靠性

  • ODS参与运营.必须保证可靠性。
  • 相对ODS.EDW可以允许有更多的脱机时间。

系统开放性

  • 因为需要与大量不同硬件、数据库配置的系统相互交换数据。ODS要求比较高的系统开放性。
  • EDW一般只获取数据.而不提供给其他应用系统以多种模式直接访问,解决方案上也可采用相对封闭的数据库、软硬件平台

数据仓库分层

最底层的细节数据

管理策略是优化存储,一般存储导入的原始数据,便于进行向上的统计汇总,因为数据量较大所以需要优化存储

中间层是多维模型

管理策略是优化结构和查询,面向主题的多维模型的设计,需要满足OLAP和数据查询的多样需求,同时保证查询的便捷性,关键在与维表的设计和维度的选择及组合,事实表需要关注存储和索引的优化;
####最上层是展现数据
管理策略是优化效率,一般会存放每天需要展现的汇总报表,或者根据多维模型拼装的视图,展现层的数据需要以最快的速度展现出来,一般用于BI平台的Dashboard和报表。

参考资料

  1. 从概念到应用再到架构,一篇文章彻底读懂元数据管理 http://www.360doc.com/content/16/1029/08/17488509_602243527.shtml
  2. 聊一聊数据仓库中的元数据管理系统 https://yq.aliyun.com/articles/174269
  3. 浅析ODS与EDW 关系 https://www.cnblogs.com/quchunhui/articles/5340382.html
  4. 数据仓库 http://webdataanalysis.net/no-category/questions-3/

元数据及数据仓库相关概念相关推荐

  1. 数据仓库相关概念的解释

    数据仓库相关概念的解释 文章目录 数据仓库相关概念的解释 1 ETL是什么? ETL体系结构 2 数据流向 何为数仓DW 3 ODS 是什么? 4 数据仓库层DW DWD 明细层 DWD 轻度汇总层( ...

  2. mysql 数据仓库 元数据_数据仓库中的元数据管理

    1. 引言 元数据是数据仓库中的一个重要组成部分,元数据管理系统则是构建,管理,维护和使用数据仓库系统的核心部件. 2. 基础知识 2.1 元数据的定义 元数据是指来自企业内外的所有物理数据和知识,包 ...

  3. 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、

    1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...

  4. qstring 属于元数据类型吗_数据仓库的“元数据管理”

    作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...

  5. 数据仓库分层和元数据管理

    数仓的分层架构 按照数据流入流出的过程,数据仓库架构可分为三层--源数据.数据仓库.数据应用. 数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据 ...

  6. 数据仓库主题设计及元数据设计

    明确仓库的对象:主题和元数据 大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据.现阶段流行的有2种方 法,一是面向对象方法,即 ...

  7. 数据仓库与元数据管理

    数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况.随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据.数据仓库中的数据是从许多业务处理系统中抽取 ...

  8. 数据仓库-6.元数据管理

    元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一 ...

  9. 数据仓库(五)元数据管理

    概述 元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息.元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数 ...

最新文章

  1. antd 上传进度_antd vue upload组件使用customRequest上传文件显示文件上传进度
  2. STM32F103单片机系统时钟部分归纳
  3. c++获得总和S所需的最小硬币数量的函数(附完整源码)
  4. im4java开发向导
  5. java.util.concurrent 学习(一)
  6. k8s高可用集群_搭建高可用集群(初始化和部署keepalived)---K8S_Google工作笔记0055
  7. 做个插件MaterialSpinner笔记
  8. python爬虫实战——爬取猫眼电影TOP100并导入excel表
  9. VUE中使用CLodop获取打印机列表并打印表格、图片等
  10. 数据安全:Mock数据
  11. 用canvas实现一个简易的涂鸦画板
  12. 动作频频,BAT欲瓜分10万亿互联网医疗市场蛋糕?
  13. python修改游戏数据_python1.2-----pywin32模块/语音合成,窗口闪烁以及修改游戏数据的技巧...
  14. SLAM论文笔记---- FlowNet及FlowNet2.0
  15. 机器学习 入门详细解析(二)决策树、随机森林
  16. window检测到计算机,Windows检测到一个硬盘问题怎么办
  17. win10下完美卸载ubuntu
  18. 虚拟机能ping主机,主机ping虚拟机请求超时
  19. C++string:查找、替换、插入、删除等
  20. Toggle Buttons(一)

热门文章

  1. 什么是撞库及撞库攻击的基本原理
  2. “一切皆文件”是Unix/Linux的基本哲学之一。
  3. 广义矩估计的一般步骤_广义矩估计.ppt
  4. cents OS7 使用phpize安装php扩展库,生成.so文件(超详细)
  5. 花样流水灯1:查表显示LED灯(原理图+程序+仿真)
  6. C语言实现MQTT协议(一)协议讲解
  7. MQTT协议文档下载
  8. docker运行中的容器,重新打包成镜像和压缩以及解压和载入镜像
  9. 当客户说“贵”时,你该怎么办?
  10. 从统计学看线性回归(2)——一元线性回归方程的显著性检验