01 元数据的定义

元数据是指来自企业内外的所有物理数据和知识,包括物理数据的格式,技术和业务过程,数据的规则和约束以及企业所使用数据的结构。

元数据其实就是知识,包括系统,业务和市场的知识。

02 元数据的作用

元数据处于数据仓库的上层,记录数据仓库中对象的位置,是内部技术人员开发与维护数据仓库的蓝图,是业务中用户导航数据仓库以及定位有用信息的路标。

数据仓库系统获取,共享和管理元数据主要有两个目的:

1. 作为描述性信息,描述系统的结构特征和静态特征;

2. 作为控制性信息,控制并配置特定工具和进程运行,实现数据仓库管理和维护的(半)自动化管理。

元数据机制主要支持以下 5 类系统管理功能:

1. 描述哪些数据在数据仓库中;

2. 定义要进入数据仓库中的数据和从从数据仓库中产生的数据;

3. 记录根据业务事件发生而对其进行的数据抽取工作时间安排;

4. 记录并检测系统数据一致性的要求和执行情况;

5. 衡量数据质量;

元数据起到的作用

1. 用于集成各类复杂繁多的信息,是进行数据集成所必需的 ;

数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。

2. 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 ;

最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。

3. 可以支持需求动态变化,系统各项表现(界面)的灵活性;

4. 可以提高和保证数据的质量;

数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。

5. 可以支持多种工具的开发应用;

6. 提高系统的安全性;

7. 可以提高系统的智能性;

8. 元数据可以支持需求变化

随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。

03 元数据分类

05 元数据的标准化

CWM提出的背景

  • 从数据仓库开发者的角度:单一工具很少能完全满足用户不断变化的需求,但同时又很难对各种产品进行集成;

  • 从数据仓库用户的角度:面对的信息量太大,无法轻易找到自己真正需要的,而且把这些信息完整正确地表示出来也是个挑战;

  • 从数据仓库供应商的角度:目前信息的共享还没有标准格式,元数据集成的代价太大;

现在有很多数据仓库产品,它们对元数据都有自己的定义和格式,因此创建、管理和共享元数据很耗时而且容易出错。要解决上面这些问题,必须用标准的语言描述数据仓库元数据的结构和语义,并提供标准的元数据交换机制。CWM就是满足这些条件的一个规范。OMG在2000年发布了CWM规范,旨在推动数据仓库、智能商务和知识管理方面元数据的共享和交换。和OMG合作提出CWM规范的公司有:IBM,Unisys,NCR,Hyperion Solutions,Oracle,UBS AG,Genesis Development,Dimension EDI。还有一些公司明确表示支持CWM,包括:Deere & Company,Sun,HP,Data Access Technologies,InLine Software,Aonix,Hitachi, Ltd。

OMG在1995年采用了MOF(Meta Object Facility),并不断完善之。1997年采用了UML,2000年发布了公共仓库元模型 CWM (Common Warehouse Metamodel) 规范。主要目的是在异构环境下,帮助不同的数据仓库工具,平台和元数据知识库进行元数据交换。这三个标准:UML、MOF和CWM形成了OMG建模和元数据管理、交换结构的基础,推动了元数据标准化的快速发展。CWM 模型既包括元数据存储,也包括元数据交换,它是基于以下 3 个工业标准制定的。

  • UML:它定义了表示模型和元模型的语法和语义,对 CWM 模型进行建模;

  • MOF:元对象设施它是OMG 元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口为构造模型和元模型提供了可扩展的框架,并提供了存取元数据的程序接口;

  • XMI:XML元数据交换。它可以使元数据以 XML 文件的方式进行交换,大大增强了 CWM 的通用性

OMG 元数据知识库体系结构如下图所示:

OMG的元数据仓储体系结构

CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:

(1) CWM元模型(Metamodel):描述数据仓库系统的模型;

(2) CWM XML:CWM元模型的XML表示;

(3) CWM DTD:DW/BI共享元数据的交换格式

(4) CWM IDL:DW/BI共享元数据的应用程序访问接口(API)

下面重点讨论CWM元模型的组成,它与OIM规范一样,也是由很多包组成的。组成CWM元模型的包结构如图所示。

CWM元模型的包结构

CWM元模型主要包括四层:基础包Foundation,资源包Resource,分析包Analysis和管理包Management。

基础包主要定义了为CWM其它包所共享的一些基本概念和结构,它包含的子包有:

  • Business Information:定义了面向业务的通用信息,比如负责人信息等;

  • Data Types:定义了其它包用以创建自己所需的数据类型的元模型组件;

  • Expressions:定义了CWM其它包定义表达式树所需的元模型组件;

  • Keys and Indexes:定义了描述关键字和索引的共享元模型;

  • Software Deployment:描述一个软件在数据仓库中如何被使用的元模型;

  • Type Mapping:支持不同系统之间数据类型的映射的元模型;

资源包主要定义了一些描述常用的数据源/目标的元模型,它包含的子包有:

  • Relational:描述通过关系型接口访问的数据库的数据模型和元模型,比如RDBMS,ODBC,JDBC等;

  • Record:描述记录的基本概念和结构的元模型,这里记录的概念很广泛,它可以描述任何结构化的信息,比如数据库的一条记录、文档等;

  • Multidimensional:描述多维型数据库的元模型;

  • XML:描述用XML表示的数据源和数据目标;

分析包主要定义了一些描述数据仓库工具的元模型,它包含的子包有:

  • Transformation:定义数据仓库中抽取转换规则的元模型,它包含对各种类型数据源之间的转换规则的描述;

  • OLAP:对OLAP工具和应用进行描述,并定义了它到实际系统的映射;

  • Data Mining:对数据挖掘工具和应用进行描述;

  • Information Visualization:定义了问题领域中有关信息发布或者信息可视化的元模型;

  • Business Nomenclature:对业务数据进行描述,比如业务术语及其适用范围等;

管理包主要定义了一些描述数据仓库运行和调度信息的元模型,它包含的子包有:

  • Warehouse Process:描述数据仓库中抽取转换规则的执行过程,也就是各个转换规则的触发条件;

  • Warehouse Operation:描述数据仓库日常运行情况的元模型;

06 元数据管理系统的设计原则 

数据仓库环境下的元数据管理系统的建设是十分困难的。但是在实际项目的实施过程中,这个环节又是非常重要的。当前情况下,我们认为OMG组织的CWM标准将会成为数据仓库元数据领域事实上的标准,在元数据管理系统的建立过程中应尽量参考这个标准,这样使系统的可扩展性增强。可是在与之相关的工具成熟之前,我们完全可以采用OIM中的元模型(因CWM对OIM是兼容的)以及支持它的元数据管理工具进行元数据管理系统的建设,而且元数据所包含的范围很广。我们在建立元数据管理系统的时候,绝对不能盲目追求大而全,要坚持目标驱动的原则,在实施的时候要采取增量式、渐进式的建设原则。具体的建设步骤如下:

(1)如果是在建设数据仓库系统的初期,那么首先要确定系统的边界范围,系统范围确定的原则是首先保障重点,不求大,只求精。

(2)系统边界确定以后,把现有系统的元数据整理出来,加入语义层的对应。然后存到一个数据库中,这个数据库可以采用专用的元数据知识库,也可以采用一般的关系型数据库。

(3)确定元数据管理的范围。比如,我们只想通过元数据来管理数据仓库中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。

(4)确定元数据管理的工具,采用一定的工具可以完成相应的工作。当前相关工具有微软的Repositry,它带有相应的编程接口,可以借助于它来完成元模型出入库的功能;与之相似的还有Platinum的OEE;另外还有Sybase的Wcc,它可以通过MDC以前的一个老标准――MDIS来集成抽取工具与转换工具,在一个窗口中就可以表示数据抽取与转换,并且可以把语义层以MDIS的格式导出到一个前端工具当中(比如Cognos的Improptu)。

07元数据管理的策略

要进行成功的元数据集成,必须建立一个一致且合理的管理策略,共享和重用指定目标和需求。

全局安全策略。

元数据是一个具有高敏感性和战略价值的信息财富,必须包含一个全面的安全策略来保证元数据得到充分保护。

对每个元数据元素语义的一致理解

软件组件所用到的每一种元数据元素的语义必须存在一致,这直接影响到元数据的共享和重用。

每个元数据的所有权。

必须确定哪些个体或哪些组件是一个特定元数据元素的最终所有者。要确保元数据的所有权最终属于元数据的,主要项目相关人员,而不是属于数据仓库的技术管理员或者开发者。

元数据元素的版本控制。必须为被管理的元数据设立专门的版本控制规则。

08 元数据管理产品设计

元数据管理的应用通常一款元数据管理工具应具备元模型设计、元数据采集、元数据分析、数据地图展现等核心功能。元数据包括:元模型、元数据采集、元数 据注册、元数据应用、元数据服务等;

8.1 架构设计

数据源层 

数据源层是指元数据管理平台所支持的元数据来源的方式。提供直连多种不同类型的数据源,包括:数据库类型、ETL 类型、文件类型、业务系统类型等。

采集层

采集层针对不同数据源提供丰富的适配器,实现端到端的自动化采集。具体包括:sqlserver、oracle、mysql、postgresql、petabase、ODI、Excel等。同时支持适配器扩展,实现最大限度的自动化采集。

数据层

元数据数据层是基于关系数据库的元数据存储,用于实现元数据和元模型的数据 的物理存储。元模型存储了元数据的属性要求和存储格式要求。元数据存储了从各个 系统中采集而来的元数据信息。

功能层

元数据功能层提供了元数据管理产品的基本功能,包括元模型增删改查及版本发 布功能、元数据增删改查及版本管理、元数据变更管理、元数据分析应用、元数据检 核以及产品的系统管理功能。其中元模型管理模块用于操作元模型,元模型是对各个种类元数据以及元数据之 间关系的定义,元模型包括两部分:一部分由元数据管理平台产品内置的标准元模型, 另一部分是用户根据管理需求自定义的元模型。元模型管理还设计了发布功能,只有 在发布之后才会生效,使用户在设计元模型时,不会影响到元数据的使用。元数据管理主要包括了元数据增删改查日常维护,版本管理,元数据全文检索。元数据分析应用主要包括了血缘分析、影响分析、关联度分析、数据地图等多种 图形化分析应用,并提供导出和收藏功能,将分享结果进行留档。元数据检核包括一致性检核、属性填充率检核和组合关系检核,是保障元数据质 量的重要手段之一系统管理功能包括了机构用户角色的权限管理、系统备份恢复、门户应用、日志 管理、系统监控等系统运维相关的功能。

访问层

元数据访问层用于给用户提供访问控制服务。元数据产品面向的主要用户群有三 类:技术设计人员、业务分析人员、以及系统的运维人员。通过门户访问和后台访问, 可以实现多种角色的访问控制。同时访问层还提供了多种形式的接口服务,可以很方 便的与其它 IT 系统进行集成。

8.1 元数据采集服务:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑;数据管理平台内置多种采集适配器,支持多种存储格式的元数据自动获取,如:数据库、报表工具、ETL工具、文件系统等,同时无法完成自动获取的元数据,提供了可自定义的元数据采集模版完成元数据的批量导入。

8.2 元数据访问服务:元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

8.3 元数据管理服务:实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。数据管理平台提供各类元数据管理,包括:业务元数据、技术元数据和管理元数据,支持元数据的基本信息、属性、依赖关系、组合关系的增删改查操作。最新元数据和定版元数据隔离,在最新元数据中的改动不影响定版元数据的正常使用,同时每次发布都有版本留痕,支持各版本的对比分析。

8.4 元数据分析服务:元数据的应用一般包括数据地图,数据的血缘、影响分析,全链分析等;元数据管理平台提供了丰富的元数据分析功能,包括血缘分析、影响分析、全链分析、关联度分析、属性值差异分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。

血缘分析:告诉你数据来自哪里,都经过了哪些加工。

影响分析:告诉你数据都去了哪里,经过了哪些加工。

冷热度分析:告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。

关联度分析:告诉你数据和其他数据的关系以及它们的关系是怎样建立的。

数据资产地图:告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。

09 项目上应用

  1. 在增加数据源后会定期或者手工进行元数据采集;

  2. 在数据源更新或者数据资源更新进行元数据采集;

  3. 库表导入或导出对数据元模型正向或反向操作;

  4. 做数据探查会对元数据访问;

  5. 数据溯源或数据血缘

  6. 库库对比

  7. 库表分析

推荐阅读:
世界的真实格局分析,地球人类社会底层运行原理不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)企业IT技术架构规划方案论数字化转型——转什么,如何转?华为干部与人才发展手册(附PPT)企业10大管理流程图,数字化转型从业者必备!【中台实践】华为大数据中台架构分享.pdf华为的数字化转型方法论华为如何实施数字化转型(附PPT)超详细280页Docker实战文档!开放下载华为大数据解决方案(PPT)

数据管理之元数据管理相关推荐

  1. 元数据管理、治理、系统、建设方案、范例等

    [数据治理工具]–元数据系统 1.元数据系统 1.1 概述 如果想建设好元数据系统,需要理解元数据系统的相关概念,如数据.数据模型.元数据.元模型.ETL.数据血缘等等. 首先,要清楚数据的定义.数据 ...

  2. 《DAMA数据管理知识体系指南》读书笔记-第十二章(元数据管理)

    目录 一.前言 二.内容结构 三.主要内容 1.引言 2.活动 3.工具 4.方法 5.实施指南 6.元数据治理 四.思考与总结 一.前言 本文是<DAMA数据管理知识体系指南>第12章的 ...

  3. 数据治理系列(一):元数据管理 、数据血缘数据管理:

    一.什么是元数据管理? 为什么企业对自身内部的数据资产总是混沌不清?其实是缺少一种有效的工具来进行数据资产的梳理和盘点.而元数据管理工具就是一种有有效的盘点工具或手段.  元数据是企业中用来描述数据的 ...

  4. 深度 | 面向云原生数据湖的元数据管理技术解析

    简介: 作者:沐远.明惠 背景 数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金.一些企业已经 ...

  5. 元数据管理——企业数据治理的基石

    ​数字化时代,不少企业开始数字化转型,开始收集整理数据,但在使用途中,通常会发生数据泄露,安全没办法得到保障:数字管理混乱,查找困难,无效失效数据偏多:数据流程复杂,流程不畅,无法有效赋能业务. 这些 ...

  6. 学习笔记2 - 利用元数据管理数据质量

    大数据Clouder:利用元数据管理数据质量 元数据 ①定义:元数据(Metadata),又称中介数据.中继数据,为描述数据的数据(data about data),主要是描述数据属性(propert ...

  7. 一文读懂元数据管理!

    原文:一文读懂元数据管理! - 知乎 数字化时代,企业需要知道他们拥有什么数据,数据在哪里.由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于 ...

  8. 数据治理:元数据及元数据管理策略、方法和技术

    导读:这篇文章来自笔者的<一本书讲透数据治理:战略.方法.工具与实践>,可能是电子版流出,不知被哪位大佬摘录到公众号上了.在公众号搜索了下,这篇文章还挺受欢迎,多个数据类公众号都转载了,全 ...

  9. 元数据管理-技术元数据解决方案

    ​前言 概念 元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务.结构.定义.存储.安全等各方面对数据的描述 元数据是数仓 ...

  10. 元数据管理工具Atlas学习笔记之集成

    文章目录 背景 环境 Atlas安装 solr Atlas Atlas启动 启动Hadoop.ZooKeeper.HBase.Kafka.Hive和MySQL Hadoop 启动ZooKeeper 启 ...

最新文章

  1. LeetCode简单题之查找共用字符
  2. Android EditText的光标的显示与隐藏
  3. 解决getOutputStream() has already been called for this response[java io流]
  4. 路易斯·罗森伯格与「群体智能」
  5. 【 FPGA 】序列检测器的Mealy状态机实现
  6. C语言字符糊到了一起,C语言速成及格课.docx
  7. NVIDIA Jetson Xavier NX设备上使用jtop监控GPU、CPU、内存等的使用
  8. 【渝粤教育】广东开放大学 财政学 形成性考核 (43)
  9. .NET混淆器 Dotfuscator如何保护应用程序?控制流了解一下!
  10. (王道408考研操作系统)第一章计算机系统概述-第一节5:系统调用
  11. 华为hg-526拨号加路由破解简介
  12. mysql中添加字段
  13. QGraphicsView 如何实现百度地图按照鼠标点进行放大缩小效果
  14. 硕士阶段学习情况汇总
  15. 云主机、云服务器、VPS的区别性能比较
  16. 给幼儿园小朋友看的网络安全扫盲篇
  17. 公安计算机保密整改落实情况报告,2017年保密工作整改情况报告
  18. 【数字逻辑】——逻辑函数及其简化(学习笔记)
  19. 【每天一个Python小知识】NumPy中的np.any
  20. 数据智能架构的度量标准

热门文章

  1. eclipse安装yuicompressor插件
  2. CATIA VBA二次开发介绍
  3. Camtasia实用技巧之画布操作
  4. 李践《行动日志——目标管理》观后感
  5. navicat导入sql语句
  6. OpenCv中 width 和 widthStep的区别
  7. java 登录md5加密_javaMD5加密及登录验证(备忘)
  8. 如何使用Arduino开发板和ADXL345加速度计跟踪方向
  9. 韦东山嵌入式linux驱动开发,学习嵌入式Linux开发——韦东山升级版全系列嵌入式视频之总线设备驱动模型代码分析...
  10. IDEA JetBrains Mono 字体安装