一、什么是元数据

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数据组即可被称为元数据。业务含义、统计口径、数据来源、计算逻辑等就是元数据。

现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。

二、元数据的组成

元数据贯穿整个数据仓库,根据情况可以分为三种:业务元数据、技术元数据和管理元数据。

1、业务元数据

业务元数据描述数据的业务含义、业务规则等。通过明确业务元数据,让人们更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。

常见的业务元数据有:

  • 业务定义、业务术语解释等;

  • 业务指标名称、计算口径、衍生指标等;

  • 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;

  • 数据的安全或敏感级别等。

2、技术元数据

技术元数据是对数据的结构化,方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

常见的技术元数据有:

  • 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;

  • 数据存储类型、位置、数据存储文件格式或数据压缩类型等;

  • 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;

  • 调度依赖关系、进度和数据更新频率等

3、管理元数据(操作元数据)

管理元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于数据管理责任到部门和个人,是数据安全管理的基础。

常见的操作元数据有:

  • 数据所有者、使用者等;

  • 数据的访问方式、访问时间、访问限制等;

  • 数据访问权限、组和角色等;

  • 数据处理作业的结果、系统执行日志等;

  • 数据备份、归档人、归档时间等

三、如何建设数据仓库元数据管理?

由于元数据包含极广,我们在建立元数据管理系统的时候,绝对不能盲目追求大而全、一步到位,要坚持目标驱动的原则,在实施的时候要采取增量式、渐进式的建设原则。具体的建设步骤如下:

  1. 在建设数据仓库系统的初期,只需确定源系统的元数据构成和 数仓我们想要实现的元数据内容:比如,我们只想通过元数据来管理数据仓库中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。

  1. 确定源系统和元数据构成后,先将源系统的元数据整理并记录,可以用文档记录;也可以存入关系型数据库中。

  1. 随着数据仓库系统的建设,逐步将需要的元数据补充录入——例如 DM 的语义层、ETL 的同步规则。

  1. 数据仓库建设完成后,对元数据进行结构化、标准化储存。

总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原则,建立符合自身目标的元数据管理系统。

四、元数据的应用场景

1、数据资产地图

按数据域对企业数据资源进行全面盘点和分类,并根据元数据字典自动生成企业数据资产的全景地图。该地图可以告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。

数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的图形查询和辅助分析需要。

整体可以分为三部分

第一部分汇总库、表的数量,自己负责和有权限的表的数量等等。

第二部分,展示这个库下所有表的情况。包括表名、数据量、更新时间、最近使用次数等,

第三部分,展示所有表的技术、业务的元数据。包括描述、负责人、大小、分区数、建表和更新时间、最近使用次数、变更记录、使用记录等。

2、血缘分析

元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。

基于血缘关系可以做很多事情,例如:

1、结合任务完成时间,根据路径,定位性能瓶颈,调节任务时间以便更好的调节性能;

2、设计监控,当表出现变更时,可以通知任务负责人;

3、方便管理表,可以快速找到没有被使用的表; 数据生命周期管理

4、辅助维护字段的一致性,如注释、校验规则复用。

3、元数据影响分析

元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。

4、元数据冷热度分析

元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。

5、元数据关联度分析

元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的关联情况等,从而进一步了解该实体的重要程度。

6. 元数据接口

建立元数据查询、访问的统一接口规范,以将企业核心元数据完整、准确地提取到元数据仓库中进行集中管理和统一共享。

元数据接口规范主要包括接口的编码方式、接口响应、接口协议、接口安全、连接方式、技术实现、调用方式、报文格式等方面的内容。

五、总结

元数据管理系统,是对一家公司数据更高的考验,想要搭建成功,至少满足以下条件:

  1. 整个公司数据的集成——数据仓库的搭建

  1. 整个公司业务流程的完善——"业务中台"的实现

  1. 整个公司技术开发的统一——"技术中台"的实现

如果说数据仓库是数据的集成,那元数据管理系统就是整个公司业务、技术、管理的统一。

六、面试

数据治理有参与吗?你们公司的元数据是怎样进行管理的?

基于Hive元数据做了可视化,用于整理数据链路,方便查询表的结构,字段流向,以及口径,权限等问题

数据仓库-元数据管理相关推荐

  1. 数据仓库-数据仓库元数据管理

    目录 数据仓库元数据管理 数据仓库元数据管理 元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及ETL的任务运行状态.一般会通过元数据资料库(Me ...

  2. qstring 属于元数据类型吗_数据仓库的“元数据管理”

    作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...

  3. 数据仓库与元数据管理

    数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况.随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据.数据仓库中的数据是从许多业务处理系统中抽取 ...

  4. mysql 数据仓库 元数据_数据仓库中的元数据管理

    1. 引言 元数据是数据仓库中的一个重要组成部分,元数据管理系统则是构建,管理,维护和使用数据仓库系统的核心部件. 2. 基础知识 2.1 元数据的定义 元数据是指来自企业内外的所有物理数据和知识,包 ...

  5. 数据仓库-6.元数据管理

    元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一 ...

  6. 数据仓库(五)元数据管理

    概述 元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息.元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数 ...

  7. 学习笔记2 - 利用元数据管理数据质量

    大数据Clouder:利用元数据管理数据质量 元数据 ①定义:元数据(Metadata),又称中介数据.中继数据,为描述数据的数据(data about data),主要是描述数据属性(propert ...

  8. 【收藏】关于元数据(Metadata)和元数据管理,这是我的见过最全的解读!

    本文主要从元数据的定义.作用.元数据管理现状.管理标准和元数据管理功能等方面讲述了我对元数据(Metadata)和元数据管理的认知及理解. 元数据管理 一.元数据的定义 按照传统的定义,元数据(Met ...

  9. 《DAMA数据管理知识体系指南》读书笔记-第十二章(元数据管理)

    目录 一.前言 二.内容结构 三.主要内容 1.引言 2.活动 3.工具 4.方法 5.实施指南 6.元数据治理 四.思考与总结 一.前言 本文是<DAMA数据管理知识体系指南>第12章的 ...

最新文章

  1. catkin_make后输出:No module named ‘catkin_pkg‘
  2. html工具提示错误,HTML-KickStart工具提示错误
  3. 做一个p2p打洞的C#程序
  4. Mongodb数据库初识
  5. iphone打字怎么换行_库克扎心!12年iPhone老用户换机小米10 Pro,每天玩机七八小时...
  6. 对seq2seq的一些个人理解
  7. SpringBoot+Vue 完整的外卖系统,手机端和后台管理,可以玩一下!
  8. 微软按月收费桌面计划,Win 10 将变成 Win 365?
  9. 如何安装和_彻底卸载MySQL
  10. 2022-2028年中国差旅管理行业市场行情动态及投资潜力研究报告
  11. PHP常用代码大全(新手入门必备)
  12. SQL基础教程学习第一站:PostgreSQL下载安装以及如何创建并登录数据库
  13. python 频数分布,频率分布
  14. logN²是O(N)的
  15. android10开发io接口,Android Things:外设I/O接口-GPIO
  16. 算法练习(21):Frog Jump
  17. 歪唱《七里香》——致敬杰伦
  18. 微信小程序的常见的面试题(总结)
  19. tushare单个股票过去五年的数据整理与预测
  20. 国人网页设计应该使用什么样的英文字体容易识别呢?

热门文章

  1. Mysql忘记密码和密码重置
  2. 小米要进军房地产?雷军花26亿拿下北五环外地块
  3. 教你一个命令强制清理(DNS)缓存方法
  4. Http、Ftp、SQLServer默认的端口号是多少?
  5. E4A第三期-内网聊天软件
  6. 婴儿游泳馆引流最新最快的三个方法
  7. leetcode:356. 直线对称
  8. 【Spring】AOP面向切面编程(Spring4和Spring5区别)
  9. 加油站的智慧转型,你感受到了吗?
  10. HCIP-datacom