导读:元数据是数据的“说明书”,完善的元数据有利于数据使用者了解企业有什么数据,它们分布在哪里,数据的业务含义是什么,数据口径及颗粒度是怎样的,需要使用数据时应该向谁提出申请,以及如何获取数据。

元数据管理工具是企业数据治理的重要抓手,它可以帮助企业解决数据查找难、理解难等问题,促进数据的集成和共享。

01

系统架构

从应用角度看,元数据管理平台可分为数据源层、元数据采集层、元数据管理层、元数据应用层四层架构,如图1所示。

1. 数据源层

企业的元数据来自多个方面:

  • 业务系统中的元数据,例如ERP、CRM、SCM、OA等;

  • 数据管理平台中的元数据,例如数据仓库、ODS、数据湖等;

  • 数据处理工具中的元数据,例如ETL工具的脚本元数据;

  • 数据分析工具中的元数据,例如Cognos、Power BI中的元数据;

  • 各种半结构化数据源,例如Word、PDF、Excel等各种格式化电子文件。

2. 元数据采集层

元数据管理工具是否强大部分体现在其对各类数据源的采集能力上,支持的各类数据源类型越多,说明元数据采集能力越强大。

图1 元数据管理平台

元数据采集层主要通过对各类数据源的适配,实现元数据的统一采集,并将其存储于符合CWM标准的中央元数据仓库中。

3. 元数据管理层

元数据管理层提供了对元数据的管理、维护、查询功能,包括元数据查询、元数据管理、元数据版本管理、元数据变更管理、元数据适配器管理等。

4. 元数据应用层

元数据应用层提供了元数据的浏览和分析功能,包括企业数据地图、元数据血统分析、元数据影响分析、元数据冷热度分析、元数据全链分析、元数据模型查询等功能。元数据管理工具可以指导企业数据资产管理的建设,支持数据质量的探查,促进企业数据标准的落地。

02

元数据采集

通过元数据管理平台可以将分散、异构的信息资源进行统一采集、描述、定位、检索、评估、分析,实现数据的结构化,为机器处理创造可能,从而大大降低数据治理的人工成本。

1. 采集内容

元数据采集内容主要包括业务元数据、技术元数据和操作元数据,详细说明见表1。

表1 元数据采集内容说明

2. 采集方式

元数据采集方式主要有两种:自动化采集和人工采集。

(1)自动化采集

自动化采集主要是通过元数据管理工具提供的各类适配器进行元数据采集。元数据适配器是基于不同数据源的元数据桥接器,不同数据源内部的元数据桥是不同的,因此没有一个万能适配器可以用于所有类型数据源的元数据采集。

当前MySQL、Oracle、PostgreSQL等关系型数据库的元数据采集方式大都是通过JDBC连接各种数据源的元数据所在库,然后通过SQL的方式查询各数据源的元数据库表,提取出元数据信息。JDBC就是关系型数据库的一个桥接器。

而对于一些半结构化、非结构化元数据,则需要用到图像识别、自然语言处理等人工智能技术,构建专业的元数据采集适配器,进行元数据的识别和采集。

在元数据采集过程中,元数据采集适配器十分重要,元数据采集既要适配各种DB、各类ETL、各类数据仓库和报表产品,还要适配各类结构化或半结构化数据源。元数据采集适配器可以通过自动化的方式对企业各类数据源的元数据进行统一采集、统一管理。

(2)人工采集

在元数据管理实践中,最难采集的往往不是技术元数据或操作元数据,而是业务元数据。由于企业缺乏统一的数据标准,业务系统竖井化建设,系统建设过程中没有对业务元数据进行统一定义,所以即使通过元数据适配器将业务系统的技术元数据采集到元数据仓库中,也很难识别这些表、视图、存储过程、数据结构的业务含义。这就需要采用人工的方式对现有数据的业务元数据进行补齐,以实现元数据的统一管理。

03

元数据管理

1. 元数据管理功能

市场上主流的元数据管理产品基本都包括元数据查询、元模型管理、元数据维护、元数据变更管理、元数据版本管理、采集适配器管理、元数据接口等功能。

  • 元数据查询:支持按关键字的全文搜索,通过元数据查询功能可以准确定位元数据。

  • 元模型管理:基于元数据管理工具构建符合CWM规范的元数据仓库,实现元模型统一、集中化管理,支持元模型导入与导出,支持新增、修改、权限设置等功能。

  • 元数据维护:提供对信息对象的基本信息、属性、被依赖关系、依赖关系、组合关系等元数据的新增、修改、删除、查询、发布等功能,以管理企业的数据标准。

  • 元数据变更管理:元数据的变更需要经过审核才能发布,元数据管理工具提供元数据审核、元数据版本等功能,以支撑元数据的变更管理。

  • 元数据版本管理:提供元数据的版本管理功能,对于元数据新增、修改、删除、发布和状态变更都有相应的流程,同时支持元数据版本的查询、对比、回滚。

  • 采集适配器管理:提供元数据采集适配器的新增、修改、删除、配置等功能。

  • 元数据接口:元数据管理工具提供统一的元数据访问接口服务,一般支持REST或Web Service等接口协议。通过元数据访问服务,支持企业元数据的共享。

2. 元数据分析功能

元数据分析功能包括数据资源地图、血缘分析、影响分析、冷热度分析、关联度分析、对比分析等。

  • 数据资源地图:基于企业元数据生成并以拓扑图的形式展示企业数据资源的全景地图,方便用户清晰直观地查找和浏览企业数据资源。

  • 血缘分析:也叫血统分析,采用向上追溯的方式查找数据来源于哪里,经过了哪些加工和处理。常用于在发现数据问题时,快速定位和找到数据问题的原因。

  • 影响分析:功能与血缘分析类似,只是血缘分析是向上追溯,而影响分析是向下追踪,用来查询和定位数据去了哪里。常用于当元数据发生变更时,分析和评估变更对下游业务的影响。

  • 冷热度分析:也叫活跃度分析,用于评估哪些数据是常用的,哪是数据是“沉睡”的。

  • 关联度分析:分析不同数据实体之间的关联关系,从而判断数据的重要程度。

  • 对比分析:对于选定的多个元数据或者一个元数据的多个版本进行比较,找出差异,再根据差异分析对业务的影响。

04

元数据应用

元数据是描述数据的数据,它可以帮助描述、理解、定位、查找企业的数据,支持数据的管理和使用。元数据不仅是数据治理的基础,而且在应用系统开发、数据仓库建设过程中也发挥着重要作用。

1. 元数据在数据治理中的应用

元数据管理是数据治理的基础,它用于定义和描述数据、数据之间的关系,以及数据如何管理、如何使用。元数据在数据治理中的主要应用如下:

  • 定义和描述业务域、业务主题和数据实体;

  • 描述数据结构和数据关系;

  • 描述源系统、目标系统、表、视图、存储过程和字段属性;

  • 定义和描述数据资产目录;

  • 定义和描述主数据模型的属性;

  • 管理数据标准;

  • 描述数据质量规则和数据质量检核结果;

  • 识别和定义数据集中的敏感数据、敏感属性;

  • 血缘分析和影响分析;

  • 描述数据流向,数据来自哪里、流向哪里;

  • 描述数据管理,谁负责管理数据、在哪里管理;

  • 描述数据的使用,谁有权使用数据、在哪里使用。

2. 元数据在应用系统开发过程中的应用

应用系统的开发一般需要3个环境:开发环境、测试环境和生产环境。在应用系统开发上线的过程中,经常会遇到在开发环境测试没有问题的应用系统,集成到测试环境中或迁移到生产环境中就会出现问题,例如SQL脚本执行不了,缺少数据表或视图,依赖的非空字段数据缺失,或者主外键关系、索引不正确等。

针对以上问题,元数据管理工具提供了一个行之有效的破解之法,如图2所示。

图2 元数据在应用开发过程中的应用

1)通过元数据管理工具对应用系统所涉及的数据模型、库表结构进行规划设计,落地系统级逻辑模型。

2)基于反向工程将元数据管理工具中的数据模型导入应用系统的开发、测试、生产等环境中,应用系统的开发可以在元数据管理工具提供的数据模型基础之上构建物理库表。

3)通过元数据管理工具自动化采集开发、测试、生产三个环境的库结构、表结构、字段结构、视图与存储过程结构等元数据。

4)在应用系统开发过程中,从开发到测试部署之前,通过元数据管理工具的对比分析功能,迅速找到开发和测试环境中不一致的地方,支持在测试环境快速部署应用系统,并确保数据环境的一致性。

同理,应用系统在生产环境中的部署和运行也可以采用第4)步,以确保生产环境与开发、测试环境一致,支持应用系统的快速上线。

3. 元数据在数据仓库中的应用

数据仓库是用于数据分析、支持管理决策的系统。一个数据分析图表的诞生并不是一帆风顺的,需要经过多次的数据抽取、清洗、转换、汇总,才能将数据的结构、数据依赖关系、数据层次关系等理清晰,统一数据口径,将复杂的问题简单化,让设计者和使用者明确感知到数据的整个生命周期,以支持数据分析。

数据仓库是一个典型的分层设计的数据架构,其分层设计反映了数据在数据仓库中的加工处理过程。元数据作为数据仓库的核心组成部分,主要用于记录和管理数据在数据仓库中的整个流转过程,实现对数据仓库各层级数据进行统一管理,如图3所示。

图3 元数据在数据仓库中的应用

元数据在数据仓库中的应用如下:

  • 描述数据源的库表结构、数据关系以及每个数据项的定义;

  • 描述数据源中每个数据项的值域范围和更新频率;

  • 描述数据源与数据仓库之间的数据映射关系;

  • 描述数据仓库中有哪些数据以及它们来自哪里;

  • 描述数据在数据仓库各层中的加工处理过程;

  • 元数据管理工具为数据管理者和使用者提供了理解和查询数据的一致语言;

  • 利用元数据管理工具的元数据变更和版本管理功能,管理数据仓库的数据模型,支持将元数据恢复到某一版本;

  • 利用元数据管理工具的血缘分析、影响分析等功能,对数据仓库中的数据问题快速定位、快速查找;

  • 利用元数据管理工具的开放式元数据交换标准,实现数据仓库中数据的交换和共享。

05

总结

元数据管理工具提供了可靠、便捷的工具,能够对企业分散的元数据进行统一、集中化管理,帮助企业绘制数据地图、统一数据口径、标明数据方位、控制模型变更。利用元数据管理工具可以更好地获取、共享、理解和应用企业的数据信息,降低数据集成和管理成本,提高数据资产的透明度。

关于作者:

罗小江,用友集团助理总裁、平台和数据智能事业部总经理、北京软件和信息服务业协会云计算专委会副会长、中国企业财务管理协会企业风险管控专业委员会副主任委员。

石秀峰,用友集团数据治理专家、中国电子商会数据资源服务创新专业委员会受聘专家、数据质量管理智库(DQPro)受聘专家。

本文摘编于《一本书讲透数据治理:战略、方法、工具与实践》,经出版方授权发布。(ISBN:9787111694489)转载请保留文章出处。

推荐阅读《一本书讲透数据治理》

转载请联系:zj06220_0

推荐理由:本书基于国际主流的数据治理框架和用友多年的数据治理经验,从道、法、术、器4个维度全面、深入展开,不仅有数据治理在战略层面的顶层设计,还有数据治理在执行层面的实施方法,既可以作为数据治理的纲领性指南,又可作为数据治理的实操手册。

一年一度的423读书日就要来了,华章科技在此期间为您带来7场不同主题的技术干货直播,直播内容及观看方式请点击上方链接查看。

更多精彩回顾

书讯 | 4月书讯(上)|  上新了,华章

书讯 | 4月书讯(下)| 上新了,华章

资讯 | 视频时代的大数据:问题、挑战与解决方案

书单 | 金三银四求职季,十道腾讯算法真题解析!

干货 | TypeScript 中的“类型”到底是个啥?

收藏 | 终于有人把Scrapy爬虫框架讲明白了

上新 | NLP大牛菲利普•科恩机器翻译权威著作

赠书 | 数字经济下半场中,金融企业应该如何进行数字化经营呢?

点击阅读全文购买

终于有人把元数据讲明白了相关推荐

  1. 终于有人把“人工智能”讲明白是怎么回事了!

    我们正站在变革的边缘,而这次变革将和人类的出现一般意义重大 – Vernor Vinge.如果你站在这里,你会是什么感觉? 看上去非常刺激吧?但是你要记住,当你真的站在时间的图表中的时候,你是看不到曲 ...

  2. 终于有人把数据仓库讲明白了

    作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 数据仓库是一个面向主题的.集成的.随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程.数据仓库的主要功能如下: 建立 ...

  3. 终于有人把赌徒谬误讲明白了

    导读:有个 倒霉孩子 打工人叫小明,去年的五一.端午.十一和今年的清明假期,小明都被老板叫去加班了.如今,老板还是那个老板,小明还是那个小明.小明却想,我都中枪那么多次了,今年五一总该轮不到我了吧? ...

  4. 终于有人把Embedding讲明白了

    导读:如果要总结深度学习大获成功的原因,那至少有两样东西必须入选:一样当然是很"深"的神经网络模型,这也是深度学习的"深度"的由来,另一样就是Embedding ...

  5. 终于有人把SaaS讲明白了

    导读:本文通过回顾SaaS的演进过程,帮助读者了解SaaS如何从一种服务托管技术和按需使用模式,发展成为今天企业服务的主流形式. 作者:代珂 来源:大数据DT(ID:hzdashuju) 01 Saa ...

  6. 每日一书丨终于有人把Embedding讲明白了

    导读:如果要总结深度学习大获成功的原因,那至少有两样东西必须入选:一样当然是很"深"的神经网络模型,这也是深度学习的"深度"的由来,另一样就是Embedding ...

  7. 终于有人把计算机视觉讲明白了 。。。

    机器学习是目前比较热门的技术,包含深度学习.强化学习.对抗学习.对偶学习.迁移学习.分布式学习.以及元学习等内容.得益于大数据.大模型.大计算的发展,深度学习在计算机视觉.语音处理.自然语言方面相继取 ...

  8. 终于有人把计算机视觉讲明白了

    在人工智能机器学习的领域中,目前最火的莫过于计算机视觉了,这项技术一直广受关注,而其中的目标检测是计算机视觉领域中最常见的问题之一. 从去年的 YOLOv4 发布后,目标检测框架被问的最多的问题就是: ...

  9. 终于有人把Knative讲明白了

    导读:Knative是Google在2018的Google Cloud Next大会上发布的一款基于Kubernetes的Serverless框架. 作者:刘宇 来源:大数据DT(ID:hzdashu ...

  10. 终于有人把线性回归讲明白了

    来源:大数据DT本文约1900字,建议阅读5分钟 本文将介绍什么是回归问题.解决回归问题的基本思路步骤和用机器学习模型解决回归问题的基本原理,以及如何用线性模型解决回归问题. 00 线性回归:&quo ...

最新文章

  1. 我写的代码,又被CTO骂了......
  2. SAP MM 公司间STO发货单输出报错 - 合并工厂AUC1和存储位置6002没有货物收货地点 - 之对策
  3. 7-2 城市间紧急救援 (25 分)
  4. java中的字符,字符串,数字之间的转换
  5. 使用Disentangling形式的损失函数回归2D和3D目标框
  6. 月入10w+的offer,变成了整容、传销、网红届的韭菜
  7. scrapy commandline
  8. SAP License:ERP咨询顾问之路
  9. 项目初始阶段、项目立项
  10. kpw4换壁纸_发挥全部潜能,Kindle越狱指南
  11. kali攻击139端口_简易入侵139端口
  12. java 上传图片 并压缩图片大小
  13. vue中views新建文件夹的代码规范
  14. Linux Regulator Framework(2) - regulator driver
  15. 线程的同步和异步理解
  16. 【教程】Ubuntu20.04 + VirtualBox 各种软件环境安装
  17. 系列九、vue中css样式字体设置为华文行楷
  18. 2011年养成的一个工作习惯
  19. 前端实现图片快速反转替换_在canvas上实现元素图片镜像翻转动画效果的方法
  20. 50070无法访问的问题的排除

热门文章

  1. 01-快速入门webpack模块化打包工具
  2. unlink函数 与 remove函数
  3. 分布式文件存储:FastDFS简单使用与原理分析
  4. Mac Mini搭载苹果自研M1芯片 Mac Mini详细评测
  5. 25种提高网页加载速度的方法和技巧
  6. 分布式时序数据库作为工业物联网数据后台的7大优势
  7. 【论文阅读】Deep Learning for Encrypted Traffic Classification: An Overview(深度学习方法进行加密流量分类综述)
  8. 品牌笔记本预装windows的OEM分区解决方案(联想)
  9. 不在 sudoers 文件中。此事将被报告。
  10. Teredo Tunnel Adapter: Error Code 10