[转载] http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm

在数据资产管理领域,有着许多相似的概念和词汇。譬如说“数据管理”和“数据治理”,像孪生兄弟一样让人纠结不已。上周,与一个朋友聊起元数据、主数据和参考数据的关系是什么。这个话题我们足足聊了二十分钟。这三个概念我在一开始做数据管理相关工作的时候也纠结了挺久,于是我根据聊起来的内容稍稍总结了一下,就有了这篇文章,希望能给读者减少些许疑惑。

1、假设场景

我们的假设场景先是这样的,现在正在为中国地理协会设计一个中国地理信息系统(当然真实的地理信息系统不会是这样,都说只是假设一下)。我现在正设计到“地市”这个对象。常说“千言万语不及一图”,这三者的关系咱们先上图。

2、元数据--数据的数据

元数据(meta-data)是描述企业数据的相关数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述。

例如在假设场景中,我们设计了地市表的数据模型(如上图红色框里面表示),地市表这个实体的数据模型如何进行定义正是元数据所关心的范畴。

元数据可以说是企业的数据地图,它直接反映了企业中有什么样的数据,数据是如何存放的,例如,数据结构是什么样子,数据与业务之间的关系是怎么样,数据与数据之间的关系是怎么样,数据有什么样的安全需求,数据有什么样的存储需求。

针对元数据的管理,对于传统企业数据而言是非常重要的一项管理挑战。因为传统企业技术和管理观念上有所缺失,从而导致了许多问题。因此,我们在进行许多传统企业数据治理或者数据管理项目,也就是元数据管理方面时,常常会先从数据模型梳理着手。

3、主数据--企业黄金数据记录

主数据(main data)主要是指经实例化的企业关键数据。

还是回到我们的假设场景,我们在上面设计完成数据模型设计的“城市表”中填写了相应的城市数据,例如,北京、上海、广州、南宁等等。这些在城市表中填充的数据,正是组织中国地理协会的主数据,因为这些数据是中国地理协会这个组织的关键业务实体,它为组织的业务开展提供关联环境,而且它可能在企业业务开展过程中被反复引用。针对这些核心关键数据,组织和企业无论从数据的质量、一致性、可用性、管理规范等方面都应该有着最严格的数据要求。

那么一般而言,以下涉及企业经营的人、财、物的数据最有可能纳入企业主数据管理的范畴,例如

企业产品及其相关信息:包括企业相关产品、服务、版本、价格、标准操作等等

企业财务信息:包括业务、预算、利润、合同、财务科目等等

企业相关利益相关者:如客户、供应商、合作伙伴、竞争对手等

企业组织架构:如员工、部门等

可见,主数据就是企业被不同运营场合反复引用关键的状态数据,它需要在企业范围内保持高度一致。它可以随着企业的经营活动而改变,例如,客户的增加,组织架构的调整,产品下线等;但是,主数据的变化频率应该是较低的。所以,企业运营过程产生过程数据,如生产过程产生各种如订购记录、消费记录等,一般不会纳入主数据的范围。当然,在不同行业,不同企业对主数据有不同的看法和做法,正如我们与国内大型航空企业的实施相关数据项目时,也在为航班动态是不是主数据而纠结不已。

因此,有鉴于主数据对于企业的重要性,企业和组织需要对其主数据进行有效的管理:包括理解主数据应用需求,识别主数据来源及源头,梳理主数据上下游关系,数据整合和发布,提升主数据的数据质量等。

4、参考数据--数据的字典

在本文引用的假设案例中,我们将会注意到刚才填写的地市这类数据有些列,如省份、城市类型等。如果没有缺少上下文的环境,我们是无法理解其具体含义,这时候我们往往引入参考数据(reference data)加以解释和理解,如下图红色标注所示。

参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。

大家可能觉得,这所谓参考数据不就是数据字典吗?对,我们在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

5、小结

主数据则是真实的企业业务数据,是企业的关键业务数据。

参考数据则是对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

元数据是对数据的描述,用于描述企业数据的所有信息和数据,如结构、关系、安全需求等,除增加数据可读性外,也是后续数据管理的基础。

一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:

作者简介:

梁铭图,DAMS架构师精英群专家,新炬网络首席架构师。

拥有十年以上数据库运维、数据分析、数据库设计以及系统规划建设经验。

长期为国内电信运营商的大型IT系统进行系统软件维、数据架构规划、设计和实施以及大型IT系统数据建模工作,在数据架构管理以及数据资产管理方面有着深入的研究。

转载于:https://www.cnblogs.com/seabird1979/p/5970774.html

干货丨一组图详解元数据、主数据与参考数据相关推荐

  1. 报任安书文言现象_干货丨文言文句式详解,快点收藏!

    关注"语文日刊"并设为星标,每天都能收到文章,点上面蓝色文"语文日刊"关注 ‍‍‍2020年9月高考优秀作文专辑9月出炉,买买买! 高考第一品牌语文月刊代码46 ...

  2. spi四种工作模式时序图_SPI总线协议及SPI时序图详解

    嵌入式linux QQ交流群:175159209,欢迎爱好者加入交流技术问题! SPI,是英语Serial Peripheral Interface的缩写,顾名思义就是串行外围设备接口.SPI,是一种 ...

  3. Apollo进阶课程㉙丨Apollo控制技术详解——控制器的类型

    原文链接:进阶课程㉙丨Apollo控制技术详解--控制器的类型 控制主要是为了弥补数学模型和物理世界执行之间的不一致性.对于自动驾驶而言,规划的轨迹和车辆的实际运行轨迹并不完全一致,控制器按照规划轨迹 ...

  4. Apollo进阶课程㉘丨Apollo控制技术详解——基于模型的控制方法

    原文链接:进阶课程㉘丨Apollo控制技术详解--基于模型的控制方法 PID控制是一个在工业控制应用中常见的反馈回路部件,由比例单元P.积分单元I和微分单元D组成.PID控制的基础是比例控制:积分控制 ...

  5. Apollo进阶课程㉗丨Apollo控制技术详解——控制理论

    原文链接:进阶课程㉗丨Apollo控制技术详解--控制理论 控制模块根据预测的轨迹和估计的车辆状态向油门.刹车或转向扭矩发送适当的命令.控制模块使汽车尽可能接近计划的轨迹.控制器参数可以通过最小化理想 ...

  6. UML(Unified Modeling Language)统一建模语言--类图详解

    UML(Unified Modeling Language)统一建模语言--类图详解   2010-05-12 作者:fenglin1985 来源:fenglin1985的blog   类图是面向对象 ...

  7. 71张图详解IP地址、IP 路由、三层转发、ARP、ICMP

    71张图详解IP地址.IP 路由.三层转发.ARP.ICMP 架构师之道2021-04-07 13:51:24 https://www.toutiao.com/i6948285918986027531 ...

  8. UML概述及UML图详解

    ​ UML概述 一.UML简介 (一)UML (Unified Modeling Language)为面向对象软件设计提供统一的.标准的.可视化的建模语言.适用于 描述以用例为驱动,以体系结构为中心的 ...

  9. 一图详解管理的全过程——定目标、追过程、拿结果

    定目标 追过程 拿结果 近期热文:一图详解管理的全过程--定目标.追过程.拿结果 30岁+项目经理和PMO少奋斗10年的职业规划路线 产品经理VS项目经理,有啥不一样? 图解OKR敏捷目标管理如何在公 ...

最新文章

  1. 当程序崩溃的时候怎么办
  2. 车牌识别系统,并语音读出识别结果,MATLAB仿真
  3. 为什么S/4HANA的生产订单创建后会自动release
  4. [LeetCode] 搜索旋转排序数组
  5. HTTP协议中返回代码302的情况
  6. Flutter异步编程async与await的基本使用
  7. python公共变量声明_Python变量声明
  8. 这个开源的视频编辑项目,有点6~
  9. 【博客427】通过redfish协议操控服务器
  10. 计算机财务模型管理实验内容,财务分析模型实验报告
  11. TFS2010安装图解
  12. 霍夫丁------霍夫丁不等式
  13. Java毕业设计:人民医院体检预约系统(java+springboot+vue+mysql)
  14. npm安装报错(npm ERR code EPERM npm ERR syscall mkdir npm ERR path CProgram Filesnodejsnode_ca...)
  15. 西门子PLC封装TCP通讯块和调试助手进行TCP仿真测试
  16. 设计模式——Spring注解编程模型
  17. 旗正规则引擎的产品设计
  18. 电脑版Android版Mac版iPad版,从苹果iPad上运行Android版QQ谈移动应用跨平台
  19. linux下文件的重命名方法
  20. 初学Python出现EnvironmentLocationNotFound: Not a conda environment: /anaconda3/envs/anaconda3

热门文章

  1. 计算机网络按信号频带占用方式分为,《计算机网络及组网技术》第2阶段测试题....
  2. mysql通配符_mysql通配符进行模糊查询
  3. python判断对错题_python 初学者错题本
  4. 第 19 课时:调度器的调度流程和算法介绍(木苏)
  5. 如果故障选择了你……
  6. K8s 从懵圈到熟练-集群伸缩原理
  7. mysql探活_MYSQL探索
  8. python将一组数据转化为列表_python如何将一个全部为int的列表,转化为全部为str的列表...
  9. 联想rd540服务器怎么装系统,联想RD540加显卡BIOS设置
  10. linux编译lua,Linux CentOS 编译LUA。。搞半天终于对了= =