荐:这篇文章出至我的前同事——90后美女程序员(龚菲)。关于元数据、元数据管理的文章有很多,但要说是最通俗易懂的还得是这一篇。

本文原文在这里:《关于元数据,全网最通俗易懂的文章!》

我将文章分为两大部分,第一部分介绍元数据概念,第二部分从几个方面说明元数据管理的应用,最后一部分总结一下元数据的重要性,仅代表我的一些个人观点,还请各位前辈们不要见笑。

01 元数据什么鬼?

我入职的时候刚好赶上公司的元数据产品升级换代,同事们的研发气氛正火热,作为新入职菜鸟,总得先了解一下元数据概念,不然日后怎么和小伙伴们愉快地玩耍,于是查找国内外相关材料:

一段时间之后有了一些知识积累,才发现用“关于数据的数据”来给元数据下定义确实再准确不过了,但同时也略微抽象,新人难于快速理解,待到上周我们数据治理专家从心理学的角度来阐述元数据之后,我终于也算理解了元数据到底是个啥,今天也算是站在“巨人”的肩膀上,用一种更简单的方式来回答“元数据究竟是什么”这个问题…

元数据是关于数据的描述,存储着关于数据的信息,为人们更方便地检索信息提供了帮助。咦?检索信息?小蝌蚪找妈妈的过程也是一个检索信息的过程,是不是看懂这个故事就能懂元数据是什么了?

池塘里有一群小蝌蚪,他们看见鲤鱼妈妈在教小鲤鱼捕食,就迎上去,问:“鲤鱼阿姨,我们的妈妈在哪里?”

此时蝌蚪们意识到,不对啊,我们的数据库里不是应该存在着一张Mother表吗,但是蝌蚪们竟然对这张表一无所知,不知道有什么字段,也不知道各个字段对应的具体数值:

鲤鱼妈妈说:“你们的妈妈有四条腿,宽嘴巴。你们到那边去找吧!”

鳄鱼笑着说:“你们的妈妈有两只大眼睛,披着绿衣裳。你们到那边去找吧!”…

乌龟笑着说:“我不是你们的妈妈,你们的妈妈肚皮是白的,到前面去找吧。”…

青蛙听了“咯咯”地笑起来,说“唉!傻孩子,我就是你们的妈妈呀!”

整个过程可以看成是Mother这张表逐步完善的过程,数据来源分别是鲤鱼妈妈、鳄鱼妈妈和乌龟妈妈,如下图所示:

对蝌蚪们最终获取到的信息进行进一步抽象,就可以形成一种“元数据”,该元数据描述了Mother这张表的结构:

刚才不是说元数据能为检索信息提供帮助吗,那是不是也说明元数据能为小蝌蚪找妈妈提供帮助?我们将在第二部分试着对这个故事进行改编,详细介绍小蝌蚪利用元数据快速找到妈妈的过程。

02 元数据管理的应用

通常一款元数据管理工具应具备元模型设计、元数据采集、元数据分析、数据地图展现等核心功能,我们试着改编小蝌蚪找妈妈这个故事,在改编的过程中理解这几个核心功能,前提是我们假设所有动物共同构成了一个庞大的数据体系,小蝌蚪们Mother的具体数据已经存在于此体系之中(鲤鱼系统、鳄鱼系统、乌龟系统)。

1、元模型设计

先解释一下元模型。如果说元数据是对数据的描述,那么元模型就是对元数据的描述,是对元数据的进一步抽象,三者的关系如下图所示:

再讲一下元模型设计的过程。首先获取到系统中的所有元数据,将这些元数据汇总并进行合理规划,进一步抽象成元模型,从一定角度来说,可以把这个抽象的过程看成元模型设计的过程。

元模型定义了各种元数据的结构以及元数据之间的关系,是元数据管理的基础,也就是说,如果我们想用元数据帮助小蝌蚪找妈妈,需要先设计出合理的元模型。下图是我试着给它们设计出的元模型(对于企业来说,真正的元模型设计过程非常复杂,受多方面因素影响):

我们认为小蝌蚪的妈妈(Mother)由若干个属性(Property)组成,每个属性的名称用Name表示,每个属性的类型用Type表示。

现在元模型有了,下一步就是按照这个设计好的元模型采集小蝌蚪们需要的元数据信息,也就是我们常说的元数据采集。

2、元数据采集

设计好元模型之后,元数据管理工具能通过全自动的方式采集到企业所需要的元数据,在这个故事中,按照我设计好的元模型,元数据管理工具的元数据采集结果应该如下图所示:

小蝌蚪们拿着这份元数据再去针对性地检索关于妈妈的信息,就能一步到位,将目标直接锁定到青蛙,整个故事将因元数据的出现而成功改写。

说明:在真实的企业数据环境中,数据与元数据是已经存在于系统之中的,元数据管理就是根据企业现有的元数据设计出适合企业的元模型,然后将系统之中的元数据按照元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的。

3、元数据分析

a、血缘分析

假设动物园园长慢羊羊正管理着整个动物园的数据信息,有一天园长发现自己这里有个数据不对,需要找出错误数据的提供者并追究责任,那么这个错误数据来自于哪个动物家庭呢?挨家挨户去敲门核对数据显然不够高效,元数据管理工具的血缘分析功能会自动帮助园长分析这个错误数据的上游路径,比如这个数据是由鲤鱼妈妈交给鳄鱼妈妈,鳄鱼妈妈再提交给园长的,那么此时园长只需要去敲鲤鱼和鳄鱼家的门就可以了。

b、影响分析

数据终于更正了,此时园长需要及时提醒大家这个数据的更正信息,只需要通知这个数据影响到的动物家庭就可以了,这让园长十分苦恼,整个动物园的数据传递这么复杂,怎么判断哪个家庭会受到这个数据的影响呢,元数据管理工具的影响分析功能会分析出这个数据的影响范并能用可视化的方式展现出来,园长只需要通知受影响的动物家庭就可以了。

c、数据地图展现

随着动物园规模的日益扩大,入住的动物种类日益增多,有一天园长想了解动物园的整体情况,有多少动物家庭,哪个家庭和哪个家庭比较要好,哪个家庭和哪个家庭又从来没有联系,此时元数据管理工具的数据地图可以帮助园长获取到他想要的信息,数据地图展现功能可以通过可视化的方式,让园长对整个动物园的情况了如指掌,帮助它更好地观察整个动物园的情况。

03 元数据的重要性

在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。

阅读原文

关于元数据,全网最通俗易懂的文章!相关推荐

  1. kafka topic 一段时间不消费_全网最通俗易懂的 Kafka 入门

    众所周知,消息队列的产品有好几种,这里我选择学习Kafka的原因,无他,公司在用. 我司使用的是Kafka和自研的消息队列(Kafka和RocketMQ)改版,于是我就想学学Kafka这款消息队列啦. ...

  2. C++设计模式(全网最通俗易懂的设计模式进阶)

    前言 鉴于架构的重要性,在一个项目开始的时候,在b站上看了一个使用Java做架构的案例,但由于自己对java的语言并不是很熟悉,加上编译环境也没有,因此,就有了下面一个念头,使用c++,将该课程的一个 ...

  3. 全网最通俗易懂的 Self-Attention自注意力机制 讲解

    目录 前言 非常非常基础的知识 键值对(Key-Value)注意力 Q K V矩阵 ​的意义 结语 前言 因工作需要,不得不再次将Transformer从尘封的记忆中取出. 半年前学Transform ...

  4. 协方差的意义和解释(目前为止我看到的最为通俗易懂的文章)

    十分感谢原作者的贡献,讲解通俗易懂,感觉有必要让更多人学习到,故转载了这篇博客,附上原文地址 http://blog.sina.com.cn/s/blog_672c5a470100miqq.html ...

  5. 这可能是把策略模式讲的最通俗易懂得文章了!

    点击上方"方志朋",选择"置顶公众号" 技术文章第一时间送达! 本文转载自微信公众号:漫话编程  周末无事,窝在家里面看<权力的游戏第八季>,看的 ...

  6. 描述最常用的5种http方法的用途_对不起,来晚了,这可能是设计模式讲的最通俗易懂的文章(收藏)

    ​御姐力作,深入浅出,妙趣横生,值得一看! ## 引言 你好,欢迎来到设计模式的世界,这一篇我将用一种引导.启迪的思路去讲述设计模式.在程序员的世界里,设计模式就相当于武侠世界的剑招.套路.掌握了招式 ...

  7. 可能是全网最通俗易懂的微服务架构改造解读

    古霜卡比 DBAplus社群排版 读完需要 10 分钟 速读仅需 4 分钟 作者介绍 古霜卡比,7年开发和架构经验.喜欢探索新事物.造轮子与瞎折腾.认为与其追逐日新月异的技术,不如研究底层的基础理论. ...

  8. java8四大核心函数式接口(模拟实现,全网最通俗易懂)

    前言,如果不精通lamda表达式,请观看文章https://blog.csdn.net/wwwwwww31311/article/details/113116327 一.消费者接口 经典案例代码,怎么 ...

  9. 全网最通俗易懂的爬虫教程

    文章目录 一.爬虫的意义 1.前言 2.爬虫能做什么 3.爬虫有什么意义 二.爬虫的实现 1.爬虫的基础原理 2.api的获取 3.爬虫实现

最新文章

  1. Mybatis-Plus升级完成! 我的系统到底更新了什么?Mybatis-Plus比Mybatis好在了哪里?
  2. aspx后台调用前台jquery_Jquery Ajax调用aspx页面方法
  3. hive中文字符乱码 解决方法【转】
  4. (03)System Verilog 常用数据类型详解
  5. isp和3a的联系与区别是什么?
  6. win10电脑怎么升级安装win11正式版,电脑升级win11的方法
  7. redis连接数据库进行操作
  8. 拓端tecdat|R语言动量交易策略分析调整后的数据
  9. 社交网络中常用数据集
  10. c语言课程火车售票报告,C语言课程设计报告书火车票务管理系统.doc
  11. html- 颜色代码
  12. PSQLException: An I/O error occurred问题排查
  13. 数字改造有色金属产业链,发挥产业优势效能
  14. PHP技术开发微信公众平台
  15. 下载王者荣耀皮肤高清图片
  16. 通过数据分析,了解外国人眼里的真实李子柒
  17. 数据结构c语言进制转换八进制,C语言数据结构中数制转换实例代码
  18. 通过guest账户无法进入远程计算机,小经验|guest远程关机设置
  19. 植物大战僵尸2android最新版,植物大战僵尸2
  20. zabbix php ldap off,安装zabbix时PHP ldap Warning解决方法

热门文章

  1. Android 兼容性介绍之setBackground
  2. 抖音Android岗面试性能优化篇之Rhea(新一代全能型性能分析工具)【速看】
  3. Kooboo CMS技术文档之四:Kooboo CMS的站点组成部分
  4. 什么是整洁的代码库?
  5. 收回动态VHD的未使用空间
  6. 沉痛悼念倪海廈老師!
  7. 倪云华合伙创业常见问题解析:怎样让技术合伙人出钱?
  8. 【回归模型中两变量相乘】交互作用,调节作用
  9. 块内拉升lisp_计算机辅助设计基础试题lpar;完整版rpar;
  10. APP安全测试小技巧