文|大数据架构师

曾经有段时间给甲方爸爸做项目的时候,他们看我长的显小,喜欢挑战一些问题,其中我遇到最多的就是“什么是元数据”。遇到这种问题既不能啰嗦,也不能太过于专业,否则领导会不开熏。

另外,元数据、主数据也都是数据治理的核心中的核心。今天就给大家把这几个名词给彻底解释清楚。

为什么要取这么多名字?

我初入数据行业的时候也被一堆的名词给绕晕了。什么元数据、技术元数据、业务元数据、操作元数据、主数据、参考数据、事务数据、业务数据、维度、度量、指标等等等等,那时候简直一脑门子的官司。

那时候就是刘姥姥进大观园,看啥都新鲜,看啥也都不懂,长期处于信息过载的状态。那时候也没有人帮我整理整理,自己也没时间去系统性的学习,只是硬着头皮边用边学,慢慢的加深理解。其实这些东西都是内在关联的。我梳理了一下,这样看就能清楚很多了:

我们知道,面对大量信息的时候,最好的办法就是归类、合并、分解,把它们用一个结构组合起来,这样就能很容易的理解。其实所有的数据也是一样,我按照数据的记录、管理和分析三个用途,对这些数据名词进行归类,这样是不是就清晰多了?

记录类数据

什么是事务数据?

事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。

什么是业务数据?

业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。

什么是日志数据?

早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。

什么是元数据

元数据(Meta-data)是描述数据的数据。如何理解这句话?以小学课文《翠鸟》为例, 我告诉你这是一只翠鸟,如果你没见过翠鸟,你肯定无法理解翠鸟是个什么东西。但是如果是这样描述一下呢?

翠鸟喜欢停在水边的苇秆上,一双红色的小爪子紧紧地抓住苇秆。它的颜色非常鲜艳。头上的羽毛像橄榄色的头巾,绣满了翠绿色的花纹。背上的羽毛像浅绿色的外衣。腹部的羽毛像赤褐色的衬衫。它小巧玲珑,一双透亮灵活的眼睛下面,长着一张又尖又长的嘴。

上文在描述翠鸟,怎么描述的呢?从这几个方面:停在那儿、小爪子、颜色、头上的羽毛、背上的羽毛、腹部的羽毛、体型、眼睛、嘴。

同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢?

这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。

在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。

当然,为了管理方便,我们同样还能将上述元数据进行归类:

与业务规则、流程相关的描述性数据,我们称之为业务元数据;

与存储、访问等技术底层的描述性数据,我们称之为技术元数据;

与数据操作相关的描述性数据,我们称之为操作元数据;

与数据管理相关的描述性数据,我们称之为管理元数据

元数据可以解决什么核心问题?

如上所述,元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。

什么是主数据

主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。其实Master Data翻译成“核心数据”可能会更合适,因此主数据也被称为“黄金数据”。这么说吧,其实阿里的One ID就是主数据理念的结果。

对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。

所以我们总结一下,主数据一共有以下种类:

  • 与人相关的:用户、客户、公民、病人、供应商、学生等;
  • 与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
  • 与场相关的:地址库、楼盘字典、POI信息等;
  • 与规则相关的:财务的账套等。

在传统IT企业,甲方公司的主数据可以立一个千万级的项目。国内也有很多公司专门做主数据这个行当。主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:

  • 确定核心业务环节
  • 识别主数据
  • 定义和维护主数据匹配规则(代码规则、ID Mapping)
  • 建立及发布数据标准
  • 主数据的后续维护及更新

什么是数据、元数据、主数据?这可能是大多数人没看过的解释相关推荐

  1. 阿里架构师用3点讲透数据中台,这些都是你没看过的

    数据实际上是一个非常传统的行业. 有软件开始的那一天起,数据这个行业就存在了.比如说原来最早的时候,有非常多的数据报表数据可视化,然后到后来,有了商业智能,有了Data Warehouse(就是数据仓 ...

  2. 数据治理 主数据 元数据_我们对数据治理的误解

    数据治理 主数据 元数据 Data governance is top of mind for many of my customers, particularly in light of GDPR, ...

  3. 大数据元数据管理系统功能有哪些

    什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所 ...

  4. 大数据元数据管理系统有哪些功能

    一.大数据元数据管理系统功能 首先,实现元数据管理,我们就得先来了解元数据,那么什么又是元数据呢? (一)大数据--元数据之魅力. 1.元数据的概念 在软件动态复用.也即 " 软件即服务 & ...

  5. apache atlas 案例_大数据元数据开源解决方案apache atlas

    [实例简介] 大数据元数据开源解决方案apache atlas,提供数据治理,元数据管理等功能 [实例截图] [核心代码] apache-atlas-1.1.0-sources.tar └── apa ...

  6. SAP重置公司代码业务数据和主数据-OBR1/OBR2/OBR3

    SAP期初上线或模拟测试环境中,需要重置指定公司代码下的业务数据和主数据. T-CODE如下: OBR1 : 重置业务数据 OBR2 : 重置主数据 OBR3 : 设置公司代码是否允许执行OBR1和O ...

  7. 新型基础测绘与实景三维中国建设技术文件【4】基础地理实体数据元数据

    基础地理实体数据是新型基础测绘产品体系中的核心成果,为实现该数据的规范化管理和使用,编制基础地理实体数据元数据技术文件.本文件规定了基础地理实体数据元数据的基本要求和元数据内容,适用于二维表达形式.三 ...

  8. R语言plotly可视化:使用PCA算法进行数据降维、使用plotly可视化随着主成分的增加解释的方差的量(plotting explained variance)

    R语言plotly可视化:使用PCA算法进行数据降维.使用plotly可视化随着主成分的增加解释的方差的量(plotting explained variance) 目录

  9. 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...

最新文章

  1. ES6深入学习记录(一)class方法相关
  2. ssd_mobilenet_v2_quantized_coco 转为 tflite 格式在 Android 上运行
  3. java 读取文件内容 实例_Java 实例 – 读取文件内容 - Java 基础教程
  4. 理解OAuth 2.0(转)
  5. 【CSS3】CSS3支持的颜色表示方法大全
  6. 干货:12个案例教你用Python玩转数据可视化(建议收藏)
  7. postman用法_应该是接口测试神器postman最全的用法总结了
  8. ECMAScript 学习笔记01
  9. java stream流处理
  10. 吴伯凡-认知方法论-真真切切的感觉
  11. marked 用户手册 在线查看
  12. 如何截图整个网页 网页截图
  13. Cartopy 0.20 最新功能 —— Cartopy 装不上别慌,内附解决方案
  14. POI DataValidation 删除数据有效性验证
  15. 使用Mapper代理开发解决硬编码问题
  16. 编写1个JSP页面,在JSP页面中使用Java程序片输出26个小写的英文字母表。
  17. P老师需要去商店买n支铅笔作为小朋友们参加NOIP的礼物。她发现商店一共有 3种包装的铅笔,不同包装内的铅笔数量有可能不同,价格也有可能不同。
  18. Linux mmap 详解
  19. Grapher中如何保存图形模板,批量处理相同格式的文件
  20. frequentism-and-bayesianism-chs-ii

热门文章

  1. SQL Server中的部分存储过程
  2. sql server 加密_SQL Server机密–第一部分–加密基础知识和SQL Server加密功能
  3. 预编译sql查询语句_频繁的查询重新编译– SQL查询性能的杀手–简介
  4. SQL Server数据库连续集成(CI)最佳实践以及如何实现它们–测试,处理和自动化
  5. sql server 缓存_搜索SQL Server查询计划缓存
  6. 使用Spring容器最简单的代码姿势
  7. 正则表达式学习(2)
  8. cordova APP 检查更新
  9. TAOCP-1.2.10_求极大值
  10. OLTP与OLAP介绍