什么是数据、元数据、主数据?这可能是大多数人没看过的解释
文|大数据架构师
曾经有段时间给甲方爸爸做项目的时候,他们看我长的显小,喜欢挑战一些问题,其中我遇到最多的就是“什么是元数据”。遇到这种问题既不能啰嗦,也不能太过于专业,否则领导会不开熏。
另外,元数据、主数据也都是数据治理的核心中的核心。今天就给大家把这几个名词给彻底解释清楚。
为什么要取这么多名字?
我初入数据行业的时候也被一堆的名词给绕晕了。什么元数据、技术元数据、业务元数据、操作元数据、主数据、参考数据、事务数据、业务数据、维度、度量、指标等等等等,那时候简直一脑门子的官司。
那时候就是刘姥姥进大观园,看啥都新鲜,看啥也都不懂,长期处于信息过载的状态。那时候也没有人帮我整理整理,自己也没时间去系统性的学习,只是硬着头皮边用边学,慢慢的加深理解。其实这些东西都是内在关联的。我梳理了一下,这样看就能清楚很多了:
我们知道,面对大量信息的时候,最好的办法就是归类、合并、分解,把它们用一个结构组合起来,这样就能很容易的理解。其实所有的数据也是一样,我按照数据的记录、管理和分析三个用途,对这些数据名词进行归类,这样是不是就清晰多了?
记录类数据
什么是事务数据?
事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。
什么是业务数据?
业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。
什么是日志数据?
早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。
什么是元数据
元数据(Meta-data)是描述数据的数据。如何理解这句话?以小学课文《翠鸟》为例, 我告诉你这是一只翠鸟,如果你没见过翠鸟,你肯定无法理解翠鸟是个什么东西。但是如果是这样描述一下呢?
翠鸟喜欢停在水边的苇秆上,一双红色的小爪子紧紧地抓住苇秆。它的颜色非常鲜艳。头上的羽毛像橄榄色的头巾,绣满了翠绿色的花纹。背上的羽毛像浅绿色的外衣。腹部的羽毛像赤褐色的衬衫。它小巧玲珑,一双透亮灵活的眼睛下面,长着一张又尖又长的嘴。
上文在描述翠鸟,怎么描述的呢?从这几个方面:停在那儿、小爪子、颜色、头上的羽毛、背上的羽毛、腹部的羽毛、体型、眼睛、嘴。
同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢?
这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。
在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。
当然,为了管理方便,我们同样还能将上述元数据进行归类:
与业务规则、流程相关的描述性数据,我们称之为业务元数据;
与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
与数据操作相关的描述性数据,我们称之为操作元数据;
与数据管理相关的描述性数据,我们称之为管理元数据
元数据可以解决什么核心问题?
如上所述,元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。
什么是主数据
主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。其实Master Data翻译成“核心数据”可能会更合适,因此主数据也被称为“黄金数据”。这么说吧,其实阿里的One ID就是主数据理念的结果。
对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。
所以我们总结一下,主数据一共有以下种类:
- 与人相关的:用户、客户、公民、病人、供应商、学生等;
- 与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
- 与场相关的:地址库、楼盘字典、POI信息等;
- 与规则相关的:财务的账套等。
在传统IT企业,甲方公司的主数据可以立一个千万级的项目。国内也有很多公司专门做主数据这个行当。主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:
- 确定核心业务环节
- 识别主数据
- 定义和维护主数据匹配规则(代码规则、ID Mapping)
- 建立及发布数据标准
- 主数据的后续维护及更新
什么是数据、元数据、主数据?这可能是大多数人没看过的解释相关推荐
- 阿里架构师用3点讲透数据中台,这些都是你没看过的
数据实际上是一个非常传统的行业. 有软件开始的那一天起,数据这个行业就存在了.比如说原来最早的时候,有非常多的数据报表数据可视化,然后到后来,有了商业智能,有了Data Warehouse(就是数据仓 ...
- 数据治理 主数据 元数据_我们对数据治理的误解
数据治理 主数据 元数据 Data governance is top of mind for many of my customers, particularly in light of GDPR, ...
- 大数据元数据管理系统功能有哪些
什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所 ...
- 大数据元数据管理系统有哪些功能
一.大数据元数据管理系统功能 首先,实现元数据管理,我们就得先来了解元数据,那么什么又是元数据呢? (一)大数据--元数据之魅力. 1.元数据的概念 在软件动态复用.也即 " 软件即服务 & ...
- apache atlas 案例_大数据元数据开源解决方案apache atlas
[实例简介] 大数据元数据开源解决方案apache atlas,提供数据治理,元数据管理等功能 [实例截图] [核心代码] apache-atlas-1.1.0-sources.tar └── apa ...
- SAP重置公司代码业务数据和主数据-OBR1/OBR2/OBR3
SAP期初上线或模拟测试环境中,需要重置指定公司代码下的业务数据和主数据. T-CODE如下: OBR1 : 重置业务数据 OBR2 : 重置主数据 OBR3 : 设置公司代码是否允许执行OBR1和O ...
- 新型基础测绘与实景三维中国建设技术文件【4】基础地理实体数据元数据
基础地理实体数据是新型基础测绘产品体系中的核心成果,为实现该数据的规范化管理和使用,编制基础地理实体数据元数据技术文件.本文件规定了基础地理实体数据元数据的基本要求和元数据内容,适用于二维表达形式.三 ...
- R语言plotly可视化:使用PCA算法进行数据降维、使用plotly可视化随着主成分的增加解释的方差的量(plotting explained variance)
R语言plotly可视化:使用PCA算法进行数据降维.使用plotly可视化随着主成分的增加解释的方差的量(plotting explained variance) 目录
- 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...
最新文章
- ES6深入学习记录(一)class方法相关
- ssd_mobilenet_v2_quantized_coco 转为 tflite 格式在 Android 上运行
- java 读取文件内容 实例_Java 实例 – 读取文件内容 - Java 基础教程
- 理解OAuth 2.0(转)
- 【CSS3】CSS3支持的颜色表示方法大全
- 干货:12个案例教你用Python玩转数据可视化(建议收藏)
- postman用法_应该是接口测试神器postman最全的用法总结了
- ECMAScript 学习笔记01
- java stream流处理
- 吴伯凡-认知方法论-真真切切的感觉
- marked 用户手册 在线查看
- 如何截图整个网页 网页截图
- Cartopy 0.20 最新功能 —— Cartopy 装不上别慌,内附解决方案
- POI DataValidation 删除数据有效性验证
- 使用Mapper代理开发解决硬编码问题
- 编写1个JSP页面,在JSP页面中使用Java程序片输出26个小写的英文字母表。
- P老师需要去商店买n支铅笔作为小朋友们参加NOIP的礼物。她发现商店一共有 3种包装的铅笔,不同包装内的铅笔数量有可能不同,价格也有可能不同。
- Linux mmap 详解
- Grapher中如何保存图形模板,批量处理相同格式的文件
- frequentism-and-bayesianism-chs-ii
热门文章
- SQL Server中的部分存储过程
- sql server 加密_SQL Server机密–第一部分–加密基础知识和SQL Server加密功能
- 预编译sql查询语句_频繁的查询重新编译– SQL查询性能的杀手–简介
- SQL Server数据库连续集成(CI)最佳实践以及如何实现它们–测试,处理和自动化
- sql server 缓存_搜索SQL Server查询计划缓存
- 使用Spring容器最简单的代码姿势
- 正则表达式学习(2)
- cordova APP 检查更新
- TAOCP-1.2.10_求极大值
- OLTP与OLAP介绍