数仓知识06:什么是元数据?
1. 概念
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
举几个简单例子:
- 如果一本书是一个“数据",那么它的书名、封面、出版社、作者、总页码就是它的“元数据”。
- 如果一个电影是一个“数据”,那么它的总时长、制作人、总导演、演员列表就是它的“元数据”。
- 如果数据库中某个表是一个”数据”,那么它的列名、列类型、列长度、表注释就是它的"元数据"。
只要有一类"事物",就可以定义它的“元数据”。
大多数时候,元数据可以根据代表意义的不同分为业务元数据和技术元数据(有时还会有[管理元数据]的概念)。
2. 基本特点
元数据一经建立,便可共享。
元数据首先是一种编码体系。
3. 业务元数据、技术元数据和管理元数据
业务元数据
业务元数据主要描述 ”数据”背后的业务含义;从业务角度描述业务领域的相关概念、关系——包括业务术语和业务规则。
业务元数据,在实际业务中,需要不断的进行维护且与业务方进行沟通确认。
技术元数据
指技术细节相关的概念、关系和规则,包括对数据结构、数据处理方面的描述。以及数据仓库、ETL、前端展现等技术细节的信息。
数据仓库中的技术元数据一般包含以下 4 大系统:数据源元数据;ETL 元数据;数据仓库元数据;BI 元数据。
- 管理元数据
管理领域相关,包括管理流程、人员组织、角色职责等。
也有很多观点建议将 管理元数据拆分融入 业务元数据和技术元数据中。
4. 在数据仓库中的应用
在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:
- 描述哪些数据在数据仓库中;
- 定义要进入数据仓库中的数据和从数据仓库中产生的数据;
- 记录根据业务事件发生而随之进行的数据抽取工作时间安排;
- 记录并检测系统数据一致性的要求和执行情况;
- 衡量数据质量。
参考资料:
百度百科:元数据
什么是元数据?为何需要元数据?
浅谈数仓的元数据管理
数仓知识06:什么是元数据?相关推荐
- 数仓知识10_数据泛化
数据泛化(面向属性的归纳:个性–>一般化) 1.定义 数据泛化:把较低层次的概念层(例如:年龄的数值范围)用较高层次的概念(例如:青年.中年和 老年)替换来汇总数据.或者通过减少维度在设计较少维 ...
- 数仓知识01_相关名词解释(英文缩写
随着大数据的到来,经常听到相关的词汇,维度.指标.BI.PV.UV等等,今天整理了这些词汇. 1. DW DW是Data Warehouse的缩写,即数据仓库. DW要区别于普通数据库,数据仓库用于支 ...
- 数仓知识12:PostgreSQL预写日志(WAL)和逻辑解码方案
目录 PostgreSQL预写日志(WAL) PostgreSQL逻辑解码(Logical Decoding) 逻辑解码方案研究分析 PostgreSQL预写日志(WAL) 从PostgreSQL 9 ...
- 数仓知识10:数据库存储的两种方式-行存储和列存储
0. 前言 目前大数据存储主要有两种方案可供选择:行存储(Row-Based)和列存储(Column-Based).业界对两种方案有许多争持,争论的焦点是:谁能够更有效地处理海量数据,且兼顾安全.可靠 ...
- 数据仓库面试题集锦(附答案和数仓知识体系)
[数据仓库系列文章 - 传送门] 一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法)一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法.对比)_不吃西红柿-CSDN博客_事实表三种类型 一篇文 ...
- 数据仓库面试题集锦(附答案和数仓知识体系),小红书Python面试题目
2.数据仓库和数据库的区别? 从目标.用途.设计来说 1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的:数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和 ...
- 数仓理论- 03 数据仓库建模
4 建模 4.1 OLTP系统建模方式 OLTP(Online Transaction Process )在线事务处理,一般业务数据库使用,目的是为业务提供存储以及数据操作,主要是面向数据的随机读写 ...
- 【数仓】DAMA数据管理知识体系指南
[数仓]DAMA数据管理知识体系指南 金融类公司非常爱问数据治理.数据质量.元数据管理等问题. 中金公司笔试也考了 DAMA 数据治理的内容. 金融公司的开发工作较少,更多的是管理类工作 今天分享一本 ...
- 数仓 元数据管理 Atlas 的使用
文章目录 Atlas的简介 Solr的安装 Atlas的安装和配置 Kerberos相关配置 Atlas的登录和启动 Atlas 的使用(案例) Atlas的项目实战 Hive元数据增量同步 全流程调 ...
- 知识图谱数据库还有OLTP、OLAP(MOLAP、ROLAP、HOLAP)的区别? 首个实时图数仓架构分析...
目录导读 数据库与数据仓库与数据湖泊的介绍 图数据库与图数据仓库的区别 图库发展与现状 HOLAP(ROLAP+MOLAP)图数仓的优点 HOLAP数仓数据摄入方式 HOLAP数仓数据存储方式 总结 ...
最新文章
- 美团分布式服务治理框架OCTO之一:服务治理
- Developerkit Link Develop Demo 环境配置指南
- Java运行作业控制语言_Java安全——语言本身的设计
- bootstraptable获取所有数据_一键获取oracle用户下所有表的表名与其数据量
- 课外阅读(通讯技术的发展史)
- ios 静态库合成_iOS : 静态库(.framework)合并
- uva 111 History Grading(最长公共子序列)
- 小蚂蚁学习PHP性能优化(2)--PHP语言级性能优化
- AutoItLibrary安装和常见问题解决
- 《嵌入式 Linux C 语言应用程序设计(修订版)》——2.1 嵌入式Linux下C语言概述...
- MessageFormat的用法
- 微信公众号-服务器配置(token验证)
- 伦敦大学国王学院计算机学院官网,伦敦大学国王学院 King’s College London
- 人工智能-----自然语言处理(NLP)基础理解
- 湖南大学基于SMTP和POP3的邮件系统课程设计
- 第29课:AD中class,设计参数,规则的设置
- 【h5白鹭引擎】如何快速开发一个小游戏
- DWARF dSYM
- 测试开发面试题(1)
- Unity里面实现Camera围绕物体旋转
热门文章
- 大专一年级计算机考试题,大专一年级语文期中考试试卷.doc
- 华为云鲲鹏云服务介绍
- 软件民工的幸福生活3
- 三坐标检测之精密零件测量的恒温时间
- 手把手教你单片机HAL库开发——中断,通信、串口
- 最低成本DIY视频遥控车方案:ESP32-CAM视频遥控车
- java瀑布图表,瀑布图的完美解决方案 [Excel图表]
- python 通过什么来判断是否存在分支结构_【单选题】14、Python通过什么来判断操做是否在分支结构中(C)
A. 括号 B. 花括号 C. 缩进 D. 冒号...
- Android Room 官方指南
- Python之集合(综合练习)