大数据-------元数据管理
一、什么是元数据
元数据就是描述数据的数据,它为企业的各类数据提供了上下文环境,使企业能够更好地了解、管理和使用数据。
现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。
二、元数据分类
1、技术元数据
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。对开发人员来说,它有助于明确数据的存储、结构,有助于理清数据关系,能够提升开发效率,还有助于了解到数据的来源和去向进行分析,支持数据血缘追溯和影响分析。
例如:数据字典
(1)基础信息,包括库名称、库类型、表名称、表数量、表注释、表分区字段、表分区数量、字段名称、字段类型、字段长度、字段注释、字段默认值、主键信息、外键信息、索引信息等。
(2)存储信息,本地存储中的文件信息,例如:文件路径、文件数量、文件大小、文件类型,压缩格式等。
(3)调度信息,任务名称、任务类型、任务路径、调度时间、调度SQL、调度逻辑等。
(4)血缘信息,数据加工、流转过程产生的数据与数据之间的关系,包含以下内容: 数据节点、流出节点、中间节点、流入节点、节点属性等。
2、业务元数据
业务元数据描述数据的业务含义、业务规则等。可以为数据应用提供更好的服务。
例如:
(1)业务信息,业务描述、业务部门、业务系统、负责人等。
(2)标准化信息,统一和确定指标名称、指标层级、指标口径、维度信息、计算方式、映射信息、转换规则等。
(3)数据质量信息,主要应用于监控信息,主要有:质量监控名称、监控内容、监控级别、监控规则、告警方式等。
(4)权限信息 ,访问权限、角色权限、用户权限、安全等级等。
(5)服务信息 ,当前数据对外提供服务的方式,主要有:服务方式(接口、报表、sdk等)、服务内容、接口信息、负责人等
三、元数据管理
1、数据源元数据
数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等。
数据源元数据的管理:由相关人员对各类文档进行统一版本的管理
2、ETL规则元数据
ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息。
数据源元数据包括业务系统元数据和数据仓库元数据等;目标系统元数据可能是数据仓库元数据、数据集市元数据等。
ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理。
3、数据仓库元数据
制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息 ,对文档进行统一版本的管理
4、报表元数据
包括对报表和报表中具体指标(度量)的描述信息等
报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理
5、接口文件格式元数据
接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息。
接口文件格式元数据:与ETL规则元数据进行统一管理。
6、商业元数据
系统中对各项指标的业务含义的描述性信息,在综合统计分析平台中,包括维、度量的业务含义描述 ,主题的分析目标描述,报表指标的解释信息等。
商业元数据的管理可以分解成数据仓库元数据的管理和报表元数据的管理。
7、其他元数据
数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作 、锁、内存使用、I/O使用等信息;数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息
其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理
4、元数据应用
1、数据地图
整体可以分为三部分,第一部分汇总库、表的数量,自己负责和有权限的表的数量等等。第二部分,展示这个库下所有表的情况。包括表名、数据量、更新时间、最近使用次数等, 第三部分,展示所有表的技术、业务的元数据。包括描述、负责人、大小、分区数、建表和更新时间、最近使用次数、变更记录、使用记录等。
2、血缘分析
通过血缘关系,就能了解到各个表/字段是怎么来的,整个数据的产生的过程和结果的路线就都可以掌握,同时匹配搜索功能可更方便员工的查找。
基于血缘关系可以做很多事情,例如:
1、结合任务完成时间,根据路径,定位性能瓶颈,调节任务时间以便更好的调节性能;
2、设计监控,当表出现变更时,可以通知任务负责人;
3、方便管理表,可以快速找到没有被使用的表; 数据生命周期管理
4、辅助维护字段的一致性,如注释、校验规则复用。
大数据-------元数据管理相关推荐
- 大数据元数据管理系统功能有哪些
什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所 ...
- 大数据元数据管理系统有哪些功能
一.大数据元数据管理系统功能 首先,实现元数据管理,我们就得先来了解元数据,那么什么又是元数据呢? (一)大数据--元数据之魅力. 1.元数据的概念 在软件动态复用.也即 " 软件即服务 & ...
- 浅谈大数据如何管理与分析
构建面向海量信息的大数据管理平台,其本质上是要实现一套可软件定义的数据中心来通过对下层的基础架构进行有效的管理(存储.网络.计算以及相关资源的调度.分配.虚拟化.容器化等)以满足上层的业务与应用需求, ...
- apache atlas 案例_大数据元数据开源解决方案apache atlas
[实例简介] 大数据元数据开源解决方案apache atlas,提供数据治理,元数据管理等功能 [实例截图] [核心代码] apache-atlas-1.1.0-sources.tar └── apa ...
- 【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)
文章目录 一.概述 二. Ambari 与 HDP 关系 三.Ambari 与 Cloudera manager 的对比 1)开源性 2)支持的发行版 3)用户界面 4)功能和扩展性 5)社区支持和生 ...
- 大快搜索城市运河大数据政务管理平台案例解读
2019独角兽企业重金招聘Python工程师标准>>> 大快搜索城市运河大数据政务管理平台案例解读 大数据在政务当中的应用对于提高问题解决的效率可谓大有帮助,但政务大数据平台的应用开 ...
- web端业务数据管理平台+Axure运营数据管理平台+月度数据统计分析+年度排行榜数据统计页面分析+运营大数据统计管理后台+用户信息管理+Axure通用web端高保真交互业务数据管理平台
作品介绍:原型内容包含:web端业务数据管理平台+Axure运营数据管理平台+月度数据统计分析+年度排行榜数据统计页面分析+运营大数据统计管理后台+用户信息管理+Axure通用web端高保真交互业务数 ...
- 战疫之下的“大数据+网格化”管理,谁在颠覆“智能城市”的路径?
文 | 陈选滨 来源丨智能相对论(ID:aixdlun) 如果说过去"智能城市"的重点仍放在顶层设计架构,那么在此次防疫工作的紧急需求下,这一项目便不得不以另一种更快的方式下沉,落 ...
- 大数据权限管理sentry与Kerberos概述
大数据权限管理sentry与Kerberos概述 常见的解决方案分为两部分 1. 管理用户身份*即用户身份认证 2. 用户身份和权限的映射关系管理 即授权 而Hadoop中常见的开源解决方案是Kerb ...
最新文章
- linux make链接.o文件,Linux操作系统至gcc编译器、makefile
- 环信ease-sdk-3.3.4_r1 集成用户头像 昵称功能的简单处理方法
- 安卓开发要学多久_华为发布鸿蒙2.0,和安卓相似度达80%「西瓜视频」
- 面试中 项目遇见的难点答案_2019 百度、头条、小米、360、网易、拼多多等公司 Android 社招面试心得...
- 初探奥尔良(Orleans)
- ant中的loading按钮使用
- odbc数据源的配置
- linux c 数组拷贝,C++对数组进行复制 - osc_8iux0cyz的个人空间 - OSCHINA - 中文开源技术交流社区...
- ubuntu 18.04 安装 LNMP后,nginx 和 apachae 冲突
- 使用easy_install安装BeautifulSoup——Python
- BFC --- Block Formatting Context --- 块级格式化上下文
- 易语言 linux 反编译,易语言反编译工具(E-Code Explorer)
- c语言贪吃蛇游戏代码较难,用C语言编写贪吃蛇代码(难度可选)
- 现有VI 创建子VI(LabVIEW软件)
- r5驱动 索尼exmor_卡片机“X”档案 ——索尼Exmor R CMOS技术解析
- VM虚拟机安装CentOS 7详解
- 面向对象:珍视你的好,一生温柔以待!
- 自成一派的风格楷体字体
- 记一次海康威视笔试题小练手
- 广告位出售单页HTML源码