元数据管理

元数据分为业务元数据、技术元数据和操作元数据及管理元数据,业务元数据知道技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。元数据与数据的对应关系如下表所示:

元数据

数据

业务元数据

(定义和业务相关数据的信息)

数据指标、数据字典、数据代码、数据安全、数据质量等

技术元数据

物理模型(关系型数据库物理模型、NoSQL数据库存储模型等)

操作元数据

数据ETL信息、处理策略数据信息、调度信息、异常处理信息

管理元数据

数据归属信息(业务归属、系统归属、运维归属、数据权限归属)

元数据管理的难点

元数据是业务和科技互通的桥梁,是数据治理的重要组成部分。因此元数据建设的好坏对金融企业整体数据以及管理带来重要的影响。我们认为元数据管理有三个难点:

数据识别:要确定要管理哪些元数据,按元数据的定义来看,只要能描述数据的数据都能作为元数据进行管理,但从价值角度讲一定要找到对数据业务、数据运维、数据运营、数据创新带来帮助的元数据进行管理,避免眉毛胡子一把抓。一般企业元数据建设都是围绕着源系统、数据平台、数据集市、数据应用中的数据模型、数据库、表、字段、报表(指标存储字段)、字段和字段间的数据关系进行管理。围绕这条主线,进一步胡管理业务元数据和操作元数据。在建设过程中要围绕本企业数据管理问题域进行虚实结合的建设。

元模型的构建:元模型其核心结构要稳定,因为元数据的建设不是一蹴而就的,需要慢慢地积累和演变,因此存储元数据的元模型结构一定要抽象出稳定的结构,比如:针对关系抽象出组合关系和依赖关系,针对模型要抽象出每一类型元数据父类或基类以方便其灵活扩展。

元数据间的关系:从元数据应用的角度来看,光分析元数据的结构对数据分析人员和数据应用的价值还不是那么突出。元数据管理的价值主要在其关系的丰富程度,举个不恰当的例子,犹如一个人,如果其社会关系足够丰富,那么其处理各种事情就游刃有余,元数据也类似数据分析和应用,一定是从其关系中探寻出数据的价值,进而知道业务或进行数据创新,从长期的实践中发现,基于信息项或字段的元数据关系构建是最稳定的。

元数据管理最佳实践

结合我们多年数据治理的经验,我们认为需要从以下三个方面进行元数据管理。

谋定而后动:元数据管理是一盘棋,需要进行管理设计,如基于规范和制度的设计、元模型的设计、实施的设计、推广的设计,每一环节都要想一想再动。

选好价值点:元数据管理是纷繁复杂的,它是对企业数据现状的一种抽象、整合和展现,其管理是复杂和不容易的,其价值有可能是隐形的、不容易察觉的,它是一项承上启下,贯通业务和技术的基础性管理工作,因此需要选好不同时期其管理的价值点,以逐步影响企业的方方面面,

选好工具:元数据管理可借助管理工具使管理工作变得相对快速和简单一些,如元数据的采集、元数据存储、数据血统、数据地图、元数据整合等都可以通过元数据工具来实现。

数据价值的保障:数据质量

数据质量管理是金融企业数据治理的有机组成部分。高质量的数据是金融企业进行分析决策和规划业务发展的重要基础,只有简历完整的数据质量体系,才能有效提升银行数据的整体质量,从而更好地为客户服务,提供更为精准的决策分析数据。数据质量体系如下图:

从技术层面上,应该完整全面地定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。数据质量的评估维度如下表所示:

维度

描述

衡量标准

自动检查

完整性

业务必须的数据项被记录

业务必须的数据项是否完整、空字符;数据源是否完整、数据取值是否完整。

及时性

数据及时更新、获取,体现当前实时

当需要使用时,数据能否反映当前事实,能够满足系统对数据的时间要求,如:位置信息等。

唯一性

该数据在特定数据集中不存在重复值。

在制定的数据集中是否存在重复数据

参照完整性

数据项在被饮用的父表中有定义

数据项是否在父表中有定义

依赖一致性

数据项与数据项之间的依赖关系

数据项取值是否满足与其他数据项之间的依赖关系

基数一致性

数据项在子表中出现的次数符合标准

如:一个账户一年计息次数为4次,就要符合账户和计息次数为1:4的标准

准确性

数据必须体现真实情况

数据内容与定义必须一致

精确性

数据精度必须满足业务要求

数据精度是否达到业务要求

可信度

数据的可信依赖度

根据客户调查或客户主动提供获得

……

……

……

元数据管理与数据质量保障相关推荐

  1. 元数据管理——企业数据治理的基石

    ​数字化时代,不少企业开始数字化转型,开始收集整理数据,但在使用途中,通常会发生数据泄露,安全没办法得到保障:数字管理混乱,查找困难,无效失效数据偏多:数据流程复杂,流程不畅,无法有效赋能业务. 这些 ...

  2. Hadoop生态系统的元数据管理和数据治理平台--Atlas 学习

    最近在规划数据治理的功能,所以研究了一下Apache Altas Atlas 介绍 Atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据 ...

  3. 百度大数据质量保障方案探索

    百度大数据质量保障方案探索 传统的测试验证手段专注于通过测试设计构建合理的输入输出,来实现代码路径覆盖.随着行业中大数据的逐渐兴起,无法满足这一新领域测试挑战.机器学习.数据挖掘.长数据流系统.大规模 ...

  4. 得物交易域数据仓库数据质量保障体系建设 |大数据测试

    一.背景介绍 目前得物数仓测试,划分成交易.增长.社区等多个模块,不同的数仓测试域,都会有一名测试人员负责跟进,根据每个版本每个域资源实际投入情况,组内会适当的调整资源,以满足日常迭代需要:单交易域这 ...

  5. 数据治理系列2:元数据管理—企业数据治理的基础

    导读:元数据管理是对企业涉及的业务元数据.技术元数据.管理元数据进行盘点.集成和管理,按照科学.有效的机制对元数据进行管理,并面向开发人员.最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统 ...

  6. 元数据管理—企业数据治理的基础

    导读:元数据管理是对企业涉及的业务元数据.技术元数据.管理元数据进行盘点.集成和管理,按照科学.有效的机制对元数据进行管理,并面向开发人员.最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统 ...

  7. 业务元数据管理——洞悉数据背后的业务含义

    本文转自微信号EAWorld.扫描下方二维码,关注成功后,回复"普元方法+",将会获得热门课堂免费学习机会! 目前,很多企业已经意识到,由于业务人员看不懂系统中存储的数据,所以难以 ...

  8. 项目纪实--如何搭建一个高可用强一致性灵活元数据管理的数据平台实现高效可靠的数据分发等功能

    项目纪实–大型数据平台系统构建 背景:18年入职这家轻松的国企,在19年难得接(抢)到一个有意思的项目,开始定义还比较简单:写一个CMS用于近期某XX项目中发布数据,开始是找到别人被别婉拒后我主动给接 ...

  9. 质量保障与管理——各大厂质量保障实践分享汇总

    QECon 2020 (9月上海站) QECon大会的视频和PPT都没有提供在线浏览,不过关注QECon的公众号可以下载到9月的PPT.访问QECon的这篇推文,点击"阅读原文"可 ...

  10. 数据质量保障的四种原则

    1完整性 是指数据的记录和信息是否完整,是否存在缺失的情况.数  据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都  造成统计结果不准确,所以说完整性是数据质量最基础的保障.比如  易中每 ...

最新文章

  1. centos7 python3.6升级到3.7_Centos7下把python 2.7升级到python 3.6(升级过程遇到的一些相关问题)...
  2. Lesson 4.5 梯度下降优化基础:数据归一化与学习率调度
  3. 第二次做HDOJ 1051
  4. linux 查看服务器序列号(S/N)
  5. 前端学习(904):同步任务和异步任务执行区别
  6. 美团点评联盟广告场景化定向排序机制
  7. BlockingQueue阻塞队列及其实现
  8. c语言 gt 5u,Linux之sar命令-php面向对象实例-WinFrom控件库|.net开源控件库|HZHControls官网...
  9. git 本地库的使用
  10. A bit of fun: fun with bits[翻译]
  11. MFC可编辑CListCtrl
  12. Flume NG 配置详解(转)
  13. 基于Xamarin移动测试云测试你的Android/iOS移动应用
  14. windows制作黑苹果双系统
  15. 华硕T100TA安装凤凰OS
  16. Py之pyHook:pyHook库函数的简介、安装、使用方法之详细攻略
  17. python抓取网页图片教程_Python实现简单网页图片抓取完整代码实例
  18. Java实现CCF/CSP 201312-2 ISBN编号(零分!!!
  19. 操作系统之运行环境简介
  20. js实现微信表情回显

热门文章

  1. 计算机系学霸表白,高级暗语表白 学霸隐藏式表白
  2. Mac OS X 清除DNS缓存
  3. UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS
  4. shell脚本:备份数据库、代码上线
  5. 软件测试oracle怎么学,怎么自学软件测试?
  6. C1041: 无法打开程序数据库“xxx.pdb”;如果要将多个 CL.EXE 写入同一个 .PDB 文件,请使用 /FS
  7. 计算机启动过程:MBR和BIOS
  8. PHP笔记——开发工具VS Code
  9. LSTM - 长短期记忆网络
  10. Mysql根据经纬度查询半径多少以内的数据,画个圈圈查数据库