科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,因此企业所使用的应用系统也就越来越多,企业在业务发展过程中沉淀了大量的数据,但是这些数据没有为企业带来直观的价值,没有形成企业的数据资产,所以越来越多的企业进入到了数据治理阶段,对于主数据治理的需求越来越明确。

MDM基础数据管理平台是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行已系列的管理和维护、分发把治理后主数据分发给各个业务系统包括源头。而本篇文档将介绍对主数据完整生命周期中涉及到的一些功能模块的优化,确保产品在现有的基础上更加完善,可以满足用户的需求。

1整体介绍

主数据治理方案可以将企业的组织、人员、客户、供应商等高度共享的数据进行统一管理,对需要的业务系统进行同步分发,使数据易采集、易理解、易分析,提高部门与部门之间的沟通效率。

1.1产品说明

MDM基础数据管理系统是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行一系列的管理和维护、分发是把治理后主数据分发给各个业务系统包括源头。

通过以上各个过程的相互配合去从根本上解决企业各个业务系统之间数据不能共享,数据重复、错误等问题。使得企业在数据方面更完善,业务进行更顺畅。

1.2产品方案

1.应用集成方案 ESB + MDM

2.统一身份方案 IDM + ESB

3.基础数据方案 MDM + ESB

4.数仓建设方案 DAP + ESB

5.集成底座方案 IDM + MDM + ESB (iPaaS方案)

6.数据中台方案 MDM + ESB + DAP (dPaaS方案)

7.应用中心方案 MDM + ESB + Portal (aPaaS方案)

8.全域集成方案 ESB + MDM + DAP + Portal + IDM (ePaaS方案)

1.3质量管理

MDM主数据管理平台对于数据质量的管理有两种主要途径:数据巡检和数据清洗。两者的区别在于数据巡检是针对已经存在于MDM中的数据,筛选出相似数据,相似度和相似字段可以在功能建模中进行配置;而数据清洗是在数据进入到MDM之前对数据进行校验,包括重复校验以及基于各种校验规则对数据进行清洗。

2数据质量

数据质量,是指在业务环境下数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。在不同的业务场景中,数据消费者对数据质量的需求不尽相同,有些人主要关注数据的准确性和一致性,另外一些人则关注数据的实时性和相关性。因此,只要数据能满足使用目的,就可以说数据质量符合要求。

2.1质量说明

数据质量的定义可能要从多个维度出发去衡量。如果从用户角度考虑,能满足用户特定需求所需的程度;如果从数据本身出发去考虑,那就需要查看数据的各个参数部分去衡量优劣势;如果从数据过程来定义数据质量,则需要看数据能否被正确使用、存储以及传输来定义数据质量。

2.2质量评估

数据质量是保证数据应用的基础,它的评估标准主要包括五个方面:完整性,一致性、准确性、唯一性、及时性。数据是否达到预期制定的需求,就可以通过这五个方面来判断。

1.完整性指的是数据信息是否存在缺失,数据缺失可能是整条记录的缺失,也可能是一条数据记录中某些字段值缺失。信息缺失的数据的借鉴价值就会大大降低。所以数据完整性也是数据质量评估最基础的一项标准。

2.准确性指的是数据记录的信息是否存在异常或者错误。和一致性不一样的是,存在准确性问题的数据不仅仅是在规则上不准确,也有可能是其他方面,比较常见的像数据乱码。其次,异常的大或者小也是不准确的体现。

3.一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据的一致性主要体现在数据记录的规范和数据是否符合逻辑。数据规范指的是,一项数据存在固定的格式,例如手机号一定是一串十一位的数字;逻辑指的是,某些数据之间存在着固定的逻辑关系,例如数据相似度一定是介于0到1之前的数值。

4.唯一性是指数据相互之间是否重复。当然这个所谓的重复并不一定就是百分百的重复,也有可能是在某些字段上的重复。而哪些数据重复会被认定为重复也要看具体情况,例如不同分组下的数据就有可能存在重复数据,但确实符合业务逻辑的。

5.及时性是指数据从产生到可以查看的时间间隔。及时性对于数据分析的要求并不高,但是如果数据分析的周期加上数据建立的周期时间过长,那么这些数据也就失去了借鉴的价值。

2.3质量提升

MDM主数据管理平台作为一款解决企业数据问题的产品,自然有着独有的提升数据质量的方法。主数据平台中有质量管理的模块,其中,数据清洗以及数据巡检这两个功能可以用于提升数据的质量

数据清洗主要是针对源头业务系统中的数据导入到主数据平台之前,需要先通过清洗功能将不符合质量要求的数据过滤出来,进行调整之后再次清洗,直至数据质量过关;而数据巡检主要是在日常数据操作的过程中可以通过配置巡检策略对数据的相似度进行查看,针对存在问题的数据可以进行调整直到符合前期制定的质量需求。

3数据巡检

数据巡检主要是用来保证数据的唯一性,通过巡检功能来对数据进行查重处理来保证分发到下游业务系统的数据是唯一的。

3.1功能说明

目前MDM中相似度巡检运算方式是根据多个字段的组合通过相似算法算出他们的相似百分比,然后查看是否超过配置的百分比数字,如果超过就判定为相似数据,然后记录到数据表中,还需添加新的质量校验算法,通过结果值乘以不同字段的阀值再除以阀值的相加和得出的数字进行数据巡检,巡检支持结果Excel输出,帮助客户提升主数据质量。

3.2功能配置

1.应用巡检功能需要配置巡检字段和巡检相似度,这两项是必须要配置的,否则无法进行巡检。

2.除了字段和相似度也可以配置巡检启动时间和时间间隔;启动时间为自动巡检的时间,而时间间隔是一次巡检结束后,隔多久进行下一次巡检。

3.配置好这些参数,就可以进行数据巡检的操作了。

3.3功能展现

1.主数据平台中预置的所有主数据以及新增的主数据都会显示在数据巡检页面上,如图所示:

2.单击选中一条数据点击执行会对该类主数据下的所有数据进行相似度的巡检,可以根据状态判断巡检是否完成,巡检结束后会显示相似数据的个数。

3.双击一条数据可以进入到相似数据页面来查看相似数据。

4.上面页面显示的是所有的相似数据,而每一条数据点击查看或者双击可以查看与之相似的数据。然后就可以对这些数据进行处理了。

4数据清洗

数据清洗就是在同步和治理过程中把主数据一些欠缺的、重复的、不符合规则的数据筛选出来,然后导出到Excel中,在Excel中调整完毕后再次导入清洗功能中直至数据全部清洗成功。

4.1功能说明

通过数据清洗功能下载主数据导入模板,源头业务系统把数据填写模板中,通过数据清洗导入功能进行导入清洗,检测出数据中欠缺的、重复的、不符合规则数据,通过导出功能把失败的数据导出到Excel中进行数据处理后,再重新导入重新检测直到所有数据成功为止,然后把所有成功的数据导出Excel中,返回给业务源头系统进行源头系统的数据清洗(源头系统添加主数据编码映射),通过主数据任务分发把标准的数据分发给业务,这样就把源头、主数据、下发至业务系统数据保持一致。

4.2功能配置

1.创建主数据通常分为两个部分,一个是数据建模,一个是功能建模,这两部分中都有数据清洗相关的配置。首先从数据建模中说起,在编辑主数据信息的时候可以选择是否需要数据清洗功能,如下图所示:

2.如果选择了数据清洗,当跳转到数据建模页面中时,就需要配置字段关联的校验规则了,之后的清洗过程就会按照配置的校验规则去执行。

3.配置好校验规则后点击提交按钮就会跳转到创建表的页面并生成数据清洗相关的那四张表,点击创建和提交,数据建模部分相关的配置就完成了。

4.接下来是功能建模,功能建模中配置的一个是数据清洗导出的策略,这个导出包括过程中导出和导出最终清洗结果。这个策略分为两种,分别为导出全批次成功和导出单批次全量。全批次成功导出的是所有批次下清洗成功的数据,单批次全量导出的是最后一个批次下的所有数据,如图所示:

4.3功能展现

1.左侧树选择对应的主数据节点,点击批次导出选择想要清洗Excel数据,导入之后如图所示,页面右上角会显示功能建模中配置的清洗导出策略,过滤条件框最右侧可以通过勾选是否重复来直接查看重复数据。

2.对于失败的数据,可以点击查看或者双击一条数据来查看数据详情和错误信息,如图所示:

3.清洗过滤可以通过字段和校验规则筛选出符合过滤条件的数据。

4.进入到数据详情页面可以查看重复数据的信息,包括常规的字段和重复的字段信息。

5.对于重复,清洗功能自带排除功能,可以将重复数据进行排除,如果不小心误删也可以通过还原按钮将数据还原回去,类似电脑桌面上的回收站功能。

5心得总结

最后一部分是对数据质量相关的一些个人理解,包括数据治理,数据质量分析以及产品的发展。

5.1数据治理

“数据”已成为企业的一项宝贵的战略资产。为了使庞大的数据发挥更大的价值,企业必须着眼于数据治理和综合利用。主数据驱动的数据治理是指从企业杂乱的数据中捕捉具有高业务价值、被企业内各业务部门重复使用的关键数据进行管理,构建单一、准确、权威的数据来源,从而提高企业的整体数据质量,提升数据资产价值,推动业务创新,全面增强企业竞争力。

5.2质量分析

数据质量分析是数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。常见的脏数据类型包括缺失值、异常值、不一致的值以及重复值。通过分析结果对数据进行处理,从而保证数据质量。

5.3产品发展

产品诞生要从不同角度来扩展迭代每个产品,通过从项目去,再从项目来,通过客户的需求筛选出我们产品需要的功能,进行产品功能升级,增强产品的功能性,而且需要做到换位思考,了解项目中实施的重点和难点,总结经验,扩展向导功能,加强产品的易用性,并且在开发时要考虑产品的性能和稳定性。

为了更好地开发产品,真正要做的是产品和项目本身的分离,将开发出来的产品作为一个平台,项目的特色化定制则是通过在产品基础上的配置和实施来实现。实施本身存在差异,但是作为通用化底层模型的产品平台本身可以产生强大的规模效应和底层支撑。另外推进产品开发的时候,要立足长远,不能仅想着开发的产品能不能满足现有需求,还要转变思想去挖掘潜在的市场需求。

MDM数据质量应用说明相关推荐

  1. Stibo Systems(思迪博) 荣获数据质量卓越实践奖并获得CSTC权威鉴定

    摘要:Stibo Systems(思迪博)荣获2021第五届数据质量管理国际峰会数据质量卓越实践奖并成功通过中国软件评测中心技术鉴定和测试,获得权威报告. 2021年12月28日,由北京大学.国家电网 ...

  2. DataCleaner 3.1.1 发布,数据质量分析管理

    DataCleaner 3.1.1 扩展了日期和时间相关的分析:增加周.月.年的分布分析:数值分析和日期时间分析增加了描述统计的选项:新增用于生成 UUID 和时间戳的转换器等等. DataClean ...

  3. 如何在HHDI中进行数据质量探查并获取数据剖析报告

    通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况.目前支持以下几种数据剖析类型,分别是:数字值分析.值匹配检查.字符值分析.日期值分析.布尔值分析.重复值 ...

  4. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  5. 数据质量和模型调优哪个更重要?

    AI与数据科学技术发展及商业价值探讨 MLOps & MLaaS 系列活动二 Data-centric V S Model-centric 人工智能 (AI) 正在吸引越来越多的企业投资.随着 ...

  6. 技术16期:如何更好的保证数据质量【大数据篇】

    数据质量管理不单纯是一个概念,也不单纯是一项技术.也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论.技术.业务和管理为一体的解决方案. 通过有效的数据质量控制手段,进行数据的管理 ...

  7. 爱奇艺数据质量监控的探索和实践

    01 问题和目标:为什么要进行数据质量监控? 数据质量监控其实跟当前疫情的防控工作有些类似,核酸检测能尽早去发现病毒,溯源则会更了解病毒会在哪些场景,或者对哪些人有比较大的影响,方便进行跟踪,这和数据 ...

  8. NanoPlot:三代纳米孔测序数据质量评估

    简介 二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC.此外速度超快的fastp也特别推荐,而且包括质量评估.质量控制等功能,可以说是国产软件之光,详见下方详细教程: 数 ...

  9. 关于数据仓库数据质量的问题处理

    ETL 是数据仓库的最重要的基础,良好的 ETL 从业务系统中抽取数据,转换数据质量,保证数据一致性,这样才能够保证各个独立的不同的数据源能够集成到一起,最终只有这样才能真正达到决策支持的目的. 自己 ...

  10. “智源 — INSPEC 工业大数据质量预测赛” 上线,为硬核工业制造炼就 AI 之心...

    2019 年 12 月,北京智源人工智能研究院联合博世和数据评测平台biendata,共同发布了"INSPEC 工业检测大数据 (Industrial Specification Inspe ...

最新文章

  1. 关于顺序栈的基本操作
  2. 获 3.8 亿用户青睐,中国电信翼支付如何数据化运营?
  3. java for 死循环_简单的java死循环 java中的死循环问题
  4. 网格布局每个网格都能放置一个组件_Android综合试题
  5. python 笔记(三) 断言(assert)
  6. 预训练模型对实体的表示能力差?一个简单有效的解法来了!(开源)
  7. 2020年工业互联网行业研究报告(国盛证券)
  8. 外设驱动库开发笔记27:ESP8266无线通讯驱动
  9. Bootstrap 输入框组中控件的尺寸
  10. Linux 文件系统 软/硬链接文件
  11. 【恋上数据结构】复杂度知识以及LeetCode刷题指南
  12. Ubuntu apt-get update 失败【转】
  13. mysql sql数据排名_查询数据排名情况SQL
  14. 调用wsdl的接口-用axis
  15. PHP User Agent
  16. Java面向对象思想
  17. 浙江高级职称英语 计算机考试时间2016,浙江省2016年度全国专业技术人员职称外语等级统一考试时间...
  18. 魅族手机便签里的备忘录内容如何导出到华为手机上?
  19. u2020 华为_顶级标压U加持轻薄本!华为MateBook 13 2020锐龙版评测
  20. 2020中兴捧月算法大赛参赛总结

热门文章

  1. BUUCTF WEB easyweb
  2. java常量池存放什么_java常量池存放在哪里
  3. 计算机网络复习重点/经典考试知识点
  4. 互联网医院远程医疗在线问诊药品商城处方流转系统源码spring boot+vue全开源
  5. win7 php7.1,win7下php7.1运行getenv('REMOTE_ADDR')fastcgi停止运行-Go语言中文社区
  6. .NetCore获取拼多多平台优惠券
  7. 分享 :理解和管理社交媒体算法的4个想法
  8. 多空对比:一个实用的短中长期资金观察指标介绍
  9. Linux 时间戳获取及转换
  10. ubuntu搜狗拼音输入法选词框乱码