数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。

通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力,一切业务、技术和管理活动都围绕这个目标和开展。

数据质量问题

数据质量问题通常会存在以下几个方面的问题,通常对数据质量的评估也是围绕这几个维度进行的。

  • 数据准确性:用于分析和识别无效或者不准确的数据,不可靠的数据可能会导致严重的问题。

  • 数据唯一性:用于识别和度量重复数据、冗余数据,重复数据是导致业务无法协同、流程无法追溯的重要因素,是需要解决的最基本的数据问题。

  • 数据完整性:唯一性约束不完整、参照不完整;数据条目不完整、数据记录丢失或不可用;不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的问题。

  • 数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

  • 数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如主外键关系、索引关系等。会直接影响数据分析的结果。

  • 数据及时性:能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

数据质量问题的根因分析

影响数据质量的原因包括技术、业务、管理三个方面。

现在从这三方面分析下产生数据质量问题具体因素。

1

技术层面

  • 数据模型设计数据库表结构、约束条件、校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

  • 数据源质量控制源系统数据质量本身不可控,从生产环境中采集的数据存在重复、不完整、不准确等问题。而在进行数据采集时是否对数据做清洗处理、清洗规则是否符合业务需求。

  • 数据采集过程采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。

  • 数据传输过程数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。

  • 数据装载过程:数据清洗规则、数据转换规则、数据装载规则配置有问题。

  • 数据存储质量数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。

2

业务层面

  • 业务需求不清晰:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。

  • 业务需求的变更这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

  • 业务端数据输入不规范数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

3

管理层面

  • 数据输入规范不统一不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。

  • 缺乏有效的数据质量问题处理机制数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。

  • 缺乏有效的数据管控机制对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。

数量质量的把控

定义数据质量标准

常用的数据质量评价标准在上述内容提到过:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。

数据加工过程把控

在这些环节中,可以采用以下方式来保障数据质量

(1)代码核查

开发相关的规则分类大致为:

-代码规范类规则:如表命名规范、字段命名规范、生命周期设置、表注释等

-码质量类规则:数据清洗规则是否符合业务预期需求、特定字段的数据格式是否标准统一等。

-代码性能类规则:如是否存在大小表join操作、多表进行join操作等

(2)代码发布核查

加强测试环节,测试环境测试后再发布到生成环境,且生成环境测试通过后才算发布成功。

总结:

从数据的源头抓起,严格落实规范和机制。关于数据需求的逻辑、模型设计如何规范化、代码是否有CR(CodeReview)机制等方面的流程,一定要有明确的定义以及标准。

设置质量管理点质量控制点,从根本上解决数据质量问题。一旦发现数据的异常值,抓住影响数据质量的关键因素,可以根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。

- 完 -

想学习更多的技术内容, 别忘了关注普适极客哦~

技术16期:如何更好的保证数据质量【大数据篇】相关推荐

  1. 数据蒋堂 | 大数据技术的4个E

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...

  2. 大数据入门-大数据技术概述(一)

    目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...

  3. 从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  4. ​数据整理——大数据治理的关键技术

    数据整理--大数据治理的关键技术 杜小勇1,2, 陈跃国1,2, 范举1,2, 卢卫1,2 1. 中国人民大学信息学院,北京 100872: 2. 数据工程与知识工程教育部重点实验室(中国人民大学), ...

  5. 如何用更好的数据管理去挖掘大数据的商业价值

    大数据火爆的年代,大数据在我们的经济社会中肆虐蔓延,发挥着自己独有的影响和威力.没办法,谁叫这个互联网时代的蓬勃发展让大数据的商业价值一直在持续扩大.增长,谁能更快更准确更全面地掌握大数据的商业价值, ...

  6. swiper 滚回第一个数据_大数据是个技术,数据库才是它最好的产品形态

    星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何? "我们认为,大数据是个技术,数据库才是它最好的产品形态&quo ...

  7. 【技术分享】李文哲:基于图数据库的大数据应用

    本文整理自DTCC2016主题演讲内容,录音整理及文字编辑IT168@田晓旭@老鱼.如需转载,请先联系本公众号获取授权! 演讲嘉宾 李文哲 普惠金融首席数据科学家 普惠金融(puhuifinance. ...

  8. 董长青(1980-),男,北京卡达克数据技术中心软件业务本部高级工程师,主要研究方向为大数据、车联网。...

    董长青(1980-),男,北京卡达克数据技术中心软件业务本部高级工程师,主要研究方向为大数据.车联网.

  9. 任女尔(1990-),女,北京卡达克数据技术中心软件业务本部助理工程师,主要研究方向为大数据、云计算。...

    任女尔(1990-),女,北京卡达克数据技术中心软件业务本部助理工程师,主要研究方向为大数据.云计算.

最新文章

  1. android zip解压缩(含有子目录)
  2. python 按照要求对字符串进行处理
  3. Docker容器的文件系统管理
  4. JSP、EL和JSTL-学习笔记04【JSTL常用标签】
  5. 日志规范之slf4j整合Log4j以及Logback
  6. NetBeans Java EE技巧#1 –数据库中的实体类
  7. django-学习索引1908版
  8. Python中表达式和语句及for、while循环练习
  9. win7 系统增加自定义分辨率_完美适配win7操作系统的平板电脑,专治软件不兼容...
  10. IT结合测试时,准备数据的注意事项(之二:表之间的关系)。
  11. 最简单判断系统大小端
  12. 最大最小距离聚类算法c语言,聚类算法-最大最小距离算法(实例+代码)
  13. ubuntu 时间戳不对
  14. 如何弥补mac系统存在的局限性
  15. delphi下载网站文件(支持https协议)
  16. java实现RSA公私钥PKCS8与PKCS1之间的相互转换(java RSA pkcs8转pkcs1,RSA pkcs1转pkcs8),PKCS8和PKCS1公私钥byte数组还原为java对象
  17. python中find函数的使用方法_详解Python中find()方法的使用
  18. 关于环境光、漫反射、镜面反射
  19. cubieboard mysql_【Linux】【笔记】Cubieboard开发板Debian系统+SAMBA共享+远程迅雷Xware+Nginx+PH......
  20. codelite 设置

热门文章

  1. 内行的AI盛会——北京智源大会带你洞见未来!(含日程及限量优惠)
  2. 打破深度学习局限,强化学习、深度森林或是企业AI决策技术的“良药”
  3. 微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019
  4. 登陆成功率 99%,云知声携手平安好医生推声纹登录系统
  5. 城市追风口,车企“缉拿”路测牌照
  6. 用Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常
  7. Springboot中优雅进行字段校验
  8. 阿里面试题:分库分表无限扩容后的瓶颈以及解决方案
  9. KonaJDK 助力微服务国密算法使用特性一览
  10. 监控、链路追踪、日志这三者有何区别?