数据质量常从八大基本要素(准确性、及时性、即时性、真实性、准确性、完整性、安全性和扩展性)入手,制定全集团范围内的数据质量度量标准,而八大基本要素又可以分别从单列、跨列、跨行和跨表几个角度进行分析

检查类型 说明 单列 跨列 跨表 跨行
完整性 主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面---主外键完整性检查
例如:楼盘表中的城市代码地行政区划主数据表中不存在
不可为空类 1.应为空值类,属性满足某些条件下不可维护值
2.不应为空值,属性满足某些条件下必须维护值
1.外关联约束类,如楼盘表中的城市必须在城市维表中存在
及时性 指数据提取、传送、处理、装载、展现的及时和快速性
有效性 主要包括值域和业务规则的有效性 1.语法约束类,如,身份证号符合国家标准要求
2.格式规范类,如,日期格式检查
3.长度约束类,如,楼盘ID长度8位以上
4.值域约束类,如:楼栋高度在0-100之间
1.业务规则约束类,
唯一性 指主键唯一和候选键唯一两个方面 记录唯一类,如:楼盘ID不可重复出现
一致性 指统计口径上数据使用的一致性,系统间,表与表之间数据的一致性(可以扩展为数据波动性检查) 1.单表等值一致约束类,如上刊率=上刊时长/可用上刊时长
2.单表逻辑一致约束类,如合同的结束日期不能早于开始日期
1.跨表等值一致约束类,如:同一指标在多表中存在,需要保持数据值一致
准确性 指计量误差、度量单位等方面的精确度
内容正确、格式合法、数据唯一、脏数据
准确性--波动性 数据量在不同时间段的波动,根据设置的阈值,来判断合理性。
全安性 主要包括数据在传输、使用过程中的安全性
扩展性 该系统数据体系在不满足业务需求时进行扩展的可能性与复杂度

大数据之数据质量检查相关推荐

  1. 除了数据还是数据?2018年5大 AI (人工智能)预测

    人工智能 (AI) 在 2017 年已成为多数人日常生活的一部份,不论是在工作场所或是居家生活,而随着新的一年将至,<福布斯>杂志也对 AI 进入 2018 年的成长与发展进行预测: 数据 ...

  2. 大数据环境下数据科学的知识体系

    数据科学概论 随着互联网的飞速发展,大数据(Big Data)的概念和技术成为当下流行的领域. 数据科学(Data Science)这一体系也随着大数据的崛起成为讨论热点.在各大招聘网站上," ...

  3. 为什么大数据需要数据湖?

    自2011年"数据湖"概念被提出,业界便对数据湖一直有着广泛而不同的理解和定义. "数据湖是一个集中化存储海量的.多个来源,多种类型数据,并可以对数据进行快速加工,分析的 ...

  4. 连载:阿里巴巴大数据实践—数据服务

    简介:服务架构的每次升级,均在性能.稳定性.扩展性等方面有所提升,从而能更好地服务于用户 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公总号(文末扫 ...

  5. 连载:阿里巴巴大数据实践—数据建模综述

    简介:数据模型就是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据. 前言: -更多关于数智化转型.数据中台内容请加入阿里云数据中台交流群-数智俱乐部 和关注官方微信公总号(文末扫描二 ...

  6. 连载:阿里巴巴大数据实践—数据开发平台

    简介:介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍. 前言: -更多关于数智化转型.数据中台内容请加入阿里云 ...

  7. 深度学习数据集中数据差异大_使用差异隐私来利用大数据并保留隐私

    深度学习数据集中数据差异大 The modern world runs on "big data," the massive data sets used by governmen ...

  8. 2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.9,刊 ...

  9. 《大数据》第1期“研究”——大数据是数据、技术,还是应用

    大数据是数据.技术,还是应用 朱扬勇1,2,熊 赟1,2 1. 复旦大学计算机科学技术学院 上海 201203:2. 上海市数据科学重点实验室(复旦大学) 上海 201203 摘要:通常认为大数据是一 ...

  10. 从数据仓库到大数据,数据平台这25年是怎样进化的?

    文:李博源 从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识.架构模式的演进与变革.数据平台这25年究竟是怎样进化的? 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业.很多从 ...

最新文章

  1. Java线程池(一)
  2. Java2WSDL 和 WSDL2Java(Axis)
  3. Swift—初始 (1)
  4. 神策数据 2018 校招启程了!
  5. Response_功能介绍
  6. 列出所有K个元素的子集-----2013年1月26日
  7. 去除文件头部的u+feff_关于FEFF的简短故事,一个不可见的UTF-8字符破坏了我们的CSV文件
  8. 词形变换和词干提取工具(英文)
  9. Ubuntu 10.10 安装新版 Ubuntu One 客户端
  10. GitHub排名第一!免费最”强“12306抢票神器,程序员再不用跪求加速包!
  11. 华为手机html乱码,华为手机系统语言变成乱码了怎么办?
  12. import xlwings时_pickle.UnpicklingError: invalid load key, ‘\x00‘解决方案
  13. 数理统计学类毕业论文文献都有哪些?
  14. matlab生成特定矩阵
  15. 算法笔记【1】 Kruskal - 克鲁斯卡尔算法
  16. 快刀初试:Spark GraphX在淘宝的实践
  17. 管理科学与工程和计算机哪个难考,考研管理科学与工程 管理学和工学哪个好考?...
  18. c4d工作平面模式关闭不了
  19. Windows API GetLastError错误代码解释大全(最完整的一篇)
  20. mac断网后服务起不来

热门文章

  1. 请求转发和重定向的区别以及什么时候使用
  2. 杰理之BQB 的 RF 测试【篇】
  3. 性能分析-云盘-sysbench IO测速脚本
  4. CSS3 线性渐变循环动画
  5. 电脑虚拟摄像头 -obs及obs虚拟摄像头插件(免费)
  6. ArangoDB——操作案例二
  7. 在线文档查看器GroupDocs.Viewer 9月新版V17.9发布 | 附下载
  8. 5G套餐到底该不该换?看完你就明白啦!
  9. mac电脑上遇到的坑,持续更新...
  10. MySQL 完全备份 + 增量备份+完全恢复