转自:https://zhuanlan.zhihu.com/p/41679658

在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。

数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。

本文主要探讨了一二线互联网公司数据质量监控平台。

一、Data Quality Center(DQC阿里巴巴数据质量监控平台)

1.系统架构图

(1)基于线上业务数据,进行数据采集

(2)基于监控规则库,执行SQL任务,进行计算处理

(3)基于用户规则,发送数据报警(短信、邮件)

2.系统流程图

(1)用户进行规则配置

(2)通过定时的调度任务触发检查任务执行

(3)基于任务配置,获取样本数据

(4)基于计算返回检验结果

(5)调度根据检验结果,决定是否阻断干预(强依赖、弱依赖)

二、 Apache Griffin(Ebay开源数据质量监控平台)

1.系统架构

(1)从准确性、完整性、时效性、唯一性等多个维度进行监控

(2)计算结果存储至ES、HDFS

(3)计算结果metrics展示

(4)支持实时和离线

(5)优势:开源

2.系统技术路线

3.metrics展示

三、 DataMan(美团点评数据质量监控平台)

1.系统架构

DataMan系统建设总体方案基于美团的大数据技术平台。自底向上包括:检测数据采集、质量集市处理层;质量规则引擎模型存储层;系统功能层及系统应用展示层等。整个数据质量检核点基于技术性、业务性检测,形成完整的数据质量报告与问题跟踪机制,创建质量知识库,确保数据质量的完整性(Completeness)、正确性(Correctness)、当前性(Currency)、一致性(Consistency)。

2.metric展示

四、 BDP(京东大数据质量监控平台)

京东数据质量监控系统(简称:数据质量系统) 是数据仓库、数据集市中表的数据变化进行监控。数据质量系统根据用户设定采集项配置、规则项配置、预警规则设置(枚举值),对用户指定的表进行每日定时数据采集、计算,并与历史数据或维表进行比对验证。最终将触发预警规则的异常数据以短信、邮件、App 等方式及时通知给用户。

1.系统架构图

关系型数据库mysql和非关系型数据库HBase作为数据源,进行监控

2.系统流程图

(1)数据监控(2)运行日志(3)数据报警(4)规则配置

3.监控展示

上述主要分析了当前各大公司主要在使用或者开发的数据质量方面的平台,无论是离线数据监控还是实时数据监控,均有涉及。然而可能你的公司没有这么多的人力或者物力,但是由于数据量的增长,需要考虑数据治理方面的问题,就可以考虑采用开源的平台,在此基础上开发或者优化,毕竟站在前人的肩膀上才能看的更远,走的更快。

各大公司的大数据质量监控平台相关推荐

  1. 大数据成败之“监”:美团数据质量监管平台这样搭建

    http://www.sohu.com/a/227310642_411876 背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力. ...

  2. 数据仓库之数据质量监控

    文章目录 ==数据质量的理解== ==数据质量维度== ==问题反馈流程== ==数据质量治理的三个阶段== ==数据质量产生的根本原因== ==数据质量治理的对象== ==数据质量战略== ==数据 ...

  3. DataMan-美团旅行数据质量监管平台实践

    背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力.Michael Hammer(<Reengineering the Cor ...

  4. 开源大数据数据质量监控调研

    开源工具选择不多,目前了解到的就以下3种: Qualitis griffin DolphinScheduler(最近有人上传了分支,支持数据质量监控功能) 1 Qualitis 腾讯微众银行开源,主要 ...

  5. 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

    编译:刘佳毅,花名佳易,阿里巴巴计算平台事业部EMR团队开发工程师,目前从事大数据安全相关方面工作. 摘要: 本文主要对Databricks如何使用Spark Streaming和Delta Lake ...

  6. 爱奇艺数据质量监控的探索和实践

    01 问题和目标:为什么要进行数据质量监控? 数据质量监控其实跟当前疫情的防控工作有些类似,核酸检测能尽早去发现病毒,溯源则会更了解病毒会在哪些场景,或者对哪些人有比较大的影响,方便进行跟踪,这和数据 ...

  7. 数据质量监控Griffin——使用

    一.环境 生产环境 数据质量监控griffin: 地址:http://XXXXXXXXX:4200/#/health 账号:admin 密码:123456 二.Griffin是干什么的? 官方介绍 大 ...

  8. 【数据仓库学习】数据质量监控

    0x00 前言 往往那些不起眼的功能,最能毁掉你的工作成果. 本篇分享一些和数据质量监控相关的内容.数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的. 文章结构 数据 ...

  9. ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三)

    文章目录 ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三) Text-to-Text 模型 ChatGPT LaMDA P ...

  10. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第五节:数据质量监控

    前言 数据质量监控 是容易被忽略的一个重要环节,我刚开始搞数据库时压根也没想到会有这档事,直到频繁出现几次数据"翻车"事故后,才感受到它的重要性与必要性:如果连数据源的状况都不能掌 ...

最新文章

  1. 进程状态控制-进程的挂起和激活
  2. 综述|基于深度学习方式的场景分类算法
  3. TOJ 3750: 二分查找
  4. 你真的理解“吃亏是福”么?
  5. [Swift]LeetCode388. 文件的最长绝对路径 | Longest Absolute File Path
  6. 面试官:能说下 SpringBoot 启动原理吗?
  7. 在Google的GPU上永远免费训练您的机器学习模型
  8. spring中的监视器,过滤器,拦截器
  9. Java和Python安装和编译器使用
  10. 浙江省2021年英语高考成绩查询,浙江高考成绩查询、志愿填报时间公布!
  11. Spring注解 @Async 实现异步调用方法
  12. jdk的ServiceLoader
  13. Android7.1取消wifi图标叉号
  14. 一键启动按钮线断了_【汽车用车】汽车一键启动功能不仅只用来打火,还可以这么操作?...
  15. echarts 图表数据更新方式
  16. 知识星球问答精选(附五一赠书活动)
  17. 生成树协议中的五种状态Spanning Tree
  18. 微信又更新啦,再也不怕错过女朋友的消息
  19. 329 矩阵中的最长递增路径
  20. 100 道 Linux 常见面试题,建议收藏!

热门文章

  1. laravel 开源文档管理系统
  2. PHP RSA 报错 openssl_sign(): supplied key param cannot be coerced into a private key
  3. 互联网服务:从单一应用到微服务
  4. 龙芯3A3000编译安装Postgresql12.2
  5. 嘉兴学院c语言期末考试题库,液压与气压传动(嘉兴学院)知到APP答案
  6. Pytorch对梯度进行rescale
  7. 手机端用云服务器文件在哪里设置,如何使用FolderSync在安卓手机上同步文件夹到坚果云? | 坚果云帮助中心...
  8. hihocoder 1378(有向图求最小割集)
  9. 常用手机和平板的主流屏幕分辨率及适配注意项
  10. ascii码所有字符对照表(包含汉字和外国文字)