数据质量第一步—数据监控
往往那些不起眼的功能,最能毁掉你的工作成果。假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,它带来的负面影响会超过你之前做的100个业务带来的正面影响。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。
数据质量的关键所在包括:大致分为完整性,一致性,准确性,有效性和及时性这五个组件。当这些组件中的每一个都被正确地执行时,它将产生高质量的数据,同样重要的是,使用收集数据的每个人都必须对数据所代表的内容有一个大致的了解。高质量的数据将确保更有效地推动公司的成功,因为它依赖于基于事实的决策,而不是习惯性的或人类的直觉。
完整性:确保数据中应该收集的和实际收集的数据之间没有差距
解决方案:如果数据不完整,可以通过暂停提交来解决此问题。通过使用强制字段功能,可以轻松实现数据完整性。
一致性:数据类型必须与收集的数据的预期版本一致。
解决方案:可以通过使用数据收集应用程序中的下拉菜单来确保这一点,这将是以预期格式一致的方式收集数据。而不是自由形式的填写,还有一些预先确定的选项可供选择。
准确性:收集的数据是正确的,相关并准确地表示它应该是什么。
解决方案:准确性比数据完整性和一致性更有难度。准确的数据经验累积和训练有素的结果,但是,仍然存在人为错误的空间。为了减少不准确的可能性,必须实施额外的措施,例如将图片捕获,GPS位置和时间戳添加到记录的事件中。
有效性:有效性来自过程而非最终结果。
解决方案:当需要修复无效数据时,过程会出现问题最多的地方,而不是结果。
及时性:应在预期时间收到数据,以便有效利用信息。
解决方案:实时数据,任何较慢的速度都不能提供足够的信息。有了实时数据和分析,企业就能更好地做出更有效、更明智的决策。迫切需要消除实地完成调查和收到调查之间的时间差
数据质量监控要做哪些监控内容
我把数据质量分成三部分来理解:
• 监控
• 告警
• 多数据源
一、 监控
重点在监控,监控这一块比较大。整体来讲,我会把它分为这几块:日常监控、数据对账、性能监控。下面分开来讲。
1. 日常监控
日常监控中最重要的一个就是数据落地检查,这应该是所有监控的一个基础。
下面是我认为一些比较常用的监控内容:
数据落地监控
数据掉0监控:实际扩展一下就是数据量阈值监控,少于某个量就告警
重复数据监控:很多表一定要监控重复数据的,这点至关重要。
关键指标监控
数据同比环比监控
2.数据对账
这点主要会体现到实时数据上,特别是Kafka数据落地,必须要有一个监控机制来知道我们的数据落地情况。
当然离线数据同样需要数据对账,对账方法有很多,比如可以和业务库来对比。
3. 性能监控
我把这点理解为数据可用性监控,我认为这是一个很重要的点。 如果你做的数据别人用起来十分不爽,或者慢得要死根本没法用,那做了和没做有什么区别?
在性能监控上就是有几个点要注意:
查询性能,比如es的某个索引,在不同时间段的查询响应速度。
数据读写影响,机器故障影响,这点平常不太关注,不过像es这种,在写入数据的时候其实会影响读数据的,需要监控一下,并做相应调整。
二、告警
告警就不用说了,微信、短信和电话都很有必要。定期的邮件汇总告警也很有必要。然后有很多的告警可以考虑一个告警报表系统来展示,特别像是数据量趋势这种监控内容,可视化的对比比较有效。
三、 多数据源
在目前的大数据场景下,各种开源组件引入的十分多,而且会有新的组件不停地引入,因此要考虑到对不同组件的数据监控。
怎样监控
数据监控相对来讲是属于后台系统,不能算是对外的业务系统,一般重要性可能会被挑战,虽说如此,它还是值得一做的。 不过可能要换一些思路来做,如何快速地实现、并抓住核心的功能点是值得深思的一件事。
数据质量第一步—数据监控相关推荐
- 数据平台-第一章-数据质量提升
2019独角兽企业重金招聘Python工程师标准>>> 概述 元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行, ...
- 独家 | 识别并解决数据质量问题的数据科学家指南
作者:Arunn Thevapalan 翻译:陈超校对:王紫岳本文约3000字,建议阅读9分钟 本文介绍了Python中的Ydata-quality库如何应用于数据质量诊断,并给出数据实例进行详细的一 ...
- 数据质量治理与数据质量评价体系(术)
目录 01 数据治理问题场景 02 数据质量的重要性 03 数据质量常见问题 04 数据质量问题原因 05 数据质量治理 06 数据质量评价体系 最后附上数据质量治理思维导图 数据质量人人有责,这不仅 ...
- 技术16期:如何更好的保证数据质量【大数据篇】
数据质量管理不单纯是一个概念,也不单纯是一项技术.也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论.技术.业务和管理为一体的解决方案. 通过有效的数据质量控制手段,进行数据的管理 ...
- 数据质量评估入门数据监控
这里的数据质量不是测试的那种质量,而是可以理解为数据自身的质量属性. 什么是数据质量 数据质量指数据是否适合其使用目的的程度,包括数据的准确性.完整性.一致性.可靠性和时效性等方面.数据质量评价是评估 ...
- 带你了解走出数据治理第一步 ,数据资产分类分级
自<数据安全法>正式发布以来,便引发了社会各界的强烈关注. 第二十一条明确指出: 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改.破坏.泄露或者非法获取 ...
- 大数据比赛第一步——数据分析
前言 大家好,我是机器学习领域的新手,最近新开了<从零开始的机器学习之旅>专栏,希望能与大家共同进步,如有错误和意见请不吝指出,谢谢. 最近看了一些比赛code,也自己试着提交了一下,真正 ...
- 数据分析之数据质量分析和数据特征分析
1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务 ...
- 数据质量评估标准与数据质量规则梳理
做过大数据的伙伴应该都清楚,数据的质量是直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量.质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策:错误的数据还不 ...
- 微软 azure_Microsoft Azure,我们迁移数据的第一步
微软 azure The cloud is a buzzword in the IT world. Oracle, Amazon and Microsoft with Microsoft Azure ...
最新文章
- 关系类型总结和对应的注解
- linux格式化大于2t硬盘分区,linux下大于2tb硬盘格式化及挂载,linux下大于2t的分区方法,linux gpt分区表 管理 自动挂载分区...
- hdu1198 Farm Irrigation —— dfs or 并查集
- Tensorflow 相关概念
- Android绘制基础及手写绘制实例
- python有什么游戏可以开发智力_用Python解“智力游戏”,你智商够吗?
- 圆排列公式推导_【圆面积公式计算】圆形面积计算公式
- 关于vue2高德地图使用
- 奶牛慢跑 (寒假每日一题 18)
- 彩虹六号服务器维护3月19号,彩虹六号无法初始化battleye服务器咋办 | 手游网游页游攻略大全...
- Arduino案例实操 -- 语音播放模块(DY-SV5W)
- python3, 计算两个矩形框是否重叠,并计算重叠度
- 不懂驾驭人性,你还谈什么管理?
- 半导体器件概念(1)
- java xxtea加密_TEA、XTEA、XXTEA加密解密算法
- 中餐菜单分类名称创意_浅析中餐主题宴会主题创意与菜单策划.doc
- 一篇弄懂LayoutInflater.from(context).inflate()
- webstorm 2017 激活pojie,
- ironpython clr_[集成IronPython] 添加CLR对象到运行环境
- PPT结尾页只会写“谢谢”?用这些结尾,让你惊艳全场
热门文章
- vue表格中的内容换行与导出Excel换行
- Mysql Workbench 8,连接时显示An AppArmor policy prevents this sender from sending this message to this rec
- Region Proposal by Guided Anchoring论文解读
- 《Region Proposal by Guided Anchoring》阅读笔记
- Gentoolinux安装教程
- 高德地图定位误差_高德地图定位api以及导航和定位 位置的偏差
- TimeLine学习笔记
- CoffeeScript
- 企业绩效管理的五种方法,你们是哪种?
- 用mysql征途改等级教程_征途各等级升级经验表附带功勋换经验比例