清醒认识数据第一步,把关数据质量
做过数据产品的人都会知道,质量高的数据对于产品的意义。笔者在之前曾经历过数据质量管理的具体功能设计,算是较为完整地感受过数据质量管理过程。所以在此简单复盘下经验,借此抛砖引玉。
战战兢兢地写下标题,得意下“清醒”这个词用得真是独树一帜,跟外面那些妖艳贱货好不一样。我们常常说人要时刻保持清醒,这样才能不被假象所蒙蔽。那数据其实更需要这点,我们需要透过数据挖掘本质,如果数据是不具备完整人格的,缺失完整性、规范性、一致性等维度,那么我们看到的本质也是偏差的。开篇先鬼扯一下,详情请往下滑~
基本概念
数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
- 数据质量管理不是一时的数据治理手段,而是循环的管理过程。
- 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。
为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果把整个数据应用比作人体的话,那好的数据就相当于新鲜和沸腾的血液,能让我们的身体充满活力,高效地工作思考。而质量差的血液携带废物和毒素,随着毒素越积越多,血液以及血管就会发生病变,血液流经的全身各处器官也会大受影响。如果非要要具体的数据证明,我摘取了一些专家的统计:
- 据专家估计,由于用户拒绝不可靠的数据,导致多达70%的数据仓库项目遭到失败。
- 据专家估计,糟糕的数据通过使收入受损而会耗费商业机构多达10%~20%的操作总预算。而且,IT部门预算的40%50%之多可能都花在了纠正由糟糕的数据所引起的错误上(English,1999)。
- 专家认为,由于客户的死亡、离婚、结婚或调离,客户文件中的记录在一个月之内会有2%变得过时(Betts,2002)。
影响因素
那什么会影响数据质量呢?其实简单就分为2个因素。
- 客观因素:在数据各环节流转中,由于系统异常和流程设置不当等因素,从而引起的数据质量问题。
- 主观因素:在数据各环节处理中,由于人员素质低和管理缺陷等因素,从而操作不当而引起的数据质量问题。
在此附上数据的生命周期图,包括各环节的数据流转和数据处理。
评估维度
那怎么样才算质量好的数据呢?借用数据质量评估六要素,顺便附上自己的一些解析:
- 完整性 Completeness
数据是完整不缺失的。例如人员信息完整涵盖性别、年龄等。 - 规范性 Conformity
数据是规范统一的。例如时间信息都以yyyy-mm-dd格式存储。 - 一致性 Consistency
同源或跨源的数据是一致不冲突的。例如同一个人在不同源取过来的性别都是一致的。 - 准确性 Accuracy
数据是准确合理的。例如年龄在合理范围内。 - 唯一性 Uniqueness
数据是唯一不重复的。例如同一个ID没有重复记录。 - 关联性 Integration
数据的关联是不缺失的。例如两张表建立的关联关系存在,不丢失数据。
具体工作
如何通过具体工作来贯彻落实数据质量管理呢?由于数据质量管理是贯穿数据整个生命周期的,所以根据数据的各环节进行分点描述:
- 数据产生---控制外部数据源
(1)非开放式输入,避免用户自己输入,尽量提供用户选择项。设定字典表,例如性别不允许输入(男、女、未知)以外的内容(2)开放式输入,增加提示或者校验。例如设定临界值,例如年龄填了-1或者200,不允许输入。 - 数据接入---保持多点录入一致
建立统一的数据体系,例如指标(度量)、口径(维度)。 - 数据存储---保持数据结构统一
建立标准的数据结构,例如字段格式,系统提前定义好一种时间默认格式为yyyy-mm-dd。 - 数据处理---保持处理流程一致,该点包括数据稽核和数据清洗
按照标准的处理流程,例如统一的清洗规则等。 - 数据输出---保持数据结构统一
对数据处理后的结果进行保存时,按照数据存储的要求,进行标准化的统一管理。 - 数据展示---持续监测分析数据
设立监测规则不断发现问题,通过解决问题不断改进规则。
数据稽核
(1)定义
数据稽核是指实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。
(2)校验规则
- 关联性检查
两个数据表的key值关联是否存在。 - 行级别
两个数据表的数据量是否一致。 - 列级别
两个数据表的表结构是否一致,如字段数量、字段类型和宽度等是否一致。 - 内容级别
两个数据表的内容是否一致。其一数据表的内容是否缺失。
(3)校验流程
1、配置校验规则,例如字段映射等。
2、配置调度规则,例如调度频率等。
3、配置报表模板,例如稽核结果等。
数据清洗
(1)定义
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
(2)清洗规则
1)缺失值处理
- 根据同一字段的数据填充,例如均值、中位数、众数等。
- 根据其他字段的数据填充,例如通过身份证件号码取出生日期等。
- 设定一个全局变量,例如缺失值用“unknown ”等填充。
- 直接剔除,避免缺失值过多影响结果。
- 建模法,可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。
2)重复值处理
- 根据主键去重,利用工具去除重复记录。
- 根据组合去重,编写一系列的规则,对重复情况复杂的数据进行去重。例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重。
3)异常值处理
- 根据同一字段的数据填充,例如均值、中位数、众数等。
- 直接剔除,避免异常值过多影响结果。
- 设为缺失值,可以按照处理缺失值的方法来处理。
4)不一致值处理
- 从根源入手,建立统一的数据体系,例如指标(度量)、口径(维度)。
- 从结果入手,设立中心标准,对不同来源数据进行值域对照。
5)丢失关联值处理
- 重新建立关联。
清醒认识数据第一步,把关数据质量相关推荐
- 使用计算机处理数据第一步,2012年考研专业课自测试题及答案:计算机
一.单项选择题 1.计算机网络中广泛使用的交换技术是 A.信源交换 B.报文交换 C.分组交换 D.线路交换 2.计算机网络中可以共享的资源包括 A.硬件.软件.数据 B.主机.外设.软件 C.硬件. ...
- 带你了解走出数据治理第一步 ,数据资产分类分级
自<数据安全法>正式发布以来,便引发了社会各界的强烈关注. 第二十一条明确指出: 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改.破坏.泄露或者非法获取 ...
- 技术不是大数据第一生产力,数据交易才能带来应用爆发
导言:我从事大数据工作10余年,很多时候和圈内朋友谈及大数据,大家首先谈到的都是数据挖掘和人工智能算法,或是hadoop的架构.我也曾深陷这样的误区,认为"只要会写算法.实现架构就是大数据的 ...
- 大数据 第一章 大数据概论
第一章 大数据概论 1.1.大数据概念 按顺序给出数据存储单位:bit.Byte.KB.MB.GB.TB.PB.EB.ZB.YB.BB.NB.DB 1Byte=8bit 1K=1024Byte ...
- 投靠Linux第一步 Windows数据向Linux迁徙(1)
作者: 雪影蓝风/译 出处:天极软件 阅读提示:你现在正要从Windows转向Linux的度量吗?很好,就像其他曾经冒险考试考试的用户组织一样,你将能够享遭到Linux开放尺度所带来的不乱性以及靠 ...
- 量化投资第一步---获取数据---通过Tushare
想学习计算机处理金融数据.一切的开始就是如何获取准确的股票数据. 作为学生,免费是非常吸引人的.所以这才引出了------Tushare 1. 免费 2. 好用 3. 数据全(当然,没有一手数据) 其 ...
- 第一方数据,第二方数据,第三方数据,都是什么意思?
数据无处不在--我们每天创造超过2.5艾字节(exabytes)的数据,研究人员预测到2025年将会有163泽字节(zettabytes)的数据.此外,还有许多种类的数据与企业有关.我们有第一方,第三 ...
- 大数据应用 | 大数据给社会学研究带来了什么挑战?
本文转载自公众号量化研究方法 文献来源:[实证社会科学]第六卷 编者按:这篇文章是根据邱泽奇教授在北京大学社会学系的一个讲座整理而成.为了缩短篇幅,在整理中删除了重复的.缺乏信息的内容. 今天跟大家分 ...
- oracle数据定义语句,oracle(sql)基础篇系列(3)——数据维护语句、数据定义语句、伪列...
oracle(sql)基础篇系列(三)--数据维护语句.数据定义语句.伪列 DML语句 insert 向表中插入新的记录 --三种插入方式 --(1)不写字段的名字,直接按照字段的顺序把值逐个往里插 ...
最新文章
- RAID详解[RAID0/RAID1/RAID10/RAID5]
- 数据库分页存储过程(5)
- 深入剖析ConcurrentHashMap(1)
- 2013应届毕业生“京北方”校招应聘总结
- kl距离 java_信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息。
- 机器学习-关联之Apriori算法原理及实战
- ServeJson undefined (type *MainController has no field or method ServeJson
- 使用 ABAP 代码解析一个 class 的所有方法
- html5--5-4 绘制矩形
- 韩顺平php视频笔记77 抽象类vs接口 关键字final const
- 最新csdnJS逆向分析
- jmeter学习总结
- 发现一个Java文件.class在线反编译的简单好用的网址
- Snap7 在西门子PLC的使用
- android 圆形自定义进度条,Android 实现自定义圆形进度条的功能
- 系统安全性之十大措施
- Thread.currentThread()、isAlive()、Thread.sleep()的使用
- 新商业模式:在区块链上寻找新机会
- php 远程读取excel,PHP远程读取excel文件,如何读取?
- Laxcus大数据管理系统2.0(11)- 第九章 容错
热门文章
- 9 个建议,助你度过寒冬
- 【观察】让创新和效率走出“办公室”,联想智慧办公“再进化”
- dell服务器显示器fre,戴尔发布Gaming 24/27游戏显示器新品 支持144/155Hz FreeSync
- Excel数据透视表之多重合并
- 如何进入大数据领域,学习路线是什么?
- ESP32 LVGL8.1 ——Style multiple styles 多种风格样式 (Style 12)
- 基于Keras的LSTM多变量时间序列预测(北京PM2.5数据集pollution.csv)
- C#批量剪切视频文件
- eja变送器故障代码al01_EJA的差压变送器三种常见故障
- 什么是同比、环比与定基比