数据清洗是数据分析过程中最基础的工作,也是最累、最繁琐的部分,不像数据挖掘、数据分析看起来那么光鲜,做起来枯燥乏味。当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智,提升数据价值。下面是加入了“智能化”元素的数据清洗流程图。

  1. 构建数据质量探查规则。传统的数据质量分析(或探查)是需要人工分析数据字典、数据内容后,设计并配置相关的质量分析规则,包括完整性、唯一性、一致性、有效性、准确性等几个方面。这个过程费时费力,因此一般清洗前的数据质量分析都是手工完成的,由工程师根据经验编写SQL脚本完成分析。上面流程中的“生成数据质量探查规则”,可以根据源库的数据结构、数据字典、数据标准等,利用挖掘算法(语义分析、聚类算法等),识别出业务主键、业务关键字段、字段含义等,匹配内置的质量检查规则模板,自动生成所有表的质量探查规则。经人工检查完善后配置到系统中,形成数据质量探查任务;
  2. 数据质量报告。执行数据质量探查任务后生成报告,报告包括两方面的内容,一是对规则的满足情况,比如,某张表的某个字段有N条记录违反了完整性约束等;二是对字段数据的值域分析,用常见的统计算法描述,包括最大值、最小值、平均值、空值等。
  3. 构建数据清洗任务。系统可以根据数据质量规则与数据质量报告,自动构建出合适的清洗任务脚本和清洗流程,除了常见的去重、去空之外,随着对行业了解的不断加深,也可以将诸如编码自动补齐等规则加入,比如,企业异常名录中缺少统一信用代码,可以自动从法人表中获取并补齐。
  4. 数据质量标签。数据清洗不能把所有问题数据都进行修正,对于不能修正的问题数据,将以标签的形式记录下来,比如,A字段存在空值、格式不正确等问题,一方面是为了记录问题,另一方面也就为了支撑不同应用场景下的数据分析,根据需求对问题数据进行过滤或其它处理。

上述几个步骤当中,最关键的就是构建质量规则,需要通过对元数据、数据字典等内容的分析挖掘,将字段与预置的规则进行自动匹配,识别的效果除了算法的性能之外,还与字段含义、规则模板等的沉淀有关系,后者往往决定了生成规则的实用性。

【产品规划】实现一个智能化的数据清洗工具(系列二)相关推荐

  1. 数据与广告系列二十六:知识迁移的Embedding应用,智能化定向的解药

    作者·黄崇远 『数据虫巢』 全文共4348字 题图ssyer.com " 效果广告后定向时代,虽有千般万难,我们一样还得解决定向智能的问题." 需要提前说明的是,这一篇会涉及到本系 ...

  2. 数据与广告系列二十二:智能化投放中扩量场景的技术实现策略

    作者·黄崇远 公众号 『数据虫巢』 全文8968字 题图ssyer.com " 人不够,系统给你凑." 这个系列上一篇<数据与广告系列二十一:关于品牌广告,奔涌吧后浪> ...

  3. 代码解放,一个智能化的「云控制台」如何运转?

    本文授权转载自「视频云技术」,作者虚俞,编辑 IMMENSE. 当谈论"业务智能化"时,我们还能谈论什么? 技术正不断改变企业与组织的业务模式,创造新的增长机遇. 随着 AI.5G ...

  4. 数据与广告系列二十四:效果广告后定向时代如何逆流而上

    作者·黄崇远 『数据虫巢』 全文共4338字 题图ssyer.com " 在效果广告的发展历程中,当前已经处于后定向时代,或者说是弱定向时代,我们是应该顺应潮流还是应该逆流而上?" ...

  5. 数据可视化系列-01大数据可视化基础

    文章目录 1.概述 2.大数据可视化基础 2.1 数据可视化基础知识 1.数据可视化简史: 2.数据可视化是什么: 3.数据可视化的分类: 4.数据可视化流程: 5.数据可视化的意义: 2.2 认识B ...

  6. 【经典推荐】教育大数据分析师系列丛书(培训教材)

    <中小学教育大数据分析师系列丛书(培训教材)>紧扣国家<教育部关于实施全国中小学教师信息技术应用能力提升工程2.0的意见><教育信息化2.0行动计划>.国家智慧教育 ...

  7. 数据与广告系列二十七:智能定向独特业务的独有炼丹配方

    作者·黄崇远 『数据虫巢』 全文共4534字 题图ssyer.com " 没点独特的东西,怎么好意思说自己在炼仙丹." 本文强接上文<数据与广告系列二十六:知识迁移的Embe ...

  8. python数据清洗工具、方法、过程整理归纳(一、数据清洗之常用工具——numpy,pandas)

    文章目录 1 背景 2 常用工具 2.1 numpy 2.2 pandas 1 背景 数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步: 数据分析的过程决定了数据分析的准确性 ...

  9. Java 数据持久化系列之池化技术

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试资料 在上一篇文章Java 数据持久化系列之JDBC中,我们了解到使用 ...

最新文章

  1. PostgreSQL数据库服务端监听设置及客户端连接方法教程
  2. create 执行存储过程报错出现符号_年薪百万之路--第四十天 存储引擎
  3. go语言基础到提高(9)-go ide
  4. JAVA——关闭ServerSocket
  5. webcomponents安装了没有用_Web Components 入门实例教程
  6. P4151 [WC2011]最大XOR和路径(线性基应用)
  7. 华为手机打字声音怎么开启_华为手机这5个超实用小功能,记得要开启,谁用都说好...
  8. Socket的getInputStream()方法
  9. flask模型中【外键】relationship的使用笔记
  10. SD9001: IE6 IE7 IE8(Q) 中的 getElementById 方法能以 name 属性为参数获取某些元素
  11. 基于GPU的大规模图计算系统与应用
  12. py+webdriver学习之旅6:cookie
  13. 数据库 索引超出了数组界限
  14. 计算机发展史与程序员思维
  15. WinForm中用C#实现左侧导航菜单(1)——概览
  16. 关于井冈山大学校园宽带WIFI多人共享解决的一些思路
  17. 内网通过代理服务器访问高德地图服务的方法
  18. ar8161网卡 linux,解决AR8161网卡驱动的方法
  19. jQuery带logo的网页二维码生成
  20. 病人陈天桥,归来依旧是传奇(转)

热门文章

  1. 攻防世界 Crypto高手进阶区 4分题 safer-than-rot13
  2. 玩转 Android图片上传
  3. “码绘”第二集————编程创意作品
  4. redis服务器配置(redis服务器篇)
  5. 如何使用odoo的compute方法,自动计算odoo字段
  6. 零基础学Java,有必要上培训班吗?
  7. Python 元组tuple详解(超详细)
  8. ​TCP/IP协议三次握手和四次挥手
  9. 实操总结:小程序裂变0成本获客3要素
  10. Photoshop里面查看某个图层的尺寸