数据清理-数据清理过程

数据清理过程的第一步是偏差检测(discrepancy detection)。

导致偏差的因素有很多,包括:

  1. 具有很多可选字段的设计糟糕的输入表单
  2. 人为的数据输入错误
  3. 有意的错误(例如不愿意泄露自己的信息)
  4. 数据退化(例如,过时的地址)
  5. 也可能源于不一致的数据表示和编码的不一致使用
  6. 记录数据的设备错误和系统错误
  7. 当数据(不适当的)用于不同于当初的目的时
  8. 数据集成也可能导致不一致。
  9. 字段过载(field overloading)是另外一种错误源(原因:开发者将新属性的定义挤进已经定义的属性的未使用(位)部分)

如何进行偏差检测

1. 警惕编码使用的不一致和数据表示的不一致问题(例如日期“2019/04/17”和“17/04/2019”)
2. 根据唯一性规则、连续性规则和空值规则考察数据。

  • a) 唯一性规则:给定属性的每个值都必须不同于该属性的其他值。
  • b) 连续性规则:属性的最低和最高值之间没有缺失的值,并且所有的值还必须是唯一的。
  • c) 空值规则:说明空白、问号、特殊符号或只是空值条件的其他串的使用,以及如何处理这样的值。

缺失值的原因:

  • (1) 被要求提供属性值的人拒绝提供和/或发现没有所要求的信息(比如非驾驶员要求提供驾照信息)
  • (2) 数据输入者不知道正确的值
  • (3) 值在稍后提供。

空值规则应当说明如何记录空值条件,例如数值属性存放0,字符属性存放空白或其他使用方便的约定(诸如“不知道”或“?”这样的项应当转换成空白)
3. 借助商业工具进行偏差检测

  • a) 数据清洗工具(data scrubbing tool)使用简单的领域知识(如邮政地址知识和拼写检查),检查并纠正数据中的错误。在清理多个数据源的数据时,这些工具依赖于分析和模糊匹配技术。
  • b) 数据审计工具(data auditing tool)通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差。
  • 以上是数据挖掘工具的变种,例如,它们可以使用统计分析来发现相关性,或通过聚类识别离群点。
  • 有些数据不一致可以使用其它材料人工的加以改正。例如,数据输入时的错误可以使用一些资料中的记录加以改正。然而,大部分错误需要数据变换。一旦发现偏差,通常需要定义并使用一系列变换规则来纠正它们。
  • c) 数据迁移工具(data migration tool)允许说明简单的变换,如将“gender”用“sex”替换。
  • d) ETL(Extraction/Transformation/Loading,提取/变换/装载)工具允许用户通过图形用户界面(GUI)说明变换。

通常,这些工具只支持有限的变换,因此可能还需要为数据清理过程的这一步编写定制程序。

偏差检测和数据变换(纠正偏差)的两步过程迭代执行。然而这一过程容易出错并且费时。有些变换可能导致更多偏差。有些嵌套的偏差可能在其它偏差解决之后才能检测到。例如,年份字段上的输入错误“20019”可能在所有日期值都变换成统一格式之后才会浮现。
变换常常以批处理方式进行,用户等待而无反馈信息。仅当变换完成之后,用户才能回过头来检查是否错误地产生了新的异常。
通常,需要多次迭代才能使用户满意。不能根据指定变换自动处理的元祖通常写到一个文件中,而不给出失败的原因解释。整个数据清理过程也缺乏交互性。

新的数据清理方法强调加强交互性。例如,Pottes’s Wheel是一种公开的数据清理工具,它集成了偏差检测和数据变换。
另一种提高数据清理交互性的方法是 开发数据变换操作的规范说明语言。这种工作关注定义SQL的扩充和使得用户可以有效地表达数据清理具体要求的算法。

转载于:https://www.cnblogs.com/EnzoDin/p/10726732.html

数据挖掘-数据清理过程相关推荐

  1. 数据挖掘-数据清理-缺失值

    数据清理-缺失值 数据清理例程试图填充缺失的值.光滑噪声并识别离群点.纠正数据中的不一致. 缺失值 在处理数据时,会发现很多元组的一些属性没有记录值.可使用以下方法补充. (1) 忽略元组:当缺少类标 ...

  2. 大数据中数据清理怎么做的_针对不完整数据的大数据清洗方法与流程

    本发明属于大数据清洗技术领域,涉及一种针对不完整数据的大数据清洗方法. 背景技术: 随着信息化的进展,企业内部积累了大量的电子数据,这些数据对企业非常重要.但由于各种原因,导致企业现有系统数据库中存在 ...

  3. 数据科学的原理与技巧 四、数据清理

    四.数据清理 原文:DS-100/textbook/notebooks/ch04 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 数据以多种格式出现,并且在分析的实用性方面差别很 ...

  4. 为什么必须要数据清理?

    数据也许是当今企业可以拥有的最有价值的一项资产.数据定义了大大小小的企业可以收集到的关于他们的客户和他们所处市场的市场情报.换句话说,它可以成就或破坏一个公司. 数据往往会随着时间的推移而发生变化,这 ...

  5. 数据预处理+数据清理

    1.概述 实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...

  6. 数据预处理_数据清理

    1.概述 实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...

  7. ASM 翻译系列第三十八弹:ASM数据清理

    原作者:Bane Radulovic 译者:    魏兴华 审核:    魏兴华 DBGeeK社区联合出品 原文链接:http://asmsupportguy.blogspot.sg/2015/12/ ...

  8. 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解

    1.衡量数据离散程度的统计量: 数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如 ...

  9. 数据挖掘-数据预处理的必要性及主要任务

    数据预处理的必要性及主要任务 1.数据预处理的必要性 数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源.低质量的数据导致低质量的数据挖掘. 2.数据预处理技术 ( ...

最新文章

  1. 听歌识曲原理探究以及样例代码
  2. 关掉Ctrl+Alt+方向键转屏功能
  3. Android动态赋权限,安卓6.0以上动态添加权限超简单模板
  4. xslt 标签取集合第一条数据_1+x证书Web前端开发中级理论考试(试卷1)
  5. php 无法加载css文件,解决ThinkPHP样式无法加载问题(CSS,JS),
  6. 1 Oracle数据库环境搭建
  7. QCC512x/302x笔记(3)-- 只改一行代码,实现串口输出调试log
  8. Unity笔记-05
  9. 基金账户与基金交易账户
  10. 程序员必会的计算机网络知识 --酷勤网
  11. openpyxl给excel设置条件格式
  12. 计算机在表格if用法,如何在Excel中使用sumif函数
  13. 交换字符使得字符串相同
  14. 【渝粤教育】 国家开放大学2020年春季 1306社会政策 参考试题
  15. 理解 以太坊Serenity - 第一部分: 深度抽象
  16. MacBook连接蓝牙鼠标、蓝牙键盘失败的解决方案
  17. 你真正的了解i++和++i吗?
  18. 统计学离散型变量和连续型变量有什么区别?
  19. Kotlin Symbol Processing(KSP)使用初体验
  20. 智源社区AI周刊No.101:DeepMind推出AlphaTensor登Nature封面;stateof.ai发布AI情况报告...

热门文章

  1. 无线可穿戴产品致胜设计六大策略
  2. c++ 11 多线程处理(1)
  3. 深入jvm学习(1)--体系结构
  4. SilverLight学习笔记--Silverlight之数据绑定初探
  5. 被国人误解了千年的七句话之相濡以沫
  6. zoj(2110)Tempter of the Bone(DFS+奇偶剪枝)
  7. SP1026 FAVDICE - Favorite Dice
  8. Kubernetes源码阅读笔记——Controller Manager(之三)
  9. 配置字段(居左,居中,居右,高度自适应)
  10. 发送电子邮件模块smtplib