数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。

在数据仓库领域中,当多个数据库合并时或多个数据源进行集成时,都需要进行数据清洗。例如,当同一个实体的记录在不同数据源中以不同的表示格式或错误表示的情况下,合并后的数据仓库中就会出现重复的记录,数据清洗的程序就需要识别出重复的记录并消除重复的记录,也就是所谓的数据合并或清除(Merge/Purge)问题。在数据仓库环境中,数据清洗主要包括数据的清洗和结构的转换两个过程。

在数据挖掘领域中,数据清洗是数据进行预处理过程的第一个步骤。在数据预处理应用中,数据清洗的主要任务是提高数据的可用性,即去除噪声、无关数据以及空值等,并考虑数据的动态变化。在字符分类问题中,通过使用机器学习的技术进行数据清洗,即使用特定算法检测数据库对缺失和错误的数据予以修改。

在数据质量管理领域中,数据质量管理是一个学术界和商业界都感兴趣的领域。数据质量管理主要用于解决信息系统中的数据质量及集成问题。在该领域中,数据清洗从数据质量的角度出发,把数据清洗过程和数据生命周期集成在一起,对数据的正确性进行检查并提高数据质量。

数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。下面通过一张图描述数据清洗的原理。

从图中可以看出,同一值的不同表示、拼写错误、不同的命名习惯、不合法的值以及空值都会导致“脏”数据出现,通过定义好的数据清洗策略和清洗规则(即数理统计技术、数据挖掘技术等清洗策略)对“脏”数据进行清洗,得到满足数据质量要求的数据。需要注意的是,数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。干净的数据指的是满足质量要求的数据。

什么是数据清洗?数据清洗的原理是什么?相关推荐

  1. python清洗完数据做什么_python数据清洗的基本思路是什么?

    在做数据分析的时候,少不了数据清洗这个步骤. 很多时候我们会自己爬取数据,但是爬取了数据库的数据之后,数据不能直接拿来使用,我们怎么进行数据清洗和进行去重上传的 数据清洗: 数据清洗概念就是去重,检查 ...

  2. 数据清洗的基本思路分享(都是个人见解,欢迎补充)

    首先抛出一个问题: 爬取到数据到数据库之后,怎么进行数据清洗和进行去重上传的 =============================解答一下============================ ...

  3. [深度学习]Part2 数据清洗和特征工程Ch06——【DeepBlue学习笔记】

    本文仅供学习使用 数据清洗和特征工程Ch06 1. 特征工程 1.1 特征工程介绍 1.2 特征预处理 1.2.1 数据清洗 1.2.1.1 数据清洗-预处理 1.2.1.2 数据清洗-格式内容错误数 ...

  4. 数据分析工具Pandas(7):数据清洗、合并、转化和重构

    数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...

  5. 数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧

    谈到数据分析,我们可能第一时间想到python.SQL.Tableau.帆软.R等,但是这些软件.语言要入门掌握.系统学习起来耗时较长.这时候不得不提到excel这个"平平无奇数分小能手&q ...

  6. python数据清理的实践总结_Python数据清洗实践

    原标题:Python数据清洗实践 DATA CLEANING WITH PYTHON 作者 | Balogun Omobolaji 翻译 | 酱番梨.祝弟弟基督教 校对 | Pita 审核 | 约翰逊 ...

  7. 这就是数据分析之Pandas与数据清洗

    总括 在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便.另一方面,如果我们日常的数据 ...

  8. 数据预处理概述和数据清洗

    文章目录 1.数据预处理概述 2.数据可视化实例 2.1 2.2 2.3 3.数据清洗 3.1缺失值处理 3.2噪声平滑 3.3异常值的检测与处理 1.数据预处理概述 数据预处理的主要作用是为将未经处 ...

  9. 菜鸟窝出品】数据清洗、python与sklearn数据标准化实战(附项目源码)

    本文是由菜鸟窝特邀清华的人工智能博士亲授,从零开始教你如何进行数据预处理,并通过实际案例手把手教会大家进行实操.相关的源码会发给大家实践,让你真正做到学以致用. 阿里百度人工智能大神精讲的人工智能视频 ...

  10. 大数据的处理之数据清洗

    学习目标: 1.学会查找脏数据 2.学会清洗数据 学习内容: 1.脏数据"的脏数据的定义和判断标准 2.在oracle 数据库里清洗数据 学习时间: 有oracle 基础的话,学习6个小时 ...

最新文章

  1. 【SLAM建图和导航仿真实例】(三)- 使用RTAB-MAP进行SLAM建图和导航
  2. 目标检测比赛中的trick
  3. 6年,终拿腾讯 offer!
  4. 手动删除oracle 归档文件,Oracle手动删除归档日志厚,出现ORA-19571错误
  5. AtCoder Grand Contest 013 题解
  6. 活动安排问题的 动态规划和贪心算法
  7. C中不安全的函数以解决办法汇总
  8. 进程信号(信号、信号的注册与注销、信号的处理方式)
  9. underscore.js中的节流函数debounce及trottle
  10. Java运算符及录入
  11. node-webkit笔记
  12. [译] ASP.NET 生命周期 – ASP.NET 请求生命周期(二)
  13. 回弹强度记录表填写_回弹法检测砼抗压强度原始记录表(2011年规程)
  14. 黑马程序员——双列集合、泛型 笔记第十一篇
  15. 冬季无锡旅游攻略,无锡太湖、鼋头渚之游小记!!!!
  16. c++11后面引入的新特性(三)
  17. 我觉得拍照这丫头狠有天赋
  18. Android指南针陀螺仪开发
  19. 慢扫描电视 SSTV
  20. vs2012 nuget 基础连接已经关闭:发送时发生错误

热门文章

  1. Ubuntu操作系统的安装
  2. JavaWeb学习笔记(JavaScript)
  3. 工业以太网交换机的光口和电口有什么区别?
  4. 自动创建 api 模拟数据
  5. 服务器显示器多少寸合适,购买别冲动!先看多大的显示器适合你
  6. Luminati代理动态IP,海量资源可调用!
  7. gpgpu学习推荐书籍
  8. elasticsearch使用脚本 滚动关闭索引,更新index setting
  9. message broker
  10. java中==与equals的区别