什么是“脏”数据?通俗来说,它是因数据重复录入、共同处理等不规范操作而产生的混乱、无效数据。这些数据不能为企业带来价值,反而会占据存储空间,浪费企业的资源。因此,这些数据被称为“脏”数据,不仅没有价值,还会“污染”其他的数据。

某些“脏”数据还可能给企业带来重大损失。曾经有一家保险公司,把客户的资料存储在数据库中,并进行了如下规定:在存入新的数据之前,要对数据库进行检索,以查看其中是否存在相关记录。

然而,一些数据员偷懒,擅自跳过搜索环节,直接存入了新的数据,导致数据的重复录入。久而久之,系统运行越来越缓慢,搜索结果越来越不准确,最终数据库完全失灵,给公司造成巨大的经济损失。这个时候,保险公司才如梦初醒,决定解决这个问题。公司花费了一个星期的时间,将这些积存在数据库中的“脏”数据全部清除。

当数据出现问题的时候,苦心构建的数据库就失去了原有价值。正因如此,处理“脏”数据的工作就变得十分重要,而且越早开始越好。因此,我们有必要了解一下“脏”数据的种类。

1.缺失数据

导致数据缺失的原因有很多种,例如系统问题、人为问题等。假如出现了数据缺失情况,为了不影响数据分析结果的准确性,在数据分析时就需要进行补值,或者将空值排除在分析范围之外。

排除空值会减少数据分析的样本总量,这个时候可以选择性地纳入一些平均数、比例随机数等。若系统中还留有缺失数据的相关记录,可以通过系统再次引入,若系统中也没有这些数据记录,就只能通过补录或者直接放弃这部分数据来解决。

2.重复数据

相同的数据出现多次的情况相对而言更容易处理,因为只需要去除重复数据即可。但假如数据出现不完全重复的情况,例如某酒店VIP会员数据中,除了住址、姓名不一样,其余的大多数数据都是一样的,这种重复数据的处理就比较麻烦了。假如数据中有时间、日期,仍然可以以此作为判断标准来解决,但假如没有时间、日期这些数据,就只能通过人工筛选来处理。

3.错误数据

错误数据一般是因为数据没有按照规定程序进行记录而出现的。例如异常值,某个产品价格为1到100元,而统计中偏偏出现200这个值;例如格式错误,将文字录成了日期格式;例如数据不统一,关于天津的记录有天津、tianjin。

对于异常值,可以通过限定区间的方法进行排除;对于格式错误,需要通过系统内部逻辑结构进行查找;对于数据不统一,无法从系统方面去解决,因为它并不属于真正的“错误”,系统并不能判断出天津和tianjin属于同一“事物”,因此只能通过人工干预的方法,做出匹配规则,用规则表去关联原始表。例如,一旦出现tianjin这个数据就直接匹配到天津。

4.不可用数据

有些数据虽然正确但却无法使用。例如地址为“上海浦东新区”,想要对“区”级别的数据进行分析时,还需要将“浦东”拆出来。这种情况的解决方案只能用关键词匹配的方法,而且不一定能够得到完美解决。

转载原文

【脏数据】什么是脏数据:脏数据的种类、类型相关推荐

  1. python数据清理的实践总结_python 数据的清理行为实例详解

    python 数据的清理行为实例详解 数据清洗主要是指填充缺失数据,消除噪声数据等操作,主要还是通过分析"脏数据"产生的原因和存在形式,利用现有的数据挖掘手段去清洗"脏数 ...

  2. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  3. axure9数据统计插件_WMDA:大数据技术栈的综合实践

    一.概述 WMDA是58自主开发的用户行为分析产品,同时也是一款支持无埋点的数据采集产品,只需要在第一次使用的时候加载一段SDK代码,即可采集全量.实时的PC.M.APP三端以及小程序的用户行为数据. ...

  4. mysql 查询 写入 性能极致优化 3000万数据3分钟 深层次优化大数据量

    前言:为什么说是极致优化,不要小瞧上面的3000万说的比较少,为啥,因为我们知道数据量不能代表一切,还要看字段的长度,和字段数量,这3000万数据 分化在60张表里面,核心表6 7张每张数据量大约在3 ...

  5. 大数据技术_ 基础理论 之 大数据概念与应用

    1.1 大数据的概念与意义 1.从"数据"到"大数据" 时至今日,"数据"变身"大数据","开启了一次重大的时 ...

  6. 对大数据指标的理解、大数据常用指标都有哪些

    导读:数据指标体系是构建数据中台的重要一环.数据指标的建立让运营及产品人员更直观地看到基本指标的变动,让数据分析师更便捷地开展数据分析工作.数据指标就是将大数据之"大"的精髓给提炼 ...

  7. oracle表独立数据文件,oracle表空间及数据文件

    1. Oracle 的逻辑结构 数据库的物理结构是由数据库的操作系统文件所决定,每一个 Oracle 数据库是由三种类型的文件组成:数据文件.日志文件和控制文件.数据库的文件为数据库信息提供真正的物理 ...

  8. 企业数据应用 传统商业智能对比大数据应用

    传统商业智能对比大数据应用 传统商业智能模式 商业智能系统的主要功能 大数据的变革 BI(商业智能) OLTP(联机事务处理) OLAP(联机分析处理) 操作数据库系统和数据仓库系统的区别 为什么需要 ...

  9. 大数据之路读书笔记-15数据质量

    大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...

  10. 数据中台 第5章 数据汇聚联通:打破企业数据孤岛

    要构建企业级的数据中台,第一步就是要让企业内部各个业务系统的数据实现互联互通,从物理上打破数据孤岛,这主要通过数据汇聚和交换的能力来实现.在面向具体场景时,可以根据数据类型将汇聚对象分为结构化和非结构 ...

最新文章

  1. 解决ModuleNotFoundError: No module named ‘pip‘问题
  2. Linux服务器编程之:utime()函数
  3. 一文归纳总结分布式架构的那些事!
  4. UVa 1354 天平难题 枚举二叉树
  5. oracle dg 搭建方式,Linux平台 Oracle 11g DG测试环境快速搭建参考
  6. vue省市区三级联动mysql,js/json,html/jsp
  7. golang时间类型转换
  8. SpringMVC多拦截器的执行
  9. access和mysql4注入小技巧
  10. php和mssql连接好吗,php如何与mssql数据库连接与配置_PHP教程
  11. 非常难得的 CMOS sensor 工作原理的深入技术科普
  12. matlab中转置操作,如何转置MATLAB表?
  13. 拿来就能用的前端酷炫登录注册模板
  14. HFSS印刷偶极子天线(1)
  15. 室内定位算法_室内外定位技术的几种常用的技术与算法你都知道吗?
  16. 计算机显示器模糊,电脑显示器模糊了怎么办?
  17. 最详细的Pycharm使用技巧 2020.06.06
  18. Ubuntu16环境安装和使用NFS
  19. Android之实现遮罩动画的小技巧 类似flash遮罩动画
  20. iOS常见错误8-Missing iOS Distribution signing identity for “XXXXX”. Xcode can request one for you.

热门文章

  1. VB.Net教程图书目录
  2. Android 网络下载文件 图片 httpurl
  3. win10如何安装系统得日语输入法(亲测)
  4. android httpClient 支持HTTPS的2种处理方式
  5. C51自动贪吃蛇程序
  6. 有了这两本书,学习领域驱动设计会很容易
  7. 牛客网华为机试题java,华为机试题
  8. linux fedora14 u盘运行,用U盘安装FEDORA14后必须从U盘启动,从硬盘无法启动
  9. 《软件项目管理》课程知识总结
  10. 禁用计算机f1-f12,win10系统禁用f1-f12快捷键的操作方法