​说起数据清洗,可能会有些小伙伴会觉得这一步可以忽略掉,但是!作为混迹在数据分析这一块多年的老油条,小编在此严肃地声明!资料清理是资料处理中最不能被忽略的部分,它是资料分析过程中不可缺少的一环,其结果的好坏直接关系到模型的效果。实际上,数据清洗通常要占用50%—80%的分析过程。国外有些学术机构还会专门研究如何做数据清洗,相关的书籍也不少。

数据清洗的主要类型有哪几种

一、残缺数据

此类数据主要是缺少某些应包括的信息,如供应商名称、分公司名称、客户区域信息缺失、业务系统中主表与明细表不匹配等。那么对于这一类型的数据就需要过滤出来,并在规定的时间内补全,之后再写入数据仓库。

二、错误数据

这类数据的原因是业务系统完善接收输入后没有判断直接写入背景数据库,如数值数据输成全角数字字符、字符串数据、日期格式不正确、日期越界等。这种类型的数据还需要进行分类,对于类似于全角字符、数据前后出现不可见字符的问题,只能通过编写SQL语句来查找,然后让用户在业务系统改后抽取。日期格式不正确或日期越界的错误会导致ETL运行失败,这种错误需要通过SQL的方式从业务系统数据库挑选出来,交给业务主管部门,要求限期修改,改后提取。

三、重复数据

这种类型的数据,尤其是在维表中,就会出现这种情况,所以要把所有重复数据记录的字段都写出来,让客户进行确认和分析。

资料整理是一个反复的过程,只有不断地发现问题,解决问题,才能在几天内完成。关于是否过滤,一般需要客户确认,被过滤的数据,写到Excel文件把滤数据写到数据表,ETL开发初期每天都会把过滤数据的邮件发送给业务单位,促使他们尽快修改错误,并可以作为未来验证资料的基础。要注意的是,不能过滤有用的数据,要仔细验证每条过滤规则,然后让用户确认。

搞清楚了数据清洗的原则和理论,接下来进行数据清洗就容易很多啦~

如何进行数据清洗

1、对缺失值进行清洗

一般来说,缺失值是最常见的数据问题,处理缺失值也有很多办法,我们需要按照步骤来做,第一就是确定缺失值范围:计算每个字段的缺失值比例,然后根据缺失比例和字段重要性,制定策略。

2、去除不需要的字段

实际操作非常简单,可以直接删除,但需要提醒您,在清理数据时,每做一步都备份,或者在小规模数据上成功测试,然后处理所有数据,如果删除错误数据会后悔。

3、填充缺失内容

原因在于,一些缺失值可以通过三种方式被填充,即根据商业知识或经验推测填补缺失值、用相同的指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值。

4、重新取数

由于某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。这就是缺失值清洗的步骤。

5、关联性验证

若您的数据来自多种来源,则必须进行关联验证。如果不关联,这个数据据需要我们清洗。

现在你对数据清洗有更深的理解吗?数据清洗是数据分析中非常重要的一步,其重要性不容忽视。但是使用合适的工具可以使数据清洗更加高效方便。正所谓,工欲善其事,必先利其器。借助工具进行数据清洗是非常必要的,思迈特软件Smartbi一站式大数据分析平台的数据清洗功能就很值得推荐。强大的数据处理功能、分布式计算架构,还支持内置排序、去重、映射、行列合并、行列转换聚合、去空值等数据预处理功能。

快速教你数据清洗的步骤及方法,不可错过相关推荐

  1. 教您用EasyRecovery16快速下载安装及使用恢复数据方法

    好消息!听说数据恢复软件EasyRecovery有了新版本,想必大家在听到这个消息的时候都非常激动,都想看看这个新版本的神秘面纱吧.别着急,下面小编就来教大家使用EasyRecovery16快速下载安 ...

  2. ​微信小程序开发难?资深大V教您微信小程序制作步骤和方法​

    ​微信小程序开发难?资深大V教您微信小程序制作步骤和方法​ 一.登录微信公众平台 就能在菜单"开发"---"基本配置"中看到小程序的AppID了,小程序的 Ap ...

  3. 一招教你快速取消Mac系统开机密码的方法

    为了保护电脑数据安全,进入MAC系统前都是需要输入密码,不过有的用户觉得很麻烦,自己电脑又不是公用电脑,每回开机都要输入密码显得麻烦,那么有什么办法取消呢?方法当然有的,今天小编就教大家一招快速取消M ...

  4. 快速将大视频压缩变小的方法

    平时在网站下载的视频,手机拍摄的视频,或者自己录制的视频,需要分享给朋友,上传到某些平台,在传输的过程中,文件太大,平台传输失败,或者传输时间太久,这时我们需要将大得视频,进行压缩.让文件占用的空间变 ...

  5. Java快速创建大量对象_3分钟 快速理解JVM创建对象的步骤!

    原标题:3分钟 快速理解JVM创建对象的步骤! 我们平时创建一个对象只需要new.然而我们知道对象的创建到底经历了哪些呢?实际上只不过仅仅的3步就完成了.先来看看完整的创建过程,再来一步一步的分析. ...

  6. keyshot渲染图文教程_KeyShot渲染基础教程,教你五个步骤实现焦散线效果

    KeyShot渲染基础教程,教你五个步骤实现焦散线效果 想要渲染效果好,逼真,KeyShot渲染技巧不可少,品索搜集最新最权威KeyShot渲染教程,只为帮助广大KeyShot渲染爱好学习者们!想要有 ...

  7. ue4显示变量_UE4:快速入门蓝图(Blueprint)的方法之一

    UE4:快速入门蓝图(Blueprint)的方法之一 前言: 不久前因为工作的需要,学习了一下UE4的蓝图,发现并没有想象中的那么难以入门.今天把入门的方法和大家分享:D 适读人群: 1 有一定编程基 ...

  8. 申威 linux内核,一种申威防火墙快速移植高版本linux内核的方法与流程

    技术特征: 1.一种申威防火墙快速移植高版本linux内核的方法,其特征在于,包括以下步骤: s1:预先制作生成内存根文件系统的压缩文件: 所述步骤s1包括以下步骤: s11:通过编译busybox制 ...

  9. 服务器搭建对讲机系统,世邦对讲配置步骤以及方法(支持跨服务器对讲).doc

    世邦对讲配置步骤以及方法(支持跨服务器对讲) 配置的步骤以及配置方法 请先在/view.php?id=4727 上取得'世邦IP网络广播_SDK 配置工具汇总(新).rar' 首先安装世邦数字IP网络 ...

最新文章

  1. 翻转矩阵(数组右移问题)
  2. 荐六十款针对Hadoop和大数据顶级开源工具
  3. mvc @html.checkbox,MVC - @Html.CheckBoxFor
  4. 计数排序及其改进 C++代码实现与分析 恋上数据结构笔记
  5. CRM One order里user status和system status的mapping逻辑
  6. 爆赞!Android岗大厂面试官常问的那些问题,论程序员成长的正确姿势
  7. uniapp 支付(支付宝,微信支付)
  8. getter 和 setter方法
  9. 切单个图标为背景透明的方法
  10. lcd12864资料
  11. 【经典面试题】实现平方根函数sqrt
  12. 第四章 原子结构和波粒二象性
  13. 排列和组合 Permutation and Combination
  14. Linux——缺少ld-linux.so.2,lbiz.so.1库文件
  15. 通过WIFI(不用数据线)连接Android手机调试
  16. 如何通过Facebook主页找到相关红人的页面
  17. 图论 —— 染色法判断二分图
  18. C++ Primer 读书笔记及知识点延伸 chapter2
  19. Ubuntu安装nvm
  20. 听见丨美国大型连锁创客空间TechShop破产 首汽约车获7亿元B+轮融资 百度和蔚来汽车等领投

热门文章

  1. 做到网“平行网页寻源”技巧分享
  2. 使用 Ping 命令测试 TCP/IP 配置
  3. python安装protobuf教程
  4. svn版本管理软件——svn日常管理代码
  5. Vitis统一软件平台概览
  6. mysql 好友关系_【mysql】关系型数据库中好友关系实现的最佳方案是什么?
  7. sanic学习--初步使用
  8. Ubuntu查看系统版本信息的方法汇总
  9. 虹科分享|datalocker的USB端点安全保护
  10. 工作后感悟《大话西游》