最近用到数据清洗,写篇博客,供自己回忆,供有需要的人参考~


一、数据清洗是什么?

数据清洗,顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。

注:很多做ml和dl任务拿到的数据并非可以直接使用的数据,往往需要先进行数据清洗这一步。


二、数据清洗想要洗掉什么?

从上面数据清洗的概念就可以大概知道数据清洗是在清洗什么了,洗掉的就是数据集中的“脏”数据。“脏数据”,即数据集中残缺、错误、重复的数据。数据清洗,旨在提高数据的质量、缩小数据统计过程中的误差值。


三、常见的数据清洗方法?

注:不同类型的数据异常所要用到的方法有所不同,因此我们拿到原始数据之后,需要先分析都有什么样的数据异常,然后再使用相应异常下常常采用的方法,正所谓“对症下药”,方能“药到病除”。

1、重复数据:

(1)删除法

2、缺失值处理:

(1)删除法:删除法是指当缺失的观测比例非常低时(如5%以内),直接删除存在缺失的观测,或者当某些变量的缺失比例非常高时(如85%以上),直接删除这些缺失的变量;
(2)替换法:替换法是指用某种常数直接替换那些缺失值,例如,对连续变量而言,可以使用均值或中位数替换,对于离散变量,可以使用众数替换;
(3)插补法:插补法是指根据其他非缺失的变量或观测来预测缺失值,常见的插补法有回归插补法、K近邻插补法、拉格朗日插补法等。

3、异常值处理:异常值是指那些远离正常值的观测,即“不合群”观测。

异常值检测方法:

a、简单统计量分析:计算统计量值,常见的就是看最大最小值是否合理。
b、3 准则:是正态分布的参数,所谓3准则就算是将不落在正负 3内的值认为是异常值,应为它们发生的概率为0.3%
c、基于模型检测:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象
d、基于距离:通过在对象之间定义临近性度量,异常对象是那些远离其它对象的对象
e、基于聚类:基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类。​​​​​​​

处理异常值常用的方法:
(1)删除异常值----明显看出是异常且数量较少可以直接删除
(2)不处理---如果算法对异常值不敏感则可以不处理,但如果算法对异常值敏感,则最好不要用这种方法,如基于距离计算的一些算法,包括kmeans,knn之类的。
(3)平均值替代----损失信息小,简单高效。
(4)视为缺失值----可以按照处理缺失值的方法来处理

四、数据清洗简单案例:

注:这里推荐菜鸟教程中的一个利用Pandas读取csv文件并进行数据清洗的案例,既简单,又清晰易懂

案例学习链接:数据清洗简单案例

分享完毕,希望这篇博客,对看到的你有所帮助

数据清洗以及常用的方法相关推荐

  1. python数据清洗工具、方法、过程整理归纳(一、数据清洗之常用工具——numpy,pandas)

    文章目录 1 背景 2 常用工具 2.1 numpy 2.2 pandas 1 背景 数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步: 数据分析的过程决定了数据分析的准确性 ...

  2. ETL流程概述及常用实现方法

    ETL是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程.常见于数据仓库开发中将数 ...

  3. ETL流程介绍常用实现方法

    目录 1.概述 2.抽取作业(Extract) 2.1 手工开发抽取作业时候的常用方法 2.1.1 当数据源和DW为同一类数据库时 2.1.2 当数据源和ODS为不同类型数据库时 2.2 更新数据的时 ...

  4. android屏幕密度高度,Android获取常用辅助方法(获取屏幕高度、宽度、密度、通知栏高度、截图)...

    我们需要获取Android手机或Pad的屏幕的物理尺寸,以便于界面的设计或是其他功能的实现.下面就分享一下Android中常用的一些辅助方法: 获取屏幕高度: /** * 获得屏幕高度 * @para ...

  5. 多线程2(常用的方法:join、interrupt、currentThread、isAlive、setDaemon...)

    常用的方法: 1.join()方法: join()方法:执行该方法的线程进入阻塞状态,直到调用该方法的线程结束后再由阻塞状态转为就绪状态. 示例: package venus;import java. ...

  6. 基于 Python 的 8 种常用抽样方法

    抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...

  7. 病理分析常见数据集及常用模型方法总结

    病理分析常见数据集及常用模型方法总结 目录 病理分析常见数据集 病理图像分类常见处理方法 病理图像常见数据集详细说明 相关论文梳理

  8. java 中常用方法_java_中常用的方法总结

    8月1日 练习: 合理覆盖Cat数据类型的,equals()方法 Cat.java 1 覆盖hashCode() 返回的整型值是唯一的 int    hashCode() 用法: 一般使用String ...

  9. 查处的数据如何乱序_老司机总结常用镜像方法,让镜像数据更加可靠

    在做数据包分析的时候,经常会说一句话,"Packets never lie(数据包不会说谎)",即数据包会真实反应网络服务和应用服务的真实状态.基于网络镜像的流量分析同样如此,如果 ...

  10. C语言中常用计时方法总结

    转自:http://blog.csdn.net/fz_ywj/article/details/8109368 C语言中常用计时方法总结 1. time() 头文件:time.h 函数原型:time_t ...

最新文章

  1. db9小波包分解matlab,小波包分解、重构 matlab代码
  2. python计算特征与目标的相关性并可视化
  3. 一键将Word转换为MarkDown
  4. SQL Server 文件路径
  5. COJ 1163 乘法逆元的求解
  6. 板子制作_工厂制作风管VS现场制作有什么区别?
  7. python怎样填充颜色_python中如何给图形填充颜色
  8. ajax-page局部刷新分页实例
  9. Mysql实现企业级数据库主从复制架构实战
  10. 1024为大家带来个猜数字游戏
  11. UnicodeTOGB,能够将Unicode串转换成GB码
  12. Python课堂点名器,妈妈再也不会担心我被老师点名了
  13. oracle 分析锁,ORACLE锁机制分析
  14. 根据字体大小得到字符串显示时的宽度(C#)
  15. linux驱动系列学习之input子系统(二)
  16. springboot+vue前后端分离java地铁站自动售票系统-火车票售票系统
  17. 网络工程毕设新颖课题
  18. Games102 学习笔记
  19. mysql服务器安装时下列说法正确的是_下列说法错误的是()。
  20. OLM网络营销简述——简单谈小米

热门文章

  1. TM1640与PIC12F629的结合
  2. Scratch作品(一)
  3. 360手机助手关于签名校验的分析
  4. 【转】推荐系统算法总结(一)
  5. 大学excel题库含答案_大学生计算机基础excel试题及答案
  6. Euraka学习笔记
  7. 使用Python自动完成Himawari-8(葵花8)卫星AOD数据下载与解析(转TIFF)
  8. oracle12能卸干净吗,oracle卸载干净【设置方案】
  9. linux IIC子系统分析(七)——实例分析通过i2c-dev操作I2C设备
  10. 中望cad自定义快捷键命令_中望cad常用快捷键及命令