数据清洗以及常用的方法
最近用到数据清洗,写篇博客,供自己回忆,供有需要的人参考~
一、数据清洗是什么?
数据清洗,顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。
注:很多做ml和dl任务拿到的数据并非可以直接使用的数据,往往需要先进行数据清洗这一步。
二、数据清洗想要洗掉什么?
从上面数据清洗的概念就可以大概知道数据清洗是在清洗什么了,洗掉的就是数据集中的“脏”数据。“脏数据”,即数据集中残缺、错误、重复的数据。数据清洗,旨在提高数据的质量、缩小数据统计过程中的误差值。
三、常见的数据清洗方法?
注:不同类型的数据异常所要用到的方法有所不同,因此我们拿到原始数据之后,需要先分析都有什么样的数据异常,然后再使用相应异常下常常采用的方法,正所谓“对症下药”,方能“药到病除”。
1、重复数据:
(1)删除法
2、缺失值处理:
(1)删除法:删除法是指当缺失的观测比例非常低时(如5%以内),直接删除存在缺失的观测,或者当某些变量的缺失比例非常高时(如85%以上),直接删除这些缺失的变量;
(2)替换法:替换法是指用某种常数直接替换那些缺失值,例如,对连续变量而言,可以使用均值或中位数替换,对于离散变量,可以使用众数替换;
(3)插补法:插补法是指根据其他非缺失的变量或观测来预测缺失值,常见的插补法有回归插补法、K近邻插补法、拉格朗日插补法等。
3、异常值处理:异常值是指那些远离正常值的观测,即“不合群”观测。
异常值检测方法:
a、简单统计量分析:计算统计量值,常见的就是看最大最小值是否合理。
b、3 准则:是正态分布的参数,所谓3准则就算是将不落在正负 3内的值认为是异常值,应为它们发生的概率为0.3%
c、基于模型检测:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象
d、基于距离:通过在对象之间定义临近性度量,异常对象是那些远离其它对象的对象
e、基于聚类:基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类。
处理异常值常用的方法:
(1)删除异常值----明显看出是异常且数量较少可以直接删除
(2)不处理---如果算法对异常值不敏感则可以不处理,但如果算法对异常值敏感,则最好不要用这种方法,如基于距离计算的一些算法,包括kmeans,knn之类的。
(3)平均值替代----损失信息小,简单高效。
(4)视为缺失值----可以按照处理缺失值的方法来处理
四、数据清洗简单案例:
注:这里推荐菜鸟教程中的一个利用Pandas读取csv文件并进行数据清洗的案例,既简单,又清晰易懂。
案例学习链接:数据清洗简单案例
分享完毕,希望这篇博客,对看到的你有所帮助
数据清洗以及常用的方法相关推荐
- python数据清洗工具、方法、过程整理归纳(一、数据清洗之常用工具——numpy,pandas)
文章目录 1 背景 2 常用工具 2.1 numpy 2.2 pandas 1 背景 数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步: 数据分析的过程决定了数据分析的准确性 ...
- ETL流程概述及常用实现方法
ETL是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程.常见于数据仓库开发中将数 ...
- ETL流程介绍常用实现方法
目录 1.概述 2.抽取作业(Extract) 2.1 手工开发抽取作业时候的常用方法 2.1.1 当数据源和DW为同一类数据库时 2.1.2 当数据源和ODS为不同类型数据库时 2.2 更新数据的时 ...
- android屏幕密度高度,Android获取常用辅助方法(获取屏幕高度、宽度、密度、通知栏高度、截图)...
我们需要获取Android手机或Pad的屏幕的物理尺寸,以便于界面的设计或是其他功能的实现.下面就分享一下Android中常用的一些辅助方法: 获取屏幕高度: /** * 获得屏幕高度 * @para ...
- 多线程2(常用的方法:join、interrupt、currentThread、isAlive、setDaemon...)
常用的方法: 1.join()方法: join()方法:执行该方法的线程进入阻塞状态,直到调用该方法的线程结束后再由阻塞状态转为就绪状态. 示例: package venus;import java. ...
- 基于 Python 的 8 种常用抽样方法
抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...
- 病理分析常见数据集及常用模型方法总结
病理分析常见数据集及常用模型方法总结 目录 病理分析常见数据集 病理图像分类常见处理方法 病理图像常见数据集详细说明 相关论文梳理
- java 中常用方法_java_中常用的方法总结
8月1日 练习: 合理覆盖Cat数据类型的,equals()方法 Cat.java 1 覆盖hashCode() 返回的整型值是唯一的 int hashCode() 用法: 一般使用String ...
- 查处的数据如何乱序_老司机总结常用镜像方法,让镜像数据更加可靠
在做数据包分析的时候,经常会说一句话,"Packets never lie(数据包不会说谎)",即数据包会真实反应网络服务和应用服务的真实状态.基于网络镜像的流量分析同样如此,如果 ...
- C语言中常用计时方法总结
转自:http://blog.csdn.net/fz_ywj/article/details/8109368 C语言中常用计时方法总结 1. time() 头文件:time.h 函数原型:time_t ...
最新文章
- db9小波包分解matlab,小波包分解、重构 matlab代码
- python计算特征与目标的相关性并可视化
- 一键将Word转换为MarkDown
- SQL Server 文件路径
- COJ 1163 乘法逆元的求解
- 板子制作_工厂制作风管VS现场制作有什么区别?
- python怎样填充颜色_python中如何给图形填充颜色
- ajax-page局部刷新分页实例
- Mysql实现企业级数据库主从复制架构实战
- 1024为大家带来个猜数字游戏
- UnicodeTOGB,能够将Unicode串转换成GB码
- Python课堂点名器,妈妈再也不会担心我被老师点名了
- oracle 分析锁,ORACLE锁机制分析
- 根据字体大小得到字符串显示时的宽度(C#)
- linux驱动系列学习之input子系统(二)
- springboot+vue前后端分离java地铁站自动售票系统-火车票售票系统
- 网络工程毕设新颖课题
- Games102 学习笔记
- mysql服务器安装时下列说法正确的是_下列说法错误的是()。
- OLM网络营销简述——简单谈小米