常用的数据清洗方法

在数据处理过程中,一般都需要进行数据的处理工作,如数据集是否存在重复、是否存在缺失、数据是否具有一定的完整性和一致性、数据中是否存在异常值等,当发现数据中可能存在上述问题时,都需要有针对的处理,本节主要介绍如何识别和处理重复观测、缺失值和异常值。

1. 重复观测处理

重复观测是指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,还需要进行重复项的删除;下图中唯品会出现了2次。

检测数据集的记录是否存在重复,Pandas中使用duplicated方法,该方法返回的是数据行每一行的检验结果,即每一行返回一个bool值,使用drop_duplicates方法移除重复值

import pandas as pd
a = pd.read_excel('same_data.xlsx')
print("是否存在重复观测:",any(a.duplicated()))
a.drop_duplicates(inplace=True)#inplace=True时,直接删除a中的重复数据
f=pd.ExcelWriter('same_data.xlsx')
a.to_excel(f)
f.save()

2. 缺失值处理

数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点或非浮点数组中的缺失数据,Python内置的None值也会被当作缺失值处理,Pandas使用方法isnull检测是否为缺失值,检测对象的每一个元素返回一个bool值。

from pandas import Series
from numpy import NaN
data = Series([10.0,None,20,NaN,30])
#print(data)
print(data.isnull())


可以看出,data数据中的第二个和第四个元素都被视为缺失值
缺失值处理方法可以采用三种方法,分别是过滤法、填充法和插值法

过滤法又称为删除法,是指当缺失的观测值比例非常低时(如5%以内),直接删除存在缺失值的观测;或者当某些变量的缺失比例非常高(如85%以上),直接删除这些缺失的变量;

填充法又称为替换法,是指用某种常数直接替换那些缺失值,例如,对于连续变量而言,可以使用均值或中位数替换;对于离散变量,可以使用众数替换

插值法是指根据其他非缺失变量或观测来预测缺失值,常见的插值法有线性插值法、K近邻插值法、Lagrange插值法。

数据过滤

数据过滤的dropna方法的语法格式如下:

dropna(axis=0, how='any', thresh=None)

其中:(1)axis=0表示删除行;axis=1表示删除列
(2)how参数可选值为any或all,all表示删除全有NaN的行
(3)thresh为整数类型,表示删除的条件,如thresh=3,表示一行中至少有3个非NaN值时,才将其保留

from pandas import read_excel
a=read_excel("Pdata2_33.xlsx",u)

常用的数据清洗方法学习笔记(全面、完整)相关推荐

  1. mysql select语句详解_mysql学习笔记之完整的select语句用法实例详解

    本文实例讲述了mysql学习笔记之完整的select语句用法.分享给大家供大家参考,具体如下: 本文内容: 完整语法 去重选项 字段别名 数据源 where group by having order ...

  2. mysql数据库select语句用法_mysql学习笔记之完整的select语句用法实例详解

    本文实例讲述了mysql学习笔记之完整的select语句用法.分享给大家供大家参考,具体如下: 本文内容: 完整语法 去重选项 字段别名 数据源 where group by having order ...

  3. 微信小程序-常用API开发技巧学习笔记

    常用API开发技巧学习笔记 第一章 认识微信小程序 前后端分离的开发方式 小程序的特点 小程序对开发者的影响 学习小程序需要的基础 第二章 小程序环境搭建与开发工具介绍 小程序开发环境 没有小程序号对 ...

  4. 使用python进行数据清洗常用的库_python3常用的数据清洗方法(小结)

    首先载入各种包: import pandas as pd import numpy as np from collections import Counter from sklearn import ...

  5. 光滑噪声数据常用的方法_数据挖掘中常用的数据清洗方法

    是新朋友吗?记得先点蓝字关注我哦- 数据挖掘中 常用的数据清洗方法 在数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理,分别是缺失值(missing va ...

  6. Python——常用Python包的学习笔记

    1 致谢 感谢陈助教的帮助! 2 前言 今天想通过画图展现一下学习参考值的变化情况,在网上看了一下,需要使用plt包,不过又忘了plt是做什么用的了,于是想要记录一下,写一下关于常用Python包的笔 ...

  7. Python数据清洗 | 常用的数据清洗方法

    常用的数据清洗方法 本文首发于微信公众号<Python希望社>,欢迎关注,完整详细的原文链接请点击这里 在数据处理的过程中,一般都需要进行数据的清洗工作,如数据集是否存在重复.是否存在确实 ...

  8. 一、css清除浮动方法学习笔记总结(超详细,简单易懂)

    ** css清除浮动方法学习笔记总结(超详细,简单易懂) ** 问题: 上图中,由于container(父级元素)未设置高度,其内部子元素设置了float浮动,导致与container同级(也就是co ...

  9. Python常用的数据清洗方法

    Python常用的数据清洗方法 在数据处理的过程中,一般都需要进行数据的清洗工作,如数据集是否存在重复.是否存在缺失.数据是否具有完整性和一致性.数据中是否存在异常值等.当发现数据中存在如上可能的问题 ...

最新文章

  1. 位序、字节序、类型序
  2. 网络新手ip隐藏器_动态IP代理的用途
  3. 全球最快无人卡车规模化商用,这家中国初创公司究竟凭什么
  4. linux下踢出已登录用户
  5. python编程少儿游戏编程_少儿编程课堂|python – 用游戏学编程
  6. 中文NER任务实验小结:BERT-MRC的再优化
  7. python算法与数据结构-二叉树的代码实现(46)
  8. php数组函数(分类基本数组函数,栈函数,队列)
  9. .Net中堆栈和堆的区别
  10. 独家:Havok 发布新的 AI 中间件
  11. MTK 驱动(49)---TP测试规范
  12. 金山手机卫士论坛_三星多款手机黑屏系统崩溃 客服:闰4月BUG,无法保证数据不丢失...
  13. 编程语言python入门-Python基础教程 - 全文
  14. python代码编辑器PyCharm快捷键补充
  15. Java 2017.11.20 杨浩宁作业
  16. 第二季-专题12-通过按键玩中断
  17. make的作用linux,Linux下./configure,make,make install的作用
  18. MTK camera tuning学习中遇到的一些问题(调试前)
  19. 【QT】QT事件处理
  20. 深入了解前端路由 hash 与 history 差异

热门文章

  1. ELMO and BERT
  2. 深度分析中国高端投教市场第一股“九方财富”的投资价值
  3. 即构4周年:我们登上了音视频更高的山峰
  4. 判断输出质素(素数)的程序及其优化
  5. 外挂技术研究系列-分析人物属性数据和偏移
  6. 骑行时膝盖损伤的原因
  7. 【1】python爬虫入门,利用bs4以及requests获取静态网页
  8. 解决AX210在ubuntu20.04下找不到WIFI设置的问题
  9. Excel对文本进行分列
  10. 计算机exicl如何分类汇总,AutoCAD常用命令大全(分类汇总表).xls