常用的数据清洗方法学习笔记(全面、完整)
常用的数据清洗方法
在数据处理过程中,一般都需要进行数据的处理工作,如数据集是否存在重复、是否存在缺失、数据是否具有一定的完整性和一致性、数据中是否存在异常值等,当发现数据中可能存在上述问题时,都需要有针对的处理,本节主要介绍如何识别和处理重复观测、缺失值和异常值。
1. 重复观测处理
重复观测是指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,还需要进行重复项的删除;下图中唯品会出现了2次。
检测数据集的记录是否存在重复,Pandas中使用duplicated方法,该方法返回的是数据行每一行的检验结果,即每一行返回一个bool值,使用drop_duplicates方法移除重复值
import pandas as pd
a = pd.read_excel('same_data.xlsx')
print("是否存在重复观测:",any(a.duplicated()))
a.drop_duplicates(inplace=True)#inplace=True时,直接删除a中的重复数据
f=pd.ExcelWriter('same_data.xlsx')
a.to_excel(f)
f.save()
2. 缺失值处理
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点或非浮点数组中的缺失数据,Python内置的None值也会被当作缺失值处理,Pandas使用方法isnull检测是否为缺失值,检测对象的每一个元素返回一个bool值。
from pandas import Series
from numpy import NaN
data = Series([10.0,None,20,NaN,30])
#print(data)
print(data.isnull())
可以看出,data数据中的第二个和第四个元素都被视为缺失值
缺失值处理方法可以采用三种方法,分别是过滤法、填充法和插值法,
过滤法又称为删除法,是指当缺失的观测值比例非常低时(如5%以内),直接删除存在缺失值的观测;或者当某些变量的缺失比例非常高(如85%以上),直接删除这些缺失的变量;
填充法又称为替换法,是指用某种常数直接替换那些缺失值,例如,对于连续变量而言,可以使用均值或中位数替换;对于离散变量,可以使用众数替换
插值法是指根据其他非缺失变量或观测来预测缺失值,常见的插值法有线性插值法、K近邻插值法、Lagrange插值法。
数据过滤
数据过滤的dropna方法的语法格式如下:
dropna(axis=0, how='any', thresh=None)
其中:(1)axis=0表示删除行;axis=1表示删除列
(2)how参数可选值为any或all,all表示删除全有NaN的行
(3)thresh为整数类型,表示删除的条件,如thresh=3,表示一行中至少有3个非NaN值时,才将其保留
from pandas import read_excel
a=read_excel("Pdata2_33.xlsx",u)
常用的数据清洗方法学习笔记(全面、完整)相关推荐
- mysql select语句详解_mysql学习笔记之完整的select语句用法实例详解
本文实例讲述了mysql学习笔记之完整的select语句用法.分享给大家供大家参考,具体如下: 本文内容: 完整语法 去重选项 字段别名 数据源 where group by having order ...
- mysql数据库select语句用法_mysql学习笔记之完整的select语句用法实例详解
本文实例讲述了mysql学习笔记之完整的select语句用法.分享给大家供大家参考,具体如下: 本文内容: 完整语法 去重选项 字段别名 数据源 where group by having order ...
- 微信小程序-常用API开发技巧学习笔记
常用API开发技巧学习笔记 第一章 认识微信小程序 前后端分离的开发方式 小程序的特点 小程序对开发者的影响 学习小程序需要的基础 第二章 小程序环境搭建与开发工具介绍 小程序开发环境 没有小程序号对 ...
- 使用python进行数据清洗常用的库_python3常用的数据清洗方法(小结)
首先载入各种包: import pandas as pd import numpy as np from collections import Counter from sklearn import ...
- 光滑噪声数据常用的方法_数据挖掘中常用的数据清洗方法
是新朋友吗?记得先点蓝字关注我哦- 数据挖掘中 常用的数据清洗方法 在数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理,分别是缺失值(missing va ...
- Python——常用Python包的学习笔记
1 致谢 感谢陈助教的帮助! 2 前言 今天想通过画图展现一下学习参考值的变化情况,在网上看了一下,需要使用plt包,不过又忘了plt是做什么用的了,于是想要记录一下,写一下关于常用Python包的笔 ...
- Python数据清洗 | 常用的数据清洗方法
常用的数据清洗方法 本文首发于微信公众号<Python希望社>,欢迎关注,完整详细的原文链接请点击这里 在数据处理的过程中,一般都需要进行数据的清洗工作,如数据集是否存在重复.是否存在确实 ...
- 一、css清除浮动方法学习笔记总结(超详细,简单易懂)
** css清除浮动方法学习笔记总结(超详细,简单易懂) ** 问题: 上图中,由于container(父级元素)未设置高度,其内部子元素设置了float浮动,导致与container同级(也就是co ...
- Python常用的数据清洗方法
Python常用的数据清洗方法 在数据处理的过程中,一般都需要进行数据的清洗工作,如数据集是否存在重复.是否存在缺失.数据是否具有完整性和一致性.数据中是否存在异常值等.当发现数据中存在如上可能的问题 ...
最新文章
- 位序、字节序、类型序
- 网络新手ip隐藏器_动态IP代理的用途
- 全球最快无人卡车规模化商用,这家中国初创公司究竟凭什么
- linux下踢出已登录用户
- python编程少儿游戏编程_少儿编程课堂|python – 用游戏学编程
- 中文NER任务实验小结:BERT-MRC的再优化
- python算法与数据结构-二叉树的代码实现(46)
- php数组函数(分类基本数组函数,栈函数,队列)
- .Net中堆栈和堆的区别
- 独家:Havok 发布新的 AI 中间件
- MTK 驱动(49)---TP测试规范
- 金山手机卫士论坛_三星多款手机黑屏系统崩溃 客服:闰4月BUG,无法保证数据不丢失...
- 编程语言python入门-Python基础教程 - 全文
- python代码编辑器PyCharm快捷键补充
- Java 2017.11.20 杨浩宁作业
- 第二季-专题12-通过按键玩中断
- make的作用linux,Linux下./configure,make,make install的作用
- MTK camera tuning学习中遇到的一些问题(调试前)
- 【QT】QT事件处理
- 深入了解前端路由 hash 与 history 差异