学习这么长时间的数据分析,却没有好好的做个总结,前段时间面试的时候,有面试官提问,如何做数据清洗。但由于平时缺少总结,回答的不是很好。于是博主决定好好地学习总结一番。

数据清洗主要针对一下几类脏数据:1)缺失值2)异常值3)重复值

缺失值

一、数据为什么会缺失

数据缺失主要分为两大类:

有意的:有些数据特征在设计的时候考虑会有缺失值的情况,而缺失数据往往不代表真的缺失,而是另有含义。比如:用户的子女年龄,如果缺失说明用户无小孩。

无意的:数据在采集过程、数据导入过程中均可能出现造成缺失,比如:智能电表在采集电力读数时,由于一些原因,造成某一时刻的数据未写入数据库。

二、数据缺失的类型

数据缺失的类型主要分为三大类:

完全随机缺失:所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关。博主认为就是无法通过数据预估,比如家庭地址,你无法通过年收入、学历等等预估用户的具体家庭住址。

随机缺失:假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的,比如上面提到的用户的子女年龄,如果用户无配偶,那么该字段肯定是缺失的。

非随机缺失:如果不完全变量中数据的缺失既依赖于完全变量又依赖于不完全变量本身,这种缺失即为不可忽略的缺失.比如:一些高收入的人群不愿意透露自己的收入。

三、数据缺失的处理方式

我们需要根据数据缺失的具体原因以及数据缺失的类型,制定不同处理方式,才能更有效进行缺失值的清洗。

1、删除记录

对具有缺失值的样本进行删除

2、数据填补

2.1 均值插补

使用众数、平均数、中位数等数据进行空值填充

2.2 聚类方法填充

通过聚类方法将样本聚类,然后使用聚类中心对空值进行填充

2.3 拟合缺失值

使用其它的特征构建模型,来估计填充缺失值

3、衍生变量

通过生成一列新的特征变量,来标识该字段是否为空。

4、不处理

在构建模型时,我们可以选择使用对缺失值不敏感的算法构建模型,如xgboost与随机森林等算法

异常值

一、为什么会有异常值呢

数据输入错误:人为错误(如数据收集,记录或输入过程中导致的错误)会导致数据中的异常值。

测量误差:这是异常值最常见的来源。 当使用的测量仪器出现故障时,会引起这种情况。

实验误差:异常值的另一个原因是实验误差。

故意异常值:通常在自我报告的措施中涉及敏感数据。问卷调查过程中可能存在虚报的可能。

数据处理错误:无论何时执行数据挖掘,我们从多个来源提取数据。 某些操作或提取错误可能会导致数据集中的异常值。

抽样错误:例如,衡量运动员的身高,错误地在样品中包括几名篮球运动员。 这种包含可能会导致数据集中的异常值。

自然异常值:当异常值不是人为的(由于错误),它是一个自然的异常值。原本不是异常值,但是在数据挖掘过程中会对普遍的规律产生影响。比如:超级富豪对人均资产的影响。

二、异常值的检测手段

1、简单统计

通过观察统计指标,如最大值,最小值等等 是否超出已知的范围。

2、散点图

通过散点图,查看数据的分布情况,大致查看离群点的情况

3、3∂原则

如果数据服从正态分布的话,那么在3原则下,如果样本数据超出三倍的标准差的范围的概率为99.7%,所以如果数据超出三倍标准差的话,属于极小概率事件,可以认为是异常数据。

4、箱型图

利用箱型图的四分位距(IQR)对异常值进行判断,四分位距(IQR)是上四分位与下四分位的差值,异常点的定义即如果超过(上四分位点+1.5倍IQR距离,或者下四分位点-1.5倍IQR距离)的点为异常值。箱型图如下:

5、DBSCAN密度聚类

通过DBSCAN算法进行聚类,如果有样本数据未被划分类别,那么这些样本数据可认为是异常数据。

三、异常值的处理方式

  1. 删除样本
  2. 变换异常值:
    1. 将数据转化为对数形式;
    2. 减小异常值的影响将值超出(0.05,0.95)之外的,使用0.05或者0.95点的值来进行替换;
    3. 将数据分箱处理。
  3. 使用缺失值的方法进行处理
  4. 不处理

重复值

一、数据为什么会重复

  1. 数据采集或导入过程因为某些原因进行了多次操作;
  2. 数据整合的过程中由于关联键不唯一造成数据重复的情况。

二、数据重复的处理方式

一般情况下数据重复的话,通常是进行去重处理。因为一般情况下多条重复数据没有意义。不过我们要注意在构建一些模型的时候,因为样本不均衡可能会使用重采样的方法特意去构建重复样本。

数据分析学习——数据清洗相关推荐

  1. Python数据分析学习系列 八 数据规整:聚合、合并和重塑

    Python数据分析学习系列 八 数据规整:聚合.合并和重塑 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下 ...

  2. 我的数据分析学习路径设计

    1.定义.分析步骤.运用场景 定义:数据分析是对信息进行搜集,提取有用的信息形成结论,辅助决策的过程. 数据分析包括以下步骤: 明确数据分析的目的/需求设计 数据采集 数据清洗和储存 数据分析 形成业 ...

  3. 数据分析学习总结笔记17:文本分析入门案例实战

    文章目录 1 数据准备 2 分词 3 统计词频 4 词云 5 提取特征 6 用sklearn进行训练 1 数据准备 数据样例如下, 数据总量为7.7万+: 本节通过一个实战的例子来展示文本分析的最简单 ...

  4. 干货 | 从零进阶数据分析学习资料汇总(限时福利)

    据麦肯锡权威数据报告显示:到2025年中国数据人才缺口或将达到220万.中国商委会数据分析部的统计显示:未来中国基础性数据分析人才的缺口将达到1000万+. 如果你是想要入门数据分析的同学: 如果你还 ...

  5. 数据分析学习02-numpy

    简介 NumPy是Python中科学计算的基础包.它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学.逻辑.形状操作.排序.选择. ...

  6. 数据分析学习笔记——数据可视化

    数据分析学习笔记系列--数据可视化 总第45篇 ▼ 写在前面: 本篇来源于书籍<数据之美-一本书学会可视化设计>的学习后整理所得.全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步 ...

  7. 机器学习之数据预处理——数据清洗(缺失值、异常值和重复值的处理)

    机器学习之数据预处理--数据清洗缺失值.异常值和重复值的处理 基础知识 技术点总结 数据列缺失的处理方法 1.丢弃(缺失值处理) 1.生成一份随机数据 2.查看哪些值缺失 3.获得含有NA的列 4.获 ...

  8. 数据科学与python——Pandas统计分析基础(数据堆叠+数据清洗)

    Pandas统计分析基础数据堆叠+数据清洗 一.合并数据:获取完整的数据集. 1.读取数据 2.将两个csv文件按照mete.csv文件的日期对齐 3.纵向合并数据data1与data2 4.使用dr ...

  9. python测速程序_Python大数据分析学习.测试程序执行速度

    Python大数据分析学习.测试程序执行速度 发布时间:2019-03-25 22:26, 浏览次数:250 , 标签: Python Here, I introduce 2 magic functi ...

最新文章

  1. python交互式shell_交互式 shell 玩转 Python
  2. MongoDB复制选举原理及复制集管理
  3. java中String的七种用法
  4. 2018双一流排名 计算机,2018年42所双一流大学本硕博录取人数排名,规模优势凸显!...
  5. 阿里图标库(iconfont)下载图标使用图标技巧(保姆级图文)
  6. Python-振动信号加入噪声-代码实现
  7. Excel 冻结窗格
  8. 中小软件企业如何生存和发展
  9. 微信小程序内嵌网页链接
  10. 高通处理器规格表(全2022)--转载
  11. 顶刊实证复现:排污权交易机制是否提高了企业全要素生产率 (思路梳理+全数据源+python代码)
  12. 计算机硬件网络设备,[计算机硬件及网络]网络设备的选型.ppt
  13. 浏览器网页视频怎么快速下载到本地?
  14. php与hls,转: 基于nginx的hls直播系统
  15. python中使用requests库获取昵图网图片,且正则中re.S的用法
  16. Windows驱动开发学习记录-驱动中快速重启关闭计算机之一
  17. python基础知识点集锦一
  18. 学习Web前端开发前景怎么样?
  19. UE4安卓打包配置(大陆内网络整顿后,Android打包时AndroidWorks无法使用的解决方法)
  20. 扇贝读书营指导讲义爬取

热门文章

  1. 经济史话:在强国与富民之间
  2. 一加Ace什么时候发布 一加Ace发布时间曝光
  3. 金丹期前期:1.8、python语言-python程序的模块与包
  4. 钉钉小程序与微信小程序的异同
  5. 整数a+b(python)
  6. Mercurial hg轻量级分布式版本控制系统
  7. 华为EMUI10 多端开发部署统一开发工具
  8. 地方论坛怎样做线上及线上推广
  9. mysql删除user_MySQL删除用户( DROP USER)
  10. 1500元投影仪性价比排名!哪款才是最优选择?