数据分析学习总结笔记05:缺失值分析及处理

  • 1 缺失值概念
  • 2 缺失值分析的类别
    • 2.1 按数据缺失形式划分
    • 2.2 按缺失机制与方式划分
  • 3 缺失值的处理方法
    • 3.1 删除缺失值
    • 3.2 缺失值替代
    • 3.3 缺失值分析

1 缺失值概念

在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。
因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失的个案;也可能会使分析结果精度降低,出现偏倚甚至是错误的结论。
另外,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化,部分分析过程无法完成。
缺失值分析有助于解决出不完整的数据造成的若干问题,尽可能全面、有效地利用整个数据库1

2 缺失值分析的类别

2.1 按数据缺失形式划分

(1)单元缺失:针对需调查的个案进行调查而没有得到个案信息。这种缺失在数据分析阶段常常无能为力。
(2)项目缺失:在调查内容中某些变量的观测结果有缺失。

2.2 按缺失机制与方式划分

(1)完全随机缺失:已评价的结果或即将进行的评价结果中,研究对象的缺失率是独立的。即,缺失现象完全随机发生,与自身或其他变量的取值无关。
(2)随机缺失:缺失数据的发生与数据库中其他无缺失变量的取值有关。某一观察值的缺失的概率仅依赖已有的观察结果,不依赖未观察到的结果。这是最常见的缺失机制。
(2)非随机缺失:数据的缺失不仅与其他变量的取值有关,缺失率与缺失数据有关,也和自身有关。这种缺失大都不是由偶然因素所造成的,常常是不可忽略的。

3 缺失值的处理方法

3.1 删除缺失值

最常见、最简单的处理缺失值数据的方法,使用这种方法时,如果任何个案在某一变量含有缺失数据的话,就把对应的个案从分析中剔除。

  • 优点:如果缺失值所占比例较小的话,该方法十分有效。
  • 缺点:该方法以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。

3.2 缺失值替代

缺失值替代,即在SPSS“转换”选项卡中的“替换缺失值”菜单过程。此过程将所有的记录看成一个序列,然后采用某种指标对缺失值进行填充。

  • 优点:它实际上专门用于解决时间序列模型中的缺失值问题。常用的替代方式有:算术平均数、缺失值临近点的算术平均数、中位数、线性插入等。
  • 缺点:虽然其中的一些填充方法也可以用于普通数据,但相比之下,如果在非序列数据中使用该过程可能得不偿失,应当谨慎使用。

3.3 缺失值分析

(1)缺失值的描述和快速诊断:用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例为多少,是否与其他变量取值有关,从而得知这些缺失值出现是否会影响分析结论。
(2)得到更精确的统计量:提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量将更加可靠。
(3)用估计值替换缺失值:使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。

相关笔记:

  1. Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
  2. Python相关实用技巧02:Python2和Python3的区别
  3. Python相关实用技巧03:14个对数据科学最有用的Python库
  4. Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
  5. Python相关实用技巧05:yield关键字的使用
  6. Scrapy爬虫小技巧01:轻松获取cookies
  7. Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
  8. 数据分析学习总结笔记01:情感分析
  9. 数据分析学习总结笔记02:聚类分析及其R语言实现
  10. 数据分析学习总结笔记03:数据降维经典方法
  11. 数据分析学习总结笔记04:异常值处理
  12. 数据分析学习总结笔记05:缺失值分析及处理
  13. 数据分析学习总结笔记06:T检验的原理和步骤
  14. 数据分析学习总结笔记07:方差分析
  15. 数据分析学习总结笔记07:回归分析概述
  16. 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
  17. 数据分析学习总结笔记09:文本分析
  18. 数据分析学习总结笔记10:网络分析

本文主要根据个人学习(数据分析技术MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!


  1. 数据分析技术MOOC ↩︎

数据分析学习总结笔记05:缺失值分析及处理相关推荐

  1. 数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析

    文章目录 1 引言 2 数据集 3 文本统计信息分析 4 Ngram模型探索 5 基于pyLDAvis的主题模型探索 6 绘制词云图 7 情感分析 7.1 TextBlob 7.2 Vader Sen ...

  2. 数据分析学习总结笔记17:文本分析入门案例实战

    文章目录 1 数据准备 2 分词 3 统计词频 4 词云 5 提取特征 6 用sklearn进行训练 1 数据准备 数据样例如下, 数据总量为7.7万+: 本节通过一个实战的例子来展示文本分析的最简单 ...

  3. 数据分析学习总结笔记15:时间序列分析及Python实现

    文章目录 1 引言 2 时间序列的特性 2.1 自相关 2.2 季节性 2.3 平稳性 3 时间序列建模 3.1 移动平均法 3.2 指数平滑法 3.3 双指数平滑法 3.4 三重指数平滑法 3.5 ...

  4. 数据分析学习总结笔记03:数据降维经典方法

    数据分析学习总结笔记03:数据降维经典方法 1. 数据降维概述 2. 数据降维的应用 3. 数据降维经典方法 3.1 主成分分析(PCA) 3.1.1 PCA概述 3.1.2 PCA原理 3.1.3 ...

  5. 数据分析学习总结笔记10:网络分析

    数据分析学习总结笔记10:网络分析 1 网络分析概述 1.1 三大社会科学理论 1.2 网络分析内容 2 网络的基本概念与特征量 2.1 网络的发展 2.2 网络的表达形式 2.3 网络基本概念与特征 ...

  6. python sci数据_scanpy学习笔记:用Python分析单细胞数据

    Scanpy 是一个基于 Python 分析单细胞数据的软件包,内容包括预处理,可视化,聚类,拟时序分析和差异表达分析等.本文翻译自 scanpy 的官方教程 Preprocessing and cl ...

  7. Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  8. python客户画像_Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  9. JavaWeb黑马旅游网-学习笔记05【分类数据展示功能】

    Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb黑马旅游网-学习笔记01[准备工作] JavaWeb黑马旅游网-学习笔记02[注册功能] JavaWeb黑马旅游网-学习笔记03[登陆和 ...

最新文章

  1. (C++)1046 划拳
  2. Myeclipse启动报错: Invalid 'log4jConfigLocation' parameter
  3. Unity3D常见面试题
  4. 变频器端子阻抗3k_PLC与变频器连接问题分析
  5. 重置一个画面大小的方法
  6. linux cacti 搭建,linux下搭建cacti监控(示例代码)
  7. httpd在嵌入式中应用
  8. atitit.提升研发管理的利器---重型框架 框架 类库的区别
  9. vista中如何解决金山词霸延时问题
  10. 小米无线路由器经常连接不上网络连接服务器,小米路由器频繁掉线详细解决方法...
  11. 16Aspx.com源码2014年7月详细
  12. 室内外一体化融合定位技术浅析--室内定位--新导智能
  13. Latex 提示错误Improper alphabetic constant
  14. LVS linux virtual server 章文嵩
  15. 浅谈sklearn中DBSCAN的欧式距离(Euclidean Distance)的计算
  16. 什么是“可维护性”?
  17. 城市文化笔记整理(二)
  18. C++Primer笔记-A003-decltype使用
  19. 事务原子性、一致性、持久性的实现原理
  20. 计算机的四个发展史教案,计算机发展史教案

热门文章

  1. python之selenium的switch_to
  2. 2022自学考试报名时间、报名条件是什么?
  3. 配置Golden Gate 密码加密
  4. (安卓接口调用之)微光互联扫码小盒子的使用
  5. 简单分析几十个游戏案例
  6. 感悟2022年:玫琳凯公布今年上半年以来的奖项、里程碑和成就
  7. tp6腾讯云、七牛云对象存储的工具类以及异步上传
  8. 什么是地址java_Java中的“内部地址”是什么?
  9. PLC信号处理之超前/滞后补偿器(LEAD_LAG)算法
  10. 订货软件-为什么要选择合适的订货软件