由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。

整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。

变量删除(variable deletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。

成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。

数据清理中,处理缺失值的方法相关推荐

  1. 数据预处理——4种缺失值处理方法

    1.删除含有缺失值的个案 主要有简单删除法和权重法.简单删除法是对缺失值进行处理的最原始方法.它将存在缺失值的个案删除.如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的. ...

  2. 【机器学习】机器学习中缺失值处理方法大全(附代码)

    今天我们来看看数据预处理中一个有趣的问题:数据清理中,如何处理缺失值.在我们探讨问题之前,我们一起回顾一些基本术语,帮助我们了解为什么需要关注缺失值. 目录 数据清洗简介 填补缺失值的重要性 缺失值导 ...

  3. 数据预处理+缺失值处理方案+Missing Value+pandas+缺失值填充方法、方案

    数据预处理+缺失值处理方案+Missing Value+pandas+缺失值填充方法.方案 缺失值+sklearn from sklearn.preprocessing import Imputer ...

  4. 如何将360流量监控数据清零 解决方法

    --关键字 360 流量监控 清零 解决方法 亏了昨日的倾盆大雨,今儿的天气是风清气爽,闲来蛋疼的打开了360安全卫士,无尽的失望涌上心头.曾经360是个好公司,是个没有争议的为用户服务的好公司,但现 ...

  5. 【数据分析】八种缺失值处理方法总有一种适合你

    为什么要处理缺失值 这一段完全是废话了.含有缺失数据的样本,你要么删了,要了就填充上什么值.删了就会损失一部分的样本信息,填充要是填充的不合适,会给样本增加噪音. 所以这就是一个选择的问题: 选择删除 ...

  6. python 数据框缺失值_Python:处理数据框中的缺失值

    python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...

  7. Python:在Pandas数据框中查找缺失值

    How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...

  8. 数据资产盘点的流程和方法

    对于政企而言,数据是通过驱动业务发展和提升经营质效服务,从而实现其价值的,"数据即资产""数据有价"的观念已逐渐成为行业共识.怎样识别数据资产.有效管理和运营数 ...

  9. pandas填补缺失值的方法

    pandas填补缺失值的方法 在处理数据的过程中,经常会遇到原数据部分内容的缺失,为了保证我们最终数据统计结果的正确性,通常我们有两种处理方式,第一种就是删除掉这些部分缺失的数据:第二种就是填补这些缺 ...

  10. 精心整理出来的几种缺失值处理方法

    缺失值补充 造成属性值缺失的原因有很多,比如信息暂时无法获取,信息被遗漏(有机械原因也有人为原因),有些对象的某个或者某些属性是不可用的,有些信息被认为是不重要的,获取这些信息的代价太大,系统实时性能 ...

最新文章

  1. org.springframework.expression.spel.SpelEvaluationException: EL1005E:(pos 0): Type cannot be found
  2. jemalloc java_从源构建tensorflow遇到错误:规则'@jemalloc//:jemalloc'的C编译失败
  3. EAST算法超详细源码解析:数据预处理与标签生成
  4. 一图尽览华为云数据库全套安全解决方案
  5. 两岸大学生体验福州油纸伞制作技艺
  6. adobe photoshop教程:使用PS创建逼真生动的水下文本效果
  7. 力扣题目系列:1313. 解压缩编码列表
  8. leadbbs在2003中的设置
  9. python输入某年某月某日歌词_python求输入某年某月某日,判断这一天是这一年的第几天...
  10. nginx 499错误原因及解决
  11. Java并发 JUC 一文快速入门
  12. 用友数据库最新会计期间_用友U8数据库维护常用表
  13. PostgreSQL存储过程-批量新增周末到节假日
  14. SpringBoot实现12306自动抢票系统
  15. 笔试java--链表
  16. Canny算法中的非极大值抑制
  17. 计算机网络知识之URL、IP、子网掩码、端口号
  18. 【纯JAVA语言做RPG游戏】1.做个瓷砖地图生成器
  19. 港科夜闻|香港科大研发氧聚解空气处理技术,耐用环保而且节省成本
  20. PHP、JSP、ASP简介与区别

热门文章

  1. IIS7管理器设置网站首页
  2. YOLOV3算法详解
  3. magisk卸载内置软件_安卓刷XP框架 手机通用通用(Magisk+Riru+EdXposed)
  4. ESP8266 WIFI 模块连接OneNet测试
  5. 【数字信号处理】--数字信号分析与处理基础知识
  6. java连接mysql,报错Could not create connection to database server.
  7. 阿里矢量图可根据样式修改颜色
  8. 计算机毕业设计ssm高校物资捐赠管理系统0e45o系统+程序+源码+lw+远程部署
  9. 小米官网服务器维修无法刷机,小米手机无法刷机的解决方法
  10. 分享一个十二色相环取色RGB颜色值与十六进制色码转换工具