在数据预处理阶段,对于具有缺失值的数据记录不做任何处理,也
是一种思路。这种思路主要看后期的数据分析和建模应用,很多模型对
于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处
理。常见的能够自动处理缺失值的模型包括:KNN、决策树和随机森
林、神经网络和朴素贝叶斯、DBSCAN(基于密度的带有噪声的空间聚
类)等。这些模型对于缺失值的处理思路是:
·忽略,缺失值不参与距离计算,例如KNN。
·将缺失值作为分布的一种状态,并参与到建模过程,例如各种决
策树及其变体。
·不基于距离做计算,因此基于值的距离做计算,本身的影响就消
除,例如DBSCAN。

在数据建模前的数据归约阶段,有一种归约的思路是降维,
降维中又有一种直接选择特征的方法。假如我们通过一定方法确定带有
缺失值(无论缺少字段的值缺失数量有多少)的字段对于模型的影响非
常小,那么我们根本就不需要对缺失值进行处理。因此,后期建模时对
字段或特征的重要性判断也是决定是否处理字段缺失值的重要参考因素
之一。

对于缺失值的处理思路是先通过一定方法找到缺失值,接着分析缺
失值在整体样本中的分布占比以及缺失值是否具有显著的无规律分布特
征,然后考虑后续要使用的模型中是否能满足缺失值的自动处理,最后
决定采用哪种缺失值处理方法。在选择处理方法时,注意投入的时间、
精力和产出价值,毕竟,处理缺失值只是整个数据工作的冰山一角而
已。

在数据采集时,可在采集端针对各个字段设置一个默认
值。以MySQL为例,在设计数据库表时,可通过default指定每个字段的
默认值,该值必须是常数。在这种情况下,假如原本数据采集时没有采
集到数据,字段的值应该为Null,但由于在建立库表时设置了默认值,
这会导致“缺失值”看起来非常正常,但本质上还是缺失的。对于这类数
据需要尤其注意。

数据预处理阶段“不处理”缺失值的思路相关推荐

  1. eviews如何处理缺失数据填补_python数据预处理之异常值、缺失值处理方法

    数据预处理是明确分析目标与思路之后进行数据分析的第一步,也是整个项目中最基础.花费时间较长的工作.除了互联网埋点的数据或企业内部的业务数据之外,往往我们拿到的,比如说网上采集的数据并不是那样规整,这类 ...

  2. pandas用众数填充缺失值_【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱)...

    一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断. 也可 ...

  3. 数据预处理相关Demo(缺失值、均值方差标准化、极差法归一化、主成分分析)

    1 缺失值处理 1.1 pandas中利用fillna()函数 通过fillna()方法,可以去掉数据集中的空值(nan值). # 数据生成 import pandas as pd import nu ...

  4. 【建议收藏】机器学习数据预处理(一)——缺失值处理方法(内附代码)

  5. 数据预处理——4种缺失值处理方法

    1.删除含有缺失值的个案 主要有简单删除法和权重法.简单删除法是对缺失值进行处理的最原始方法.它将存在缺失值的个案删除.如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的. ...

  6. python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式

    对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式: (1)删掉缺失值数据 (2)不对其进行处理 (3)利用插补法对数据进行补充 第一种方式是极为不可 ...

  7. python填补缺失值数据驱动代码_python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式...

    对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式: (1)删掉缺失值数据 (2)不对其进行处理 (3)利用插补法对数据进行补充 第一种方式是极为不可 ...

  8. python数据预处理之缺失值的各种填补方式

    如果你觉得文字看着枯燥,可以看配套讲解视频:讲解视频 对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式: (1)删掉缺失值数据 (2)不对其进行处理 ...

  9. 关于数据预处理的7个重要知识点,全在这儿了!

    导读:今天这篇文章是「大数据」内容合伙人周萝卜关于<Python数据分析与数据化运营>的一篇读书笔记.在大数据公众号后台对话框回复合伙人,免费读书.与50万「大数据」同行分享你的洞见. 作 ...

  10. 机器学习笔记六——特征工程之数据预处理

    特征工程之数据预处理 1. 处理缺失值 2. 处理异常值 2.1 异常值检测 2.2异常值处理 3.离散特征的连续化处理 4.连续特征的离散化处理 5. 处理类别不平衡问题 6. 图片数据扩充 数据预 ...

最新文章

  1. 2021年大数据Spark(十五):Spark Core的RDD常用算子
  2. linux网络驱动架构,Linux网络体系架构和网卡驱动设计
  3. mac 下搭建 php + apache + mysql 服务器(cool)
  4. 项目中常用的 19 条 MySQL 优化总结
  5. android Formatter 的使用
  6. oracle查看jdk文档_Oracle JDK 9 Early Access文档已更新
  7. 针对JDK 14提议的另外六个JEP
  8. 阿里云李飞飞:今年将帮1000家企业“去O”,完成10000套传统数据仓库上云
  9. 这年头「野路子」产品太多了
  10. c++ log 打印android_如何在Android C++文件中打印ALOGI(...)?
  11. java中的StringUtil.isEmpty和StringUtil.isBlank
  12. Vue+百度地图api
  13. maxscale mysql5.7_Centos7安装maxscale 实现mysql的读写分离
  14. 华为机试4.20:新员工考试
  15. Unity3d基于订阅者模式实现事件机制_解决装箱拆箱问题和注册的监听事件单一问题
  16. 如何把应用程序和资料转移到新的硬盘?
  17. 小孩上了半年小学,针对老师的评语总结,如何对症优化教育培养策略?chatGPT搜了一下,AI震惊了我
  18. 22、T5L 迪文屏 C51开发之Hello World例程
  19. R语言画森林图方法4
  20. 基于Qt的房贷计算器

热门文章

  1. python的合法命名,以下不是Python语言合法命名的是:A、MyGod5B、5MyGodC、_...
  2. 74HC04六通道反相器介绍
  3. 音频打不开 服务器运行失败,win7系统提示音频服务器未运行的解决方法
  4. 【Lucene】挖掘相关搜索词
  5. win10换win7系统步骤操作详解分享
  6. Power算法求X的N次幂
  7. 51单片机【五】LED点阵屏
  8. QFP封装芯片手工焊接和拆卸技巧
  9. 小米路由器连电信路由器,dhcp服务无响应
  10. Anchor和目标检测中的理论感受野和实际感受野的关系