为什么数据处理很重要?

对数据挖掘熟悉的小伙伴,数据处理相关的工作时间占据了整个项目的70%以上。数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。

而在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。

小编最近忙于数据挖掘项目,抽了一些时间进行了总结,希望对读者能有所借鉴,也欢迎关注公众号,尽量定期更新所思所想!

有哪些数据预处理的方法?

1、缺失值的处理

  • 删除变量:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,否则带来噪声,影响结果
  • 统计量填充:若缺失率较低且重要性较低,可以根据数据分布的情况进行填充。对于数据符合均匀分布,用该变量的均值填补缺失,对于数据存在倾斜分布的情况,采用中位数进行填补。
  • 插值法填充:包括随机插值,多重差补法。
  • 哑变量填充:若变量是离散型,且不同值较少,可转换成哑变量。

2、离群点处理

异常值是数据分布的常态,异常分为两种:“伪异常”和“真异常”,真异常由于数据本身分布异常,即离群点。主要有以下检测离群点的方法:

  • 简单统计分析:根据箱线图、各分位点判断是否存在异常,例如pandas的describe函数可以快速发现异常值。3
  • 3倍标准差原则:若数据存在正态分布,偏离均值的3倍标准差之外,范围内的点为离群点。
  • 基于绝对离差中位数、距离:利用聚类算法等

3、噪声处理

噪声是变量的随机误差和方差,是观测点和真实点之间的误差,

通常的处理办法:对数据进行分箱操作,等频或等宽分箱,然后用每个箱的平均数,中位数或者边界值(不同数据分布,处理方法不同)代替箱中所有的数,起到平滑数据的作用

另外一种做法是,建立该变量和预测变量的回归模型,根据回归系数和预测变量,反解出自变量的近似值。

4、数据变换

数据变换包括对数据进行规范化,离散化,稀疏化处理,达到适用于挖掘的目的。

插值法补齐缺失数据_数据挖掘非常重要的一步:数据预处理相关推荐

  1. 插值法补齐缺失数据_关于数据清洗的常见方式

    1. 探索性分析 探索性分析部分,对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程,在我做相关数据挖掘的过程中,主要是利用python相关的科学计算库进行数据初步的探索,例如 ...

  2. 插值法补齐缺失数据_缺失数据处理-插值法

    缺失数据处理-插值法 在数据挖掘中,原始海量的数据中存在着大量不完整.不一致.有异常.偏离点的数据.这些问题数据轻则影响数据挖掘执行效率,重则影响执行结果.因此数据预处理工作必不可少,而其中常见工作的 ...

  3. 插值法补齐缺失数据_一种挽救你缺失数据的好方法——多重补插

    原标题:一种挽救你缺失数据的好方法--多重补插 缺失数据--研究中的绊脚石 在医学研究中,我们经常会碰到缺失数据.无论是因为实验设计的问题,或是检测手段精度,又或是医学实验中的不可抗力因素.一旦数据没 ...

  4. 插值法补齐缺失数据_数据处理——缺失值处理

    此文图方便,就直接输入数据了. importpandas as pd df = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班 ...

  5. Python数据处理-使用Pandas补齐缺失日期(pd.date_range)

    在处理时间序列的数据中,有时候会遇到有些日期的数据缺失的情况,这时候可以用pandas的 date_range 函数快速补齐缺失日期,再根据实际情况补齐缺失值. import pandas as pd ...

  6. Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据

    Java_Hive_UDF函数清洗数据_清洗出全国的省份数据 最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...

  7. 【GBase 8a MPP数据库集群】使用 AUTOFILL 关键字补齐缺失数据

    说明: AUTOFILL:用于设定是否启用缺失列自动补齐功能,启用该参数后,对缺失分割符的字段数据按照 default 值或者 NULL 值进行加载,默认不自动补齐. 建表语句: create tab ...

  8. Python-音频补齐(即对不同长度的音频用数据零对齐补位)

    由于有同学后台私信我如何音频补齐(就是类似于6s的音频怎么变10s),我在我的工作中也碰到这类问题,想着那今天就干脆写一篇博客吧,一起学习~ 1.如何实现?: 可以先设置我需要输出的音频时长值X和获取 ...

  9. imp遇到重复数据_数据挖掘入门 - 泰坦尼克号生存预测

    import pandas as pd; from sklearn.tree import DecisionTreeClassifier; # 导入决策树 from sklearn.linear_mo ...

最新文章

  1. Sublime Text3 运行Python 出现Error:Decode error - output not utf-8
  2. C++ 引用 Demo - Win32 版
  3. Dos中查找文件命令的使用find
  4. 前端学习(665):逻辑中断逻辑或二
  5. java 配置jmstemplate_Spring JMSTemplate 与 JMS 原生API比较
  6. 批量网站DNS区域传送漏洞检测——bash shell实现
  7. linux下载python的地址_Linux下Python获取IP地址的代码
  8. 第七周 linux加载和启动一个可执行程序
  9. 北斗sdk_北斗定位终端开发技术方案.pdf
  10. 音频编解码算法库 (可支持g711u,g711a,g729,g722,opus等)
  11. 恒生电子软件工程师面试
  12. 比犀利哥更经典的话语
  13. 银行中台与互联网中台有什么不同?该怎么建?
  14. android状态栏上显示图标大全,状态栏中的Android应用图标
  15. mac中dns解析不出来解决方式
  16. linux网卡汇聚模式,Linux网卡聚合 linux多网卡绑定聚合之bond模式原理
  17. 给新开启的12月一个期盼
  18. Qt论坛和博客网址大全
  19. html tab顶部吸附,flutter,SliverPersistentHeader实现Tab顶部吸附固定效果
  20. 安装AE报错131,Ae安装时报错误代码131

热门文章

  1. 【转载】理解矩阵(一)
  2. c#(6)——数组的应用和二维数组
  3. js实现操作等待提示loading……
  4. Hi Windows Live Writer
  5. Python 抓取图片
  6. css特性:空白外边距互相叠加
  7. .net VS 全角问题
  8. 关于在WinForm里用HttpWebRequest获得某个页面,并填写页面的textbox及点击button的方法...
  9. Flutter打包iOS上传 AppStore ERROR ITMS-90432: “Invalid Swift Support. The file Runner.app/Frameworks/.l
  10. Flutter透明度渐变动画Opacity实现透明度渐变动画效果