机器学习数据预处理之离群值/异常值:标准差法

garbage in,garbage out.

异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计。 简单来说,异常值是一个观察值,远远超出了样本中的整体模式。

异常值在统计学上的全称是疑似异常值,也称作离群点(outlier),异常值的分析也称作离群点分析。异常值是指样本中出现的“极端值”,数据值看起来异常大或异常小,其分布明显偏离其余的观测值。异常值分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分析中剔除。重视异常值的出现,分析其产生的原因,常常成为发现新问题进而改进决策的契机。

从散点图上,可以直观地看到离群点,离群点是孤立的一个数据点;从分布上来看,离群点远离数据集中的其他数据点。

举个例子,做客户分析,发现客户的年平均收入是80万美元。 但是,有两个客户的年收入是4美元和420万美元。 这两个客户的年收入明显不同于其他人,那这两个观察结果将被视为异常值。

实际应用中,数据往往存在异常值,面对异常值,我们主要有几种思路:把异常值去掉,用其他数值代替异常值,对异常值进行变换。

标准差法也被称为拉依达准则(标准差法),适用于有较多组数据的时候。

工作原理:它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,
按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,
含有该误差的数据应予以剔除。

标准差本身

机器学习数据预处理之离群值/异常值:标准差法相关推荐

  1. 机器学习数据预处理之离群值/异常值:箱图法(boxplot method)

    机器学习数据预处理之离群值/异常值:箱图法(boxplot method) garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的 ...

  2. 机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD)

    机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD) garbage in,garbage out. 异常值是分析 ...

  3. 机器学习数据预处理之离群值/异常值:图像对比法

    机器学习数据预处理之离群值/异常值:图像对比法 garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计. 简单来说,异常值是一 ...

  4. 机器学习数据清洗之异常数据处理、标准差法、MAD法、箱图法、图像对比法、异常值处理准则

    机器学习数据清洗之异常数据处理.标准差法.MAD法.箱图法.图像对比法.异常值处理准则 目录

  5. 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值

    机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...

  6. 机器学习数据预处理之缺失值:插值法填充+多项式插值

    机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...

  7. [机器学习]-[数据预处理]-中心化 缩放 KNN(二)

    上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1. 真实结果 预测结果 预测结果   正例 反例 正例 TP 真 ...

  8. 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)

    机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...

  9. 机器学习数据预处理之缺失值:特征删除

    机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

最新文章

  1. Linux 火狐浏览器安装Flash插件
  2. 超好的Git学习网站
  3. 如何保证代码的高质量?
  4. 软件项目可持续性运作地思考
  5. oracle回滚断查询,Oracle回滚段使用查询代码详解
  6. Linux常用命令大全(非常全面)
  7. laravel-admin使用教程
  8. MyEclipse 注册码
  9. 教务系统mysql注入的原理_SQL注入原理及具体步骤
  10. 微信支付 APP端 第三弹 申请退款
  11. 树莓派控制超声波测距原理及实现
  12. android 手机内存分配,【扫盲贴』关于android手机中RAM(也就是 运行内存)的分配...
  13. 在线小游戏,在线小游戏大全,网页在线小游戏大全
  14. 游戏建模:手绘暗黑小萝莉
  15. 知识在超网络中的传播模型
  16. 【Linux】Linux安装nginx操作详细步骤
  17. 读《借助开源项目,学习软件开发》总结
  18. 神经网络现状综述,神经网络现状分析
  19. 四川大学计算机考研资料汇总
  20. 单片机C语言谁讲得好,开发单片机学什么语言好?

热门文章

  1. (附源码)计算机毕业设计ssm高校社团管理系统
  2. Fence Repair-栅栏维修(优先队列)
  3. 必刷|2022年贵州最新八大员之(安全员)模拟题库及答案
  4. 如何将excel表中的多行数据合并到一行
  5. 区块链创业公司解散后,我去美团送外卖了 | 链人生
  6. 安卓修炼之路必要要知道的要求和建议
  7. webrtc android 声音处理,WebRTC 安卓有视频无声音问题解决
  8. **Python 复数计算会丢失虚部的问题**ComplexWarning: Casting complex values to real discards the imaginary part
  9. Zabbix发送带附件的邮件
  10. Linux系统编程-信号入门2