机器学习数据预处理之离群值/异常值:标准差法
机器学习数据预处理之离群值/异常值:标准差法
garbage in,garbage out.
异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计。 简单来说,异常值是一个观察值,远远超出了样本中的整体模式。
异常值在统计学上的全称是疑似异常值,也称作离群点(outlier),异常值的分析也称作离群点分析。异常值是指样本中出现的“极端值”,数据值看起来异常大或异常小,其分布明显偏离其余的观测值。异常值分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分析中剔除。重视异常值的出现,分析其产生的原因,常常成为发现新问题进而改进决策的契机。
从散点图上,可以直观地看到离群点,离群点是孤立的一个数据点;从分布上来看,离群点远离数据集中的其他数据点。
举个例子,做客户分析,发现客户的年平均收入是80万美元。 但是,有两个客户的年收入是4美元和420万美元。 这两个客户的年收入明显不同于其他人,那这两个观察结果将被视为异常值。
实际应用中,数据往往存在异常值,面对异常值,我们主要有几种思路:把异常值去掉,用其他数值代替异常值,对异常值进行变换。
标准差法也被称为拉依达准则(标准差法),适用于有较多组数据的时候。
工作原理:它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,
按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,
含有该误差的数据应予以剔除。
标准差本身
机器学习数据预处理之离群值/异常值:标准差法相关推荐
- 机器学习数据预处理之离群值/异常值:箱图法(boxplot method)
机器学习数据预处理之离群值/异常值:箱图法(boxplot method) garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的 ...
- 机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD)
机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD) garbage in,garbage out. 异常值是分析 ...
- 机器学习数据预处理之离群值/异常值:图像对比法
机器学习数据预处理之离群值/异常值:图像对比法 garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计. 简单来说,异常值是一 ...
- 机器学习数据清洗之异常数据处理、标准差法、MAD法、箱图法、图像对比法、异常值处理准则
机器学习数据清洗之异常数据处理.标准差法.MAD法.箱图法.图像对比法.异常值处理准则 目录
- 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值
机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...
- 机器学习数据预处理之缺失值:插值法填充+多项式插值
机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...
- [机器学习]-[数据预处理]-中心化 缩放 KNN(二)
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1. 真实结果 预测结果 预测结果 正例 反例 正例 TP 真 ...
- 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)
机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...
- 机器学习数据预处理之缺失值:特征删除
机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...
最新文章
- Linux 火狐浏览器安装Flash插件
- 超好的Git学习网站
- 如何保证代码的高质量?
- 软件项目可持续性运作地思考
- oracle回滚断查询,Oracle回滚段使用查询代码详解
- Linux常用命令大全(非常全面)
- laravel-admin使用教程
- MyEclipse 注册码
- 教务系统mysql注入的原理_SQL注入原理及具体步骤
- 微信支付 APP端 第三弹 申请退款
- 树莓派控制超声波测距原理及实现
- android 手机内存分配,【扫盲贴』关于android手机中RAM(也就是 运行内存)的分配...
- 在线小游戏,在线小游戏大全,网页在线小游戏大全
- 游戏建模:手绘暗黑小萝莉
- 知识在超网络中的传播模型
- 【Linux】Linux安装nginx操作详细步骤
- 读《借助开源项目,学习软件开发》总结
- 神经网络现状综述,神经网络现状分析
- 四川大学计算机考研资料汇总
- 单片机C语言谁讲得好,开发单片机学什么语言好?
热门文章
- (附源码)计算机毕业设计ssm高校社团管理系统
- Fence Repair-栅栏维修(优先队列)
- 必刷|2022年贵州最新八大员之(安全员)模拟题库及答案
- 如何将excel表中的多行数据合并到一行
- 区块链创业公司解散后,我去美团送外卖了 | 链人生
- 安卓修炼之路必要要知道的要求和建议
- webrtc android 声音处理,WebRTC 安卓有视频无声音问题解决
- **Python 复数计算会丢失虚部的问题**ComplexWarning: Casting complex values to real discards the imaginary part
- Zabbix发送带附件的邮件
- Linux系统编程-信号入门2