如何计算异常值

异常值就是和其他样本数据有显著差异的值。这个词在统计学中经常用到,可以表示数据异常或测量错误。明白算异常值的方法,对于正确理解数据非常有用,而且会引出更精确的结论。以下介绍一个很简单的算异常值的过程和方法。

# 引用numpy模块
import numpy as np#求数组a的中位数
np.median(a)#求数组a的四分位数
np.percentile(a, [25, 50, 75])

 

 

步骤

  1. 了解如何认出潜在异常值。计算之前先辨认数据中的潜在异常值。比如一列数据,表示的是房间内12个东西的温度。如果其中11个的温度在70华氏度(21摄氏度左右)内,第12个却跑到300华氏度(约150摄氏度)了,那你可以粗略判断这是一个异常值。
  2. 把数据从小到大排列。以以上数据为例,继续考虑房间内物体温度: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69},变更顺序为: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 计算中位数。中位数是一串数据中间的一个数据点,如果数据总数是偶数,那么中间两位数的平均数就是中位数。上面数据中,中间两项是70、71,则中位数是((70 + 71) / 2)或70.5
  4. 计算下四分位数,这里设置为Q1,表示总数据最小的25%的数据在这个点以下。在上面例子中,又有两个数据要被平分,即((70 + 70) / 2) 或 70
  5. 计算上四分位数,设置为Q3,表示最大的25%数据都在这个点以上。本例子中Q3 是71、72的平均数,即 71.5
  6. 找出数据的“内围”。第一步是把Q1和Q3的差(四分位差)乘以1.5。上面的例子中,四分位差是(71.5 - 70)得 1.5。再乘以1.5 得 2.25 ,加上Q3 ,用Q1 减去这个和,得到内围。本例中内围是67.75 and 73.75.

    • 任何在这个范围外的数字都是“平稳界外值”。本例子中,只有300华氏度是在范围以外的,即是所谓的平稳界外值。
  7. 找出数据外围。和内围方法类似,不过这里要将四分位差乘以3 而非1.5。乘以3即(1.5 * 3) 得到 4.5。得到外围是65.5 、 76

    • 任何这个范围以外的数字,都算是“极端界外值”,300度也在这个范围外,因此也算“极端界外值”

转载于:https://www.cnblogs.com/liujianzuo888/p/9548469.html

Tukey‘s test方法 异常值相关推荐

  1. 异常值 识别与处理方法

    一.概念 异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点. 二.异常值判断 在不同的数据中,鉴别异常值有不同的标准,常规有以下几种: 1.数字超过某个标准值 这是最常用的异常 ...

  2. 样本数据异常值处理的三种方法

    1.3sigma异常值识别 数据需要服从正态分布,正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件.如果数据不服从正态分 ...

  3. MATLAB从入门到精通-缺失值和异常值的处理应用案例

    前言 在对数据进行预处理中,我们经常会遇到缺失值和异常值的情况,下面我们对这两种情况的常用技术进行介绍,希望能帮到大家. 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更 ...

  4. 数据预处理的几种方法

    目录 1.缺失值 2.异常值 3.数值型处理     3.1 无量纲化处理     3.2 数值型转换成类别     3.3 数值的二值化 4.类别型     4.1 独热编码(one-hot enc ...

  5. Matlab异常值处理

    文章目录 Matlab异常值处理 异常值的识别方法 数据给定范围 数据没有给定范围 3sigma原则 箱线图识别异常值 去除异常值后咋办 Matlab异常值处理 在对数据进行预处理中,我们经常会遇到异 ...

  6. 怎么计算一组数据的波动_数据分析(一):数据描述统计

    一. 数据描述统计 看了一个纪录片 - The Joy Of Stats <统计的乐趣>,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思 ...

  7. 如何将dataset中的值赋值给datatable_金融行业实战项目:如何理解业务?

    [面试题] 下表是某金融App的数据,请结合Excel数据集中的数据完成下列问题(某金融公司面试题,文末有数据下载 ) 原始数据如下所示: 为方便后期分析,我们对数据进行分类.数据通常分为3类:用户数 ...

  8. python统计案例_描述统计知识要点及Python案例实践

    本文主要介绍描述统计知识要点及Python案例实践. (一)描述统计知识要点 在我们谈论描述统计知识要点前,我们先明确一下数据的类型,一般数据可以分为分类型数据和数值型数据.分类型数据是识别变量的类型 ...

  9. 聚类算法-层次(系统)聚类 Kmeans聚类 两步聚类

    一.距离定义 1.1 点-点 距离 距离用来衡量观测变量的属性,第iii个特征的观测值Xi=(xi1,xi2,...,xip)X_{i}=(x_{i1},x_{i2},...,x_{ip})Xi​=( ...

  10. 数据分析之描述统计学

    [什么是描述统计学] 定义[1]:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出 ...

最新文章

  1. UIPopoverController在ARC环境下用法注意
  2. 云起智慧中心连接华为_云起LifeSmart全系接入HUAWEI HiLink生态系统
  3. 一个“小白”眼中的容器
  4. python学习-注释、语法、整数、浮点数初步接触
  5. jq 方法函数(淡入淡出,查找元素,过滤)遍历
  6. linux里qt画直线_Qt与Web混合开发(一)简单使用
  7. 冯乐乐 unity_Unity常用矩阵运算的推导补遗——切线空间
  8. 作业 输出演练 1751
  9. 【区块链】区块链技术指南
  10. SHA算法 (sha0 sha1源码魔改)
  11. 那些到处在说靠信息差、认知差可以挣大钱的人真的能挣很多钱吗?
  12. iphone11屏比例_iPhone每一代的屏幕尺寸比例是多少
  13. Mysql各种缩写含义
  14. servercat IOS Linux监控 SSH客户端
  15. js IP地址正则校验
  16. 四轴无人机动力学模型
  17. 阿里大鱼短信平台使用(Java)
  18. 产品经理需求文档(PRD)怎么写?
  19. SpaceClaim脚本功能(Beta功能)
  20. 找到当前所有逻辑驱动器的根驱动器路径

热门文章

  1. GenBank数据格式
  2. crmeb多商户二开crmeb类库二开文档services服务类【5】
  3. 推荐系统 | (4) 可解释推荐系统---知其然,知其所以然
  4. Qt QImage实现频谱图绘制
  5. 青果教务系统适配小爱课程表
  6. 有道智云(表格OCR)API调用流程
  7. 百度编辑器Ueditor多文本域实现
  8. nginx配置实现代理多个内网地址
  9. 如何制作微信小程序(三个步骤开发小程序)
  10. Codeforces 853 A. Planning