1、目的:

检测异常值Grubbs的检验(Grubbs 1969和Stefansky 1972)用于检测单变量数据集中的单个异常值,该单变量数据集遵循近似正态分布。
如果您怀疑可能存在多个异常值,建议您使用Tietjen-Moore测试或广义极端学生化偏差测试而不是Grubbs测试。

格拉布斯的测试也称为最大标准残差测试。实际上,Grubbs' Test可理解为检验最大值、最小值偏离均值的程度是否为异常。

2、定义:

Grubbs的测试是针对假设定义的:

  • H0:数据集中没有异常值
  • H1:数据集中只有一个异常值

Grubbs的测试统计定义为:

Y和s分别表示样本均值和标准差。 Grubbs的检验统计量是样本标准偏差单位与样本均值的最大绝对偏差。
这是测试的双边检测。 Grubbs的测试也可以定义为以下单边检测:

测试最小值是否为异常值,用Ymin表示最小值。:

测试最大值是否为异常值,Ymax表示最大值:

3、显着性等级:α

关键:对于双侧检验,如果没有异常值的假设则被拒绝

用tα/(2N),N-2表示具有(N-2)自由度的t分布的临界值和α/(2N)显着性水平。对于单侧测试,我们使用α/ N的显着性水平。
概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个( 这些) 数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs) 法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值( 粗大误差) ”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

测量数据:例如测量10 次( n= 10) ,获得以下数据: 8.2 、5.4 、14.0 、7.3 、4.7 、9.0 、6.5 、10.1 、7.7 、6.0 。

排列数据: 将上述测量数据按从小到大的顺序排列, 得到4.7 、5.4 、6.0 、6.5 、7.3 、7.7 、8.2 、9.0 、10.1 、14.0 。可以肯定,可疑值不是最小值就是最大值。

  • 计算平均值x- =7.89和标准差s= 2.704 。计算时,必须将所有10 个数据全部包含在内。
  • 计算偏离值:平均值与最小值之差为7.89 - 4.7 = 3.19 ;最大值与平均值之差为14.0 -7.89 = 6.11 。
  • 确定一个可疑值:比较起来,最大值与平均值之差6.11 大于平均值与最小值之差3.19 ,因此认为最大值14.0 是可疑值。
  • 计算Gi 值: Gi = ( xi - x- )/ s;其中i 是可疑值的排列序号— 10 号;因此G10=( x10- x- )/ s= (14.0 -7.89)/2.704 =2.260 。由于x10- x-是残差,而s 是标准差,因而可认为G10 是残差与标准差的比值。

下面要把计算值Gi 与格拉布斯表给出的临界值GP( n) 比较,如果计算的Gi 值大于表中的临界值GP( n) ,则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP( n) 与两个参数有关:检出水平α ( 与置信概率P有关) 和测量次数n ( 与自由度f 有关) 。

  • 定检出水平α:如果要求严格,检出水平α 可以定得小一些,例如定α =0.01 ,那么置信概率P=1- α= 0.99 ;如果要求不严格, α 可以定得大一些,例如定α = 0.10 ,即P=0.90 ;通常定α= 0.05 ,P= 0.95 。
  • 查格拉布斯表获得临界值:根据选定的P值( 此处为0.95) 和测量次数n( 此处为10) ,查拉布斯表,横竖相交得临界值G95(10) = 2.176 。
  • 比较计算值Gi 和临界值G95(10) :Gi = 2.260 ,G95(10) = 2.176 ,Gi >G95(10) 。
  • 判断是否为异常值:因为Gi >G95(10) ,可以判断测量值14.0 为异常值,将它从10 个测量数据中剔除。
  • 余下数据考虑:剩余的9 个数据再按以上步骤计算,如果计算的Gi >G95(9) ,仍然是异常值,剔除;如果Gi <G95(9) ,不是异常值,则不剔除。本例余下的9 个数据中没有异常值。

格拉布斯表——临界值GP( n)

对异常值及统计检验法的解释:

测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为n( 例如n= 10) 的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。

异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个( 一些) 数据,其值与总体平均

值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ 的数据, 出现的概率很小。用统计判断方法就是将异常值找出来, 舍去。

犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

犯错误2:还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。

异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

格拉布斯法最佳:每种统计检验法都会犯犯错误1 和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

多种方法结合使用:为了减少犯错误的概率,可以将3 种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。

异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。

参考:

https://en.wikipedia.org/wiki/Grubbs%27s_test_for_outliers

https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm

https://wenku.baidu.com/view/84695b4e852458fb770b56bb?from=timeline&isappinstalled=0

Grubbs Test相关推荐

  1. R假设检验之Grubbs异常检测(Grubbs’ Test)

    R假设检验之Grubbs异常检测(Grubbs' Test) 目录 R假设检验之Grubbs异常检测(Grubbs' Test) Grubbs异常检测(Grubbs' Test) R中Grubbs检验

  2. grubbs检测c语言,Grubbs算法检测离群值

    ▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作"可疑值".如果用统计方法-例如格拉布斯(Grubbs)法判断,能将"可疑值"从此组 ...

  3. (转)格拉布斯准则(Grubbs Criterion)处理数据异常

    (转)格拉布斯准则(Grubbs Criterion)处理数据异常 参考文章: (1)(转)格拉布斯准则(Grubbs Criterion)处理数据异常 (2)https://www.cnblogs. ...

  4. 肖维勒准则matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳 (Chauvenet)准则 三者的区别...

    展开全部 1.检测数量不同32313133353236313431303231363533e78988e69d8331333431363566 莱因达准则是以三倍测量列的标准偏差为极限取舍标准,其给定 ...

  5. Grubbs检验离群值——循环算法求出多个离群值

    Grubbs算法在R语言里面有编辑好了的包.但是其算法一次只能检验出一个离群值.这个函数在包'outliers'中,对应的函数为grubbs.test().其中几个参数的设置,大家可以查阅相关的函数说 ...

  6. KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结

    1. KS检验 Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异. 单样本K-S检验是用来检验一个数据的观测经验分布是 ...

  7. grubbs准则 matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳Chauvenet 三者的区别...

    莱因达 ( PauTa)原则.格拉布斯 ( Grubbs)原则.肖维纳 (Chauvenet)原则 三者的区别 莱因达 ( PauTa)原则.格拉布斯 ( Grubbs)原则.肖维纳 (Chauven ...

  8. 时序预测竞赛之异常检测算法综述

    本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果. 异常分类 时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点.虽然有很多的异常类型,但是我 ...

  9. 独家 | 在Python中使用广义极端学生化偏差(GESD)进行异常检测(附链接)

    作者:Shaleen Swarup 翻译:欧阳锦校对:王可汗本文约1700字,建议阅读5分钟本文从理论和实践角度介绍了使用广义极端学生化偏差(GESD)进行异常检测的方法,展示了Python代码示例和 ...

最新文章

  1. linux 创建crontab文件位置,[基础教程]linux系统的crontab计划任务添加和删除
  2. 哪里不知道“瞄”哪里,这项AI黑科技,打开手机就能体验
  3. bash ps1变量_在 Linux 中打扮你的冬季 Bash 提示符
  4. 学计算机U盘内存,在U盘上设置虚拟内存
  5. php常用判断蜘蛛的代码
  6. eclipse/MyEclipse 日期格式、注释日期格式、时区问题[转]
  7. python dataframe中缺失值处理
  8. 软件众包,哪个数据库好
  9. PHP在Windows下安装配置第一步
  10. ios 渐变透明背景_iPhone 全透明动态壁纸,内含完整教程
  11. 情感驿站001:马云开个酒吧,取名《平头哥》
  12. IDEA快捷键设置,选择Eclipse风格的快捷键,自动补全快捷键,关闭当前窗口快捷键Ctrl+W 自动导入设置,引入外
  13. 第四章 智能合约 [20]
  14. 聚类分析 | MATLAB实现k-Means(k均值聚类)分析
  15. 计算机教室100字介绍,描写教室的作文100字
  16. java实现九宫格解锁_Java计算手机九宫格锁屏图案连接9个点的方案总数
  17. linux网络被限制网速,linux iptables限速及限制每IP连接数
  18. uniapp图片不显示 - 变量动态修改图片地址不生效 - 图片src路径错误
  19. 模拟CMOS集成电路设计入门学习(1)
  20. 电容分类---等级划分

热门文章

  1. python主机配置_python 之根据自己的需求配置hostname
  2. 针对宝宝肠胃保护,五大国际医生组织推荐使用爱乐乐益生菌
  3. 过去一周区块链投融资事件回顾
  4. MNIST数据集手写数字分类
  5. Xshell连接centOS7
  6. 24点游戏(随机产生四个不同的1到13的随机数据外加加减乘除构成表达式,输出结果等于24的表达式)
  7. xbox手柄usb连接linux python控制
  8. 解决问题:xshell6评估已过期
  9. HTML CSS游戏官网网页模板 大学生游戏介绍网站毕业设计 DW游戏主题网页模板下载 游戏娱乐网页成品代码
  10. 12.12飞思卡尔芯片的prm mcp和映射理解