▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算Gi值:Gi=(xi-x-)/s;其中i是可疑值的排列序号

——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。

▲比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

▲判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。

▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。

格拉布斯表——临界值GP(n)

P

n

0.95

0.99

P

n

0.95

0.99

3

1.135

1.155

17

2.475

2.785

4

1.463

1.492

18

2.504

2.821

5

1.672

1.749

19

2.532

2.854

6

1.822

1.944

20

2.557

2.884

7

1.938

2.097

21

2.580

2.912

8

2.032

2.231

22

2.603

2.939

9

2.110

2.323

23

2.624

2.963

10

2.176

2.410

24

2.644

2.987

11

2.234

2.485

25

2.663

3.009

12

2.285

2.550

30

2.745

3.103

13

2.331

2.607

35

2.811

3.178

14

2.371

2.659

40

2.866

3.240

15

2.409

2.705

45

2.914

3.292

16

2.443

2.747

50

2.956

3.336

对异常值及统计检验法的解释

■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。

■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。

■犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

■犯错误2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。

■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。

■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。

——

grubbs检测c语言,Grubbs算法检测离群值相关推荐

  1. 语音端点检测c语言,语音端点检测的方法.ppt

    语音端点检测的方法 语音端点检测的方法 演讲者:刘德体 语音端点检测的目的和意义 基于短时能量和短时平均过零率的端点检测 基于倒谱特征的端点检测 基于熵的端点检测 基于复杂性的端点检测(KC复杂性和C ...

  2. 图像篡改检测C语言,图像篡改检测和定位(二)

    在之前的文章中( 图像篡改检测和定位(一) ),我们谈到图像篡改检测的几种方法,在这里我们主要讨论整个体系的框架里面不同的算法各自的优势,以及存在的问题. 我们可以根据经验大致把图像篡改检测一般性方法 ...

  3. 恶意代码检测c语言,恶意代码检测分析软件

    恶意代码辅助分析工具最新版,这款就是刚被优化的代码检测软件,最大的用处的就是帮助你们检测自己电脑中的恶意代码,从而让你们一直拥有安全稳定的环境. 软件简介: 可以分析出系统里恶意代码的软件,免受电脑受 ...

  4. 霍夫变换检测圆c 语言,c++ 霍夫变换检测直线

    通常这是一幅边缘图像,比如来自 Canny算子.cv:: Houghlines函数的输出是 cV::Vec2f向量,每个元素都是一对代表检测到的直线的浮点数(p,0).在下例中 我们首先应用 Cann ...

  5. 【OpenCV 学习笔记】第二十章: 角点检测之:harris算法以及Shi-Tomasi算法

    第二十章: 角点检测之:harris算法以及Shi-Tomasi算法 一张图像,我们可以用很多方法去处理它,就会得到很多不同的特征.比如基于梯度方法我们就能得到图像的边缘特征:比如基于直方图我们就得到 ...

  6. 《跨语言文本相似性检测》第一周—前期调研

    <跨语言文本相似性检测>第一周-前期调研 文本相似度计算在信息检索.数据挖掘.机器翻译.文档复制检测等领域有着广泛的应用. 文本相似性流程 分词-->权重-->选择相应算法 文 ...

  7. CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)

    CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020) 目标检测:FCOS(CVPR 2019) 目标检测算法FCOS(FCOS: ...

  8. 论文推荐 | 目标检测中不平衡问题算法综述

    (图片付费下载于视觉中国) 作者 | CV君 来源 | 我爱计算机视觉(ID:aicvml) 今天跟大家推荐一篇前几天新出的投向TPAMI的论文:Imbalance Problems in Objec ...

  9. 复杂场景下的复杂缺陷检测方法--深度学习算法综述

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|OpenCV学堂 一.背景知识 随着自动化技术的快速发展, ...

最新文章

  1. 在AI Studio上部署外部可以直接调用的云端服务
  2. 平衡查找树C语言程序,树4. Root of AVL Tree-平衡查找树AVL树的实现
  3. oauth最后的确认按钮_spring-oauth集成cas单点登录,登陆完成进入授权页面后,按回退按钮进入404页面的问题...
  4. 454. 4Sum II ——查找本质:hash最快,二分次之
  5. 分享一个模板解析的方法
  6. SVN 版本服务器搭配全过程详解(服务端、客户端)[转]
  7. 收集一些常用查询SQL语句以及显示格式
  8. oracle证书洛阳,ORACLE手工建库
  9. Linux C线程同步的三种方法
  10. RenderSection
  11. RasbbitMQ 交换机、路由键与队列绑定
  12. 计算机社团技术部部长述职报告,社团部长个人工作总结(精选6篇)
  13. 独家干货|基于大数据的人体组织微结构的解析与构建
  14. 铁路“探花儿”:每天徒步8公里 一个月穿坏一双鞋
  15. 斐讯路由器宽带运营商服务器,斐讯(PHICOMM)路由器设置网址
  16. leejianjun的博客 PHP生成word并可下载
  17. 基于C语言的AES加密算法实现
  18. 什么是互联网运营?运营小白应该了解的理论基础
  19. Ubuntu16.04安装搜狗中文输入法
  20. 第 05 篇 如何使用 SQL 语句进行模糊查找?

热门文章

  1. js实现右键单击打开自定义的菜单
  2. MicroPython (一)点亮我的Led
  3. 改变网页标签图片(favicon)
  4. 我为什么在这里写博客
  5. 一个Excel导出类的实现过程(一):泛型与反射
  6. 设计模式第三集——装饰者模式(Decorator)
  7. 数据库基础知识——视图
  8. 关于c语言的数据类型常量的理解
  9. Leetcode--22. 括号生成
  10. Leetcode--80. 删除排序数组中的重复项Ⅱ