数值数据类型:
方法一:Z-Score
方法二:DBSCAN
方法三:Lsolation Forest
方法四:Mahalanobis距离 (主要解决多元离散群点问题)
方法五:PCA(去除平均值、计算协方差特征值与特征向量、降序排列特征值和特征向量、将排序中较大特征值和特征向量映射到新空间可视化分析)
方法六:Transfromer根据start和end索引算子输出的预测值距离
方法七:LOF、Cluster、KNN、密度、聚类、距离、树、图

算法优化类型:
格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等
格拉布斯法—异常值判断

▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号

——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。

▲比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

▲判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。

▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。

格拉布斯表——临界值GP(n)

对异常值及统计检验法的解释

■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。

■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。

■犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

■犯错误2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。

■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。

■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。

格拉布斯法—异常值判断(异常值)相关推荐

  1. matlab svm异常值判断,异常值检测

    数据处理过程中,通常需要对数据进行预处理,包括缺失值填充,异常值检测等.异常值处理对于后续数据分析,建模具有非常很重要的影响. 基于描述统计 1.基于常识判断 针对数据进行简单的描述统计,查看数据的极 ...

  2. 箱线图怎么判断异常值_原创【六西格玛工具解读】02——箱线图(Boxplot)

    为方便从事质量工作的小伙伴系统了解相关管理工具,小编整理出六西格玛工具系列的应用解读.旨在相关爱好者交流探讨,也可供报考六西格玛黄带.绿带或黑带的朋友参考.因个人水平有限,难免存在疏忽和错误,还请各位 ...

  3. 箱线图怎么判断异常值_箱形图(Box-plot)识别异常值,是否有数据依据?还是经验法则?...

    箱形图(英文:Box plot),又称为盒须图.盒式图.盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因型状如箱子而得名.在各种领域也经常被使用,常见于品质管理,快速识别异常值. 箱形图 ...

  4. 箱线图怎么判断异常值_极简统计学---箱线图[2]

    全文大概1400字,阅读全文大概需要4.5分钟. 上一篇讲了箱线图基本组成,其中涉及到: 5大要数: 最大值,最小值,第一四分位数(Q1),第二四分位数(中位数Median),第三四分位数(Q3) , ...

  5. 使用Z标准化得到的阈值判断异常值

    有关异常值的确定有很多规则和方法,这里使用Z标准化得到的阈 值作为判断标准:当标准化后的得分超过阈值则为异常.完整代码如 下: import pandas as pd # 导入Pandas库 # 生成 ...

  6. 肖维勒准则matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳 (Chauvenet)准则 三者的区别...

    展开全部 1.检测数量不同32313133353236313431303231363533e78988e69d8331333431363566 莱因达准则是以三倍测量列的标准偏差为极限取舍标准,其给定 ...

  7. grubbs准则 matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳Chauvenet 三者的区别...

    莱因达 ( PauTa)原则.格拉布斯 ( Grubbs)原则.肖维纳 (Chauvenet)原则 三者的区别 莱因达 ( PauTa)原则.格拉布斯 ( Grubbs)原则.肖维纳 (Chauven ...

  8. java实现格拉布斯准则_格拉布斯准则(java代码)

    package rule; import java.util.HashMap; import java.util.List; import java.util.Map; //格拉布斯准则 public ...

  9. [转载] Python中endswith() 函数法用于判断字符串是否以指定后缀结尾

    参考链接: Python中的字符串的endswith endswith()函数 描述: Python endswith() 函数法用于判断字符串是否以指定后缀结尾. 如果以指定后缀结尾返回True,否 ...

  10. (转)格拉布斯准则(Grubbs Criterion)处理数据异常

    (转)格拉布斯准则(Grubbs Criterion)处理数据异常 参考文章: (1)(转)格拉布斯准则(Grubbs Criterion)处理数据异常 (2)https://www.cnblogs. ...

最新文章

  1. java getcolormodel_Java ColorModel.getTransparency方法代碼示例
  2. Master PDF Editor中文版
  3. 开启本地MySql数据库远程连接
  4. Linux远程传输文件免密码
  5. 【theano-windows】学习笔记十九——循环神经网络
  6. 求一个数组的最长递减子序列 比如{9,4,3,2,5,4,3,2}的最长递减子序列为{9,5,4,3,2}...
  7. anaconda+cuda+cudnn+pytorch安装踩坑大全
  8. Linux运维新主机挂载硬盘,linux运维:Linux下添加新硬盘+分区及挂载详细步骤图解...
  9. WPF 开发 WebBrowser
  10. Golang的聊天服务器实践(群聊,广播)(一)
  11. Android API 级别
  12. IDEA设置注释模板
  13. 清北复交人浙南 计算机交叉学科项目大盘点
  14. csv文件超过104万数据怎么办
  15. excel浏览器直接下载
  16. 求解答!iframe在IE浏览器加载页面无反应问题
  17. 推特精准客户开发手册
  18. SecureCRT和SecureFx的使用
  19. 页面切换成黑白,公祭日,哀悼可用
  20. honeywell mahle trw carmate test

热门文章

  1. Maven Dependency设置,详解!
  2. 酷派删除android系统软件,Coolpad酷派8720L哪些系统软件可以删除(精简列表)
  3. vim命令大全(最全)
  4. HTML,模仿网易登陆界面
  5. 启动多个SlickEdit实例
  6. 天涯明月刀服务器维护,天涯明月刀手游维护时间表一览,维护什么时候结束?[多图]...
  7. 客快物流大数据项目(二十九):下载CDH的安装包
  8. Python 十六进制数与ascii码的转换
  9. HackerRank Breadth First Search: Shortest Reach
  10. iBase4J项目笔记