格拉布斯法—异常值判断(异常值)
数值数据类型:
方法一:Z-Score
方法二:DBSCAN
方法三:Lsolation Forest
方法四:Mahalanobis距离 (主要解决多元离散群点问题)
方法五:PCA(去除平均值、计算协方差特征值与特征向量、降序排列特征值和特征向量、将排序中较大特征值和特征向量映射到新空间可视化分析)
方法六:Transfromer根据start和end索引算子输出的预测值距离
方法七:LOF、Cluster、KNN、密度、聚类、距离、树、图
算法优化类型:
格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等
格拉布斯法—异常值判断
▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号
——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。
▲比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
▲判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。
▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。
格拉布斯表——临界值GP(n)
对异常值及统计检验法的解释
■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。
■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。
■犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。
■犯错误2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。
■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。
■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。
■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。
■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。
格拉布斯法—异常值判断(异常值)相关推荐
- matlab svm异常值判断,异常值检测
数据处理过程中,通常需要对数据进行预处理,包括缺失值填充,异常值检测等.异常值处理对于后续数据分析,建模具有非常很重要的影响. 基于描述统计 1.基于常识判断 针对数据进行简单的描述统计,查看数据的极 ...
- 箱线图怎么判断异常值_原创【六西格玛工具解读】02——箱线图(Boxplot)
为方便从事质量工作的小伙伴系统了解相关管理工具,小编整理出六西格玛工具系列的应用解读.旨在相关爱好者交流探讨,也可供报考六西格玛黄带.绿带或黑带的朋友参考.因个人水平有限,难免存在疏忽和错误,还请各位 ...
- 箱线图怎么判断异常值_箱形图(Box-plot)识别异常值,是否有数据依据?还是经验法则?...
箱形图(英文:Box plot),又称为盒须图.盒式图.盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因型状如箱子而得名.在各种领域也经常被使用,常见于品质管理,快速识别异常值. 箱形图 ...
- 箱线图怎么判断异常值_极简统计学---箱线图[2]
全文大概1400字,阅读全文大概需要4.5分钟. 上一篇讲了箱线图基本组成,其中涉及到: 5大要数: 最大值,最小值,第一四分位数(Q1),第二四分位数(中位数Median),第三四分位数(Q3) , ...
- 使用Z标准化得到的阈值判断异常值
有关异常值的确定有很多规则和方法,这里使用Z标准化得到的阈 值作为判断标准:当标准化后的得分超过阈值则为异常.完整代码如 下: import pandas as pd # 导入Pandas库 # 生成 ...
- 肖维勒准则matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳 (Chauvenet)准则 三者的区别...
展开全部 1.检测数量不同32313133353236313431303231363533e78988e69d8331333431363566 莱因达准则是以三倍测量列的标准偏差为极限取舍标准,其给定 ...
- grubbs准则 matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳Chauvenet 三者的区别...
莱因达 ( PauTa)原则.格拉布斯 ( Grubbs)原则.肖维纳 (Chauvenet)原则 三者的区别 莱因达 ( PauTa)原则.格拉布斯 ( Grubbs)原则.肖维纳 (Chauven ...
- java实现格拉布斯准则_格拉布斯准则(java代码)
package rule; import java.util.HashMap; import java.util.List; import java.util.Map; //格拉布斯准则 public ...
- [转载] Python中endswith() 函数法用于判断字符串是否以指定后缀结尾
参考链接: Python中的字符串的endswith endswith()函数 描述: Python endswith() 函数法用于判断字符串是否以指定后缀结尾. 如果以指定后缀结尾返回True,否 ...
- (转)格拉布斯准则(Grubbs Criterion)处理数据异常
(转)格拉布斯准则(Grubbs Criterion)处理数据异常 参考文章: (1)(转)格拉布斯准则(Grubbs Criterion)处理数据异常 (2)https://www.cnblogs. ...
最新文章
- java getcolormodel_Java ColorModel.getTransparency方法代碼示例
- Master PDF Editor中文版
- 开启本地MySql数据库远程连接
- Linux远程传输文件免密码
- 【theano-windows】学习笔记十九——循环神经网络
- 求一个数组的最长递减子序列 比如{9,4,3,2,5,4,3,2}的最长递减子序列为{9,5,4,3,2}...
- anaconda+cuda+cudnn+pytorch安装踩坑大全
- Linux运维新主机挂载硬盘,linux运维:Linux下添加新硬盘+分区及挂载详细步骤图解...
- WPF 开发 WebBrowser
- Golang的聊天服务器实践(群聊,广播)(一)
- Android API 级别
- IDEA设置注释模板
- 清北复交人浙南 计算机交叉学科项目大盘点
- csv文件超过104万数据怎么办
- excel浏览器直接下载
- 求解答!iframe在IE浏览器加载页面无反应问题
- 推特精准客户开发手册
- SecureCRT和SecureFx的使用
- 页面切换成黑白,公祭日,哀悼可用
- honeywell mahle trw carmate test
热门文章
- Maven Dependency设置,详解!
- 酷派删除android系统软件,Coolpad酷派8720L哪些系统软件可以删除(精简列表)
- vim命令大全(最全)
- HTML,模仿网易登陆界面
- 启动多个SlickEdit实例
- 天涯明月刀服务器维护,天涯明月刀手游维护时间表一览,维护什么时候结束?[多图]...
- 客快物流大数据项目(二十九):下载CDH的安装包
- Python 十六进制数与ascii码的转换
- HackerRank Breadth First Search: Shortest Reach
- iBase4J项目笔记