【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据
介绍:
在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。
肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它应该合理地包含数据集的所有n个样本。通过这样做,来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值,从数据集中移除,并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。
这种异常值的识别将通过找到与平均值(D max)周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。(公式1)
公式1:
解释:
- Dmax = 允许的最大偏差,
- | . | = 绝对值,
- x = 怀疑异常值,
- μ = 样本均值,
- σ = 样本标准差.
为了被认为包括样本中的所有n个观测值,概率带(以均值为中心)必须仅考虑样本(如果n = 3,则在概率带中必须仅考虑2.5个样本)。
实际上我们不能有部分样本,因此(n = 3时为2.5 )约为 n。任何小于
的东西大约是n - 1(如果n = 3 则为2)并且无效,因为我们想要找到包含n个观测值的概率带,而不是n - 1个样本。简而言之,我们正在寻找概率P,等于n 个样本中的
(公式2)。
公式2:
解释:
- P =以样本均值为中心的概率带,
- n =样本量。
数量对应于由正态分布的两个尾部表示的组合概率,其落在概率带 P之外。为了找到与P相关的标准偏差水平,由于其对称性,仅需要分析正态分布的尾部之一的概率(公式3)。
公式3:
解释:
- P z =由正态分布的一条尾部表示的概率,
- n =样本量。
等式1类似于Z得分方程(公式4)。
公式4:
解释:
- Z = z-score,
- x =样本值,
- μ = 0(标准正态分布的平均值),
- σ = 1(标准正态分布的标准偏差)。
基于等式4,找到D max(Eq.1)在z得分表中找到对应于P z的z得分。 D max等于P z的z分数。使用此方法可以确定任何样本大小的D max。在Excel中,可以使用以下公式找到D max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数:返回标准正态累积分布函数的反函数值。 该分布的平均值为 0,标准偏差为 1。)
计算:
要应用Chauvenet标准,首先要计算观察数据的平均值和标准差。根据可疑数据与平均值的差异,使用正态分布函数(或其表)确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5,则可以丢弃可疑数据点,即,如果从均值获得特定偏差的概率小于,则可以拒绝读数。
示例:
例如,假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7,标准偏差为16.34。50与16.7相比有33.3,稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量,因此统计值(数据大小乘以概率)为0.05×6 = 0.3。因为0.3 <0.5,根据Chauvenet的标准,应该丢弃50的测量值(留下10的新均值,标准差为0.7)。
缺点:
删除异常值数据是一项备受争议的做法,许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法,但它并没有使这种做法在科学上或方法上更合理,特别是在小型集合或无法假定正态分布的情况下。在实践领域中,拒绝异常值是更可接受的,其中正在测量的过程的基础模型和测量误差的通常分布是确信的。
参考:https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example
【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据相关推荐
- 肖维勒准则matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳 (Chauvenet)准则 三者的区别...
展开全部 1.检测数量不同32313133353236313431303231363533e78988e69d8331333431363566 莱因达准则是以三倍测量列的标准偏差为极限取舍标准,其给定 ...
- (转)格拉布斯准则(Grubbs Criterion)处理数据异常
(转)格拉布斯准则(Grubbs Criterion)处理数据异常 参考文章: (1)(转)格拉布斯准则(Grubbs Criterion)处理数据异常 (2)https://www.cnblogs. ...
- 【数据异常校验】T检验或T测试(T-test)
目录 历史 使用 假设 未配对和配对的双样本t-test 独立(未配对)样本 配对样本 计算 单样本t检验 回归线的斜率 独立的双样本t检验 替代t-测试位置问题 多变量测试 算法实现 例子 T测试是 ...
- 学习Spring Boot:(十)使用hibernate validation完成数据后端校验
前言 后台数据的校验也是开发中比较注重的一点,用来校验数据的正确性,以免一些非法的数据破坏系统,或者进入数据库,造成数据污染,由于数据检验可能应用到很多层面,所以系统对数据校验要求比较严格且追求可变性 ...
- springboot使用JSR303对数据进行校验
文章目录 1. JSR303的校验注解 2. 使用JSR303对数据进行校验步骤 ①:给bean添加校验注解 ②:在Controller层开启@Valid验证注解 ③:统一异常处理 3. 分组校验(多 ...
- 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc
数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...
- 大屏数据可视化测试-数据准确性校验
什么是数据可视化: 首先,数据可视化就是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的一种理论.方法和技术.它涉及到计算机图形学.图像处理.计算机视觉.计算机 ...
- 我也聊聊串口通信协议:数据包校验与常用校验算法
本篇博客主要记载了我对数据校验过程以及奇偶校验的理解. 1.数据校验过程 由于数据传输距离的因素影响,计算机和受控设备间的通信数据就常常出现不可预知的错误.为了防止这些错误所带来的影响,一般在通信时采 ...
- Atitit. 数据约束 校验 原理理论与 架构设计 理念模式java php c#.net js javascript mysql oracle...
Atitit. 数据约束 校验 原理理论与 架构设计 理念模式java php c#.net js javascript mysql oracle 1. 主键1 2. uniq index2 3. ...
最新文章
- [转]Android JNI使用方法
- HTML5之内嵌框架
- 这两天做项目出现的几个问题
- error C1128:字节数超过对象文件格式xxxx.cpp限制:请使用/bigobj进行编译 cmake的解决方式
- HTML-HTML基本语法和标签
- nodejs后端使用art-template
- 基于vue单页应用的例子
- Unix/Linux 中的 shell 机制
- 简繁互相切换的字库(比较全)
- 【webpack】理解配置文件
- python-78:对日期格式进行处理
- javascript 正则表达式学习
- python frame框架,第12讲,frame 框架控件
- java 虚拟机常用启动参数
- 测试驱动开发之初窥门径
- 计算机组成原理笔记 (1):计算机组成概述
- html5 连连看小游戏
- nack fec心得
- python之自动化部署SpringCloud,且脱离python环境运行
- mysql中字段长度到底是字符数还是字节数?
热门文章
- 基于监督学习+自监督学习的智能抠图,精确到头发丝 | CVPR2020
- Source Insight 配色方案
- Layui 数据表格toolbar中使用模板引擎templet,当前系统时间比较问题
- 5g网络模式是以什么划分的_5g组网模式有几种
- Python实例003:海龟绘图——小猪佩奇祝大家“2019新春快乐”
- 浙大版《C语言程序设计》第四版(何钦铭颜晖) 第3章 分支结构 课后习题答案
- 现实世界充满了bug_现实世界充满了哪些bug
- 定位教程6---上下相机
- python将某个非格式化显示的json文件处理得到格式化显示
- 苹果svg解析自适应长图