拉依达准则去除异常数据
1.Concept
拉依达准侧(Pau’ta Criteron)是先假设一组数据中只含有随机误差,首先按照一定准侧计算标准偏差,按照一定概率确定一定区间,认为不在这个区间的为异常值。
使用数据类型:数据呈正太分布或者近似正太分布。
2.举例实验
该实验中使用正太分布函数确定区间,认为剩余误差超过3 σ\sigmaσ为异常值。
python 代码实验:
# encoding:utf-8
'''
@Author:noodles
2020-7-25 17:00:48
'''
import math
import matplotlib.pyplot as plt
import numpy as npplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号def pdf(x, mu, sigma):y = (1.0 / math.sqrt(2 * math.pi * sigma)) * np.exp(-(x - mu) ** 2 / (2 * sigma ** 2))return yif __name__ == '__main__':# generate random num testedsrc_data = np.random.randn(100)src_data[99] = 5 # add one outliersx = np.sort(src_data)# step1: get meanmu = x.mean()# step2: get standard deviationsigma = x.std()# plot histgram of its distributiony = pdf(x, mu, sigma)# step3: residual errorRE = abs(x - mu)# step4: remove outliersgood_x = []outliers = []for i, j in zip(RE, x):if i < 3 * sigma:good_x.append(j)else:outliers.append(j)good_x = np.array(good_x)good_mu = good_x.mean()good_sigma = good_x.std()good_y = pdf(good_x, good_mu, good_sigma)plt.plot(x, y, c='b', label=u'原始值')plt.plot(good_x, good_y, c='r', label=u'去除异常值后数据')plt.title('Normalization distribution curve')plt.legend()plt.show()print('the outliers removed:',outliers)
实验结果:
3.Couclusion
使用Pauta准侧第一步你要能够确定你的数据符合正太分布,或者能够转化为正太分布,其次根据自己的需要合理选择不同的概率分布函数。
4.Reference
https://baike.baidu.com/item/%E6%8B%89%E4%BE%9D%E8%BE%BE%E5%87%86%E5%88%99/5678473?fr=aladdin
拉依达准则去除异常数据相关推荐
- matlab拉依达法,基于拉依达准则的奇异数据滤波法.ppt
基于拉依达准则的奇异数据滤波法 第四章 智能仪器的基本数据处理算法 数据处理能力是智能仪器水平的标志,不能充分发挥软件作用,等同硬件化的数字式仪器. 基本数据处理算法内容提要 克服随机误差的数字滤波算 ...
- matlab实现拉依达准则,拉依达准则matalb程序
页数:2 中图分类:O212 正文语种:CHI 关键词:数据分析;甑别值;拉依达准则;肖维勒准则;格拉布斯准则 摘要:对测量数据进行分析,是为了及时发现错误,防止错误,数据...... 原始信号 中值 ...
- C#使用拉依达准则(3σ准则)剔除异常数据(.Net剔除一组数据中的奇异值)
1.问题的提出: 电池生产中,遇到一批电池的测量结果数据: 电压值 电池个数 电压值 电池个数 电压值 电池个数 电压值 电池个数 0.056 1 4.09 1 4.146 17 4.17 ...
- 拉依达准则剔除数据异常
/// <summary> /// 拉依达准则剔除数据异常 /// </summary> public class DataExceptionHelpe ...
- 【数据异常校验】拉依达准则( PauTa Criterion 或 3σ准则) 处理异常数据
拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除. 这种判别处理 ...
- Python:使用拉依达准则(3σ准则)剔除excel表中异常数据
1.简介 拉依达准则(Pau'ta Criteron)是先假设一组数据中只含有随机误差,首先按照一定准则计算标准偏差,按照一定概率确定一定区间,认为不在这个区间的为异常值.当数据呈正太分布或者近似正太 ...
- 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc
数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...
- Matlab读取excel并使用拉依达准则筛选数据
1.Matlab读取Excel表格 版本:matlab R2020a,Excel2019的xlsx格式文件 1.1 导入数据 1.2 选择并打开要导入的.xlsx文件 1.3 选择数据区域,选择输出到 ...
- 进阶版拉依达准则(3sigm准则)的提出与应用
修正版拉依达准则的提出与应用 前言 一:基于实验说明异常点对模型结果的影响 二:异常点的判定 三:修正版拉依达准则(3σ准则) 四:理论验证 五:代码实现 六:总结 前言 在前两次文章中,我们都提到异 ...
最新文章
- robotframework 配置过程中遇到的问题
- wxWidgets:wxPropertyGrid类用法
- bootstrap的td可以增加title样式_3.CSS样式的三种使用方式
- django from组件 实现增加 删除 编辑(推荐用法)
- java获取word书签表格数据_Python读取word文档里面的表格数据
- 为集合排序的三个方法
- [zz]4.1.5 进程的处理器亲和性和vCPU的绑定
- 单分支 两路分支和多分支的if结构_JavaScript学习笔记(二)-- 分支结构
- 重磅!阿里云发布业界首款SaaS化防火墙
- 白板机器学习笔记 P60-P65 EM算法
- 最小生成树(MST,minimum spanning tree)
- 数组sort()方法排序
- C++验证哥德巴赫猜想
- 【小程序demo】带你玩转支付宝小程序之小程序二维码
- C++厘米和英寸的换算
- 松翰单片机 c语言例程 宏定义出错,松翰单片机 SN8F5702程序例程
- 第十届“中国电机工程学会杯”全国大学生电工数学建模竞赛 B 题 全面二孩政策对我国人口结构的影响
- 2022-2027年中国煤制尿素市场竞争态势及行业投资前景预测报告
- 接了个私单,结果对方有部分尾款迟迟不付,还好有留了个后门
- 白色用rgba怎么设置html,在白色上将RGB转换为RGBA