1.Concept

拉依达准侧(Pau’ta Criteron)是先假设一组数据中只含有随机误差,首先按照一定准侧计算标准偏差,按照一定概率确定一定区间,认为不在这个区间的为异常值。
使用数据类型:数据呈正太分布或者近似正太分布。

2.举例实验

该实验中使用正太分布函数确定区间,认为剩余误差超过3 σ\sigmaσ为异常值。

python 代码实验:

# encoding:utf-8
'''
@Author:noodles
2020-7-25 17:00:48
'''
import math
import matplotlib.pyplot as plt
import numpy as npplt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号def pdf(x, mu, sigma):y = (1.0 / math.sqrt(2 * math.pi * sigma)) * np.exp(-(x - mu) ** 2 / (2 * sigma ** 2))return yif __name__ == '__main__':# generate random num testedsrc_data = np.random.randn(100)src_data[99] = 5 # add one outliersx = np.sort(src_data)# step1: get meanmu = x.mean()# step2: get standard deviationsigma = x.std()# plot histgram of its distributiony = pdf(x, mu, sigma)# step3: residual errorRE = abs(x - mu)# step4: remove outliersgood_x = []outliers = []for i, j in zip(RE, x):if i < 3 * sigma:good_x.append(j)else:outliers.append(j)good_x = np.array(good_x)good_mu = good_x.mean()good_sigma = good_x.std()good_y = pdf(good_x, good_mu, good_sigma)plt.plot(x, y, c='b', label=u'原始值')plt.plot(good_x, good_y, c='r', label=u'去除异常值后数据')plt.title('Normalization distribution curve')plt.legend()plt.show()print('the outliers removed:',outliers)

实验结果:

3.Couclusion

使用Pauta准侧第一步你要能够确定你的数据符合正太分布,或者能够转化为正太分布,其次根据自己的需要合理选择不同的概率分布函数。

4.Reference

https://baike.baidu.com/item/%E6%8B%89%E4%BE%9D%E8%BE%BE%E5%87%86%E5%88%99/5678473?fr=aladdin

拉依达准则去除异常数据相关推荐

  1. matlab拉依达法,基于拉依达准则的奇异数据滤波法.ppt

    基于拉依达准则的奇异数据滤波法 第四章 智能仪器的基本数据处理算法 数据处理能力是智能仪器水平的标志,不能充分发挥软件作用,等同硬件化的数字式仪器. 基本数据处理算法内容提要 克服随机误差的数字滤波算 ...

  2. matlab实现拉依达准则,拉依达准则matalb程序

    页数:2 中图分类:O212 正文语种:CHI 关键词:数据分析;甑别值;拉依达准则;肖维勒准则;格拉布斯准则 摘要:对测量数据进行分析,是为了及时发现错误,防止错误,数据...... 原始信号 中值 ...

  3. C#使用拉依达准则(3σ准则)剔除异常数据(.Net剔除一组数据中的奇异值)

    1.问题的提出: 电池生产中,遇到一批电池的测量结果数据: 电压值 电池个数 电压值 电池个数 电压值 电池个数 电压值 电池个数 0.056 1   4.09 1   4.146 17   4.17 ...

  4. 拉依达准则剔除数据异常

    /// <summary>     /// 拉依达准则剔除数据异常     /// </summary>     public class DataExceptionHelpe ...

  5. 【数据异常校验】拉依达准则( PauTa Criterion 或 3σ准则) 处理异常数据

    拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除. 这种判别处理 ...

  6. Python:使用拉依达准则(3σ准则)剔除excel表中异常数据

    1.简介 拉依达准则(Pau'ta Criteron)是先假设一组数据中只含有随机误差,首先按照一定准则计算标准偏差,按照一定概率确定一定区间,认为不在这个区间的为异常值.当数据呈正太分布或者近似正太 ...

  7. 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc

    数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...

  8. Matlab读取excel并使用拉依达准则筛选数据

    1.Matlab读取Excel表格 版本:matlab R2020a,Excel2019的xlsx格式文件 1.1 导入数据 1.2 选择并打开要导入的.xlsx文件 1.3 选择数据区域,选择输出到 ...

  9. 进阶版拉依达准则(3sigm准则)的提出与应用

    修正版拉依达准则的提出与应用 前言 一:基于实验说明异常点对模型结果的影响 二:异常点的判定 三:修正版拉依达准则(3σ准则) 四:理论验证 五:代码实现 六:总结 前言 在前两次文章中,我们都提到异 ...

最新文章

  1. robotframework 配置过程中遇到的问题
  2. wxWidgets:wxPropertyGrid类用法
  3. bootstrap的td可以增加title样式_3.CSS样式的三种使用方式
  4. django from组件 实现增加 删除 编辑(推荐用法)
  5. java获取word书签表格数据_Python读取word文档里面的表格数据
  6. 为集合排序的三个方法
  7. [zz]4.1.5 进程的处理器亲和性和vCPU的绑定
  8. 单分支 两路分支和多分支的if结构_JavaScript学习笔记(二)-- 分支结构
  9. 重磅!阿里云发布业界首款SaaS化防火墙
  10. 白板机器学习笔记 P60-P65 EM算法
  11. 最小生成树(MST,minimum spanning tree)
  12. 数组sort()方法排序
  13. C++验证哥德巴赫猜想
  14. 【小程序demo】带你玩转支付宝小程序之小程序二维码
  15. C++厘米和英寸的换算
  16. 松翰单片机 c语言例程 宏定义出错,松翰单片机 SN8F5702程序例程
  17. 第十届“中国电机工程学会杯”全国大学生电工数学建模竞赛 B 题 全面二孩政策对我国人口结构的影响
  18. 2022-2027年中国煤制尿素市场竞争态势及行业投资前景预测报告
  19. 接了个私单,结果对方有部分尾款迟迟不付,还好有留了个后门
  20. 白色用rgba怎么设置html,在白色上将RGB转换为RGBA

热门文章

  1. 利用WiFi控制手机进行刷宝APP看视频
  2. 女性养生最需要的十种食物
  3. 访问Daytime服务的客户端(TCP)
  4. 【Demo】银行主数据的修改
  5. 蓝桥杯T513---- 算法训练 素因子去重 java
  6. PHP的apcu是什么,opcache又是什么?
  7. jquery二级联动下拉菜单
  8. #今日论文推荐# 莫纳什大学最新《长文档摘要》综述,39页pdf长文档摘要的实证研究:数据集、模型和指标
  9. Java开发必须会的技能!java页面导出数据到excel
  10. 【蓝桥杯算法模板题--蓝桥题库Java】