3 Sigma原则筛选离群值

1.导入相关库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

2.加载数据

np.random.seed(12345)
data = pd.Series(np.random.randn(10000)*100)

3.正态性检验

########## normal test ###################
u = data.mean()
std = data.std()
print(stats.kstest(data,'norm',(u,std)))

4.拟合核密度曲线并添加K倍Sigma限

############  kde  #######################
fig = plt.figure(figsize = (15,9))
ax1 = fig.add_subplot(2,1,1)
data.plot(kind = 'kde',color = 'k',ylim = [0,0.005],label='kde line')
# add reference line
#添加 3 sigma 线
plt.axvline(u-1*std,color = 'b',linestyle = '--',label='1 sigma')
plt.axvline(u+1*std,color = 'b',linestyle = '--')
plt.text(50,0,"1 sigma",fontdict={'fontsize':15,'color':'b'})plt.axvline(u-2*std,color = 'g',linestyle = '--',label='2 sigma')
plt.axvline(u+2*std,color = 'g',linestyle = '--')plt.axvline(u-3*std,color = 'r',linestyle = '--',label='3 sigma')
plt.axvline(u+3*std,color = 'r',linestyle = '--')plt.axvline(u-6*std,color = 'lime',linestyle = '--',label='6 sigma')
plt.axvline(u+6*std,color = 'lime',linestyle = '--')ax1.legend()

5.筛选出Outliers

#### plot and mark error point ##########
#筛选出离群值
left  = u-3*std
right = u+3*std
# left  = u-2.7*std
# right = u+2.7*std
error = data[(data<left)|(data>right)]
data_c = data[(data>=left)&(data<=right)]
#绘图可视化
print('Error:{}'.format(len(error)))
ax2 = fig.add_subplot(2,1,2)
plt.scatter(data_c.index,data_c.values,color = 'g',alpha = 0.6,label='normal')
plt.scatter(error.index ,error.values ,color = 'r',alpha = 0.8,label='outliers')
ax2.set_xlabel('Index')
ax2.set_ylabel('Value')
ax2.legend()

特别注明：本文属于Python学习笔记，不以盈利为目的，纯手工码字不容易，若整理的笔记中，对您有所助益，麻烦点个赞或者收藏，万分感谢！如有构成侵权的地方，请联系作者删除，谢谢合作！

3 Sigma原则筛选离群值相关推荐

正态分布中“sigma原则”，“2sigma原则”，“3sigma原则”
正态分布中"sigma原则","2sigma原则","3sigma原则" 正态分布3sigma原则正态分布中的参数含义正态分布3sigm ...
正态分布西格玛越大_正态分布中什么是1 sigma原则，2sigma原则，3sigma原则
sigma原则:数值分布636f707962616964757a686964616f31333431366431在(μ-σ,μ+σ)中的概率为0.6526: 2sigma原则:数值分布在(μ-2σ,μ ...
正态分布西格玛越大_正态分布中“sigma原则”，“2sigma原则”，“3sigma原则”分别是什么原则？...
展开全部 sigma原则:数值分布在(μ-σ,μ+σ)32313133353236313431303231363533e58685e5aeb931333431366431中的概率为0.6526: 2s ...
吴军的数学通识讲义读书笔记
通识教育.博雅教育 Liberal Arts 人想要成为社会的精英,首先要在精神上成为精英,这样才能以精英的方式思考,以主人的态度做事,才能超出常人. 基础篇理解数学的线索:从毕达哥拉斯讲起勾股定 ...
《速通深度学习数学基础》
目录序前言第1章线性代数的基本概念 1.1 向量和深度学习 1.2 向量距离计算 1.3 向量的基本性质 1.4 矩阵的基本概念 1.5 一些特殊的矩阵第2章线性代数在深度学习中的应用 2 ...
数学建模清风微信公众号的习题答案(挑战篇-数据异常值处理)
以下题目是来自微信公众数学建模清风老师的题目 1.0数据异常处理 1.1正态分布的3σ\sigmaσ原则 1.2箱线图识别异常值 2.0 数据异常处理实例 3.0 总结分析以下是个人结合在微信公众号 ...
【工程项目经济分析】期末复习
写在前面尽量避免使用百度(但在第六章有两处用了),基于课本和ppt 为什么title上没写"考研复试",是因为我真不信计院考研能考这个. 提纲第一章绪论 1.了解工程项目及其 ...
基于Python实现的残缺图像检索SDK
残缺图像检索 SDK 方法一:模板匹配 1.1 算法说明灰度模板匹配算法:将裁剪图视作模板,遍历图像库中的每一张图片,对模板和图片应用模板匹配算法,算法输出模板在图片中的匹配的最高相似度,作为模板( ...
python数据分析及可视化（二）离散程度、标准化值、分布形态、描述性统计图表
描述性统计平均指标调和平均数算术平均数的变种,本质跟算术平均数是一致的. 定义:变量值倒数的算术平均值的倒数.表示的符号:HHH 调和平均数(根据未分组数据计算的):H=n1x1+1x2+... ...

3 Sigma原则筛选离群值

1.导入相关库

2.加载数据

3.正态性检验

4.拟合核密度曲线并添加K倍Sigma限

5.筛选出Outliers

3 Sigma原则筛选离群值相关推荐

最新文章

热门文章