1.导入相关库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

2.加载数据

np.random.seed(12345)
data = pd.Series(np.random.randn(10000)*100)

3.正态性检验

########## normal test ###################
u = data.mean()
std = data.std()
print(stats.kstest(data,'norm',(u,std)))

4.拟合核密度曲线并添加K倍Sigma限

############  kde  #######################
fig = plt.figure(figsize = (15,9))
ax1 = fig.add_subplot(2,1,1)
data.plot(kind = 'kde',color = 'k',ylim = [0,0.005],label='kde line')
# add reference line
#添加 3 sigma 线
plt.axvline(u-1*std,color = 'b',linestyle = '--',label='1 sigma')
plt.axvline(u+1*std,color = 'b',linestyle = '--')
plt.text(50,0,"1 sigma",fontdict={'fontsize':15,'color':'b'})plt.axvline(u-2*std,color = 'g',linestyle = '--',label='2 sigma')
plt.axvline(u+2*std,color = 'g',linestyle = '--')plt.axvline(u-3*std,color = 'r',linestyle = '--',label='3 sigma')
plt.axvline(u+3*std,color = 'r',linestyle = '--')plt.axvline(u-6*std,color = 'lime',linestyle = '--',label='6 sigma')
plt.axvline(u+6*std,color = 'lime',linestyle = '--')ax1.legend()

5.筛选出Outliers

#### plot and mark error point ##########
#筛选出离群值
left  = u-3*std
right = u+3*std
# left  = u-2.7*std
# right = u+2.7*std
error = data[(data<left)|(data>right)]
data_c = data[(data>=left)&(data<=right)]
#绘图可视化
print('Error:{}'.format(len(error)))
ax2 = fig.add_subplot(2,1,2)
plt.scatter(data_c.index,data_c.values,color = 'g',alpha = 0.6,label='normal')
plt.scatter(error.index ,error.values ,color = 'r',alpha = 0.8,label='outliers')
ax2.set_xlabel('Index')
ax2.set_ylabel('Value')
ax2.legend()

特别注明:本文属于Python学习笔记,不以盈利为目的,纯手工码字不容易,若整理的笔记中,对您有所助益,麻烦点个赞或者收藏,万分感谢!如有构成侵权的地方,请联系作者删除,谢谢合作!

3 Sigma原则筛选离群值相关推荐

  1. 正态分布中“sigma原则”,“2sigma原则”,“3sigma原则”

    正态分布中"sigma原则","2sigma原则","3sigma原则" 正态分布3sigma原则 正态分布中的参数含义 正态分布3sigm ...

  2. 正态分布西格玛越大_正态分布中什么是1 sigma原则,2sigma原则,3sigma原则

    sigma原则:数值分布636f707962616964757a686964616f31333431366431在(μ-σ,μ+σ)中的概率为0.6526: 2sigma原则:数值分布在(μ-2σ,μ ...

  3. 正态分布西格玛越大_正态分布中“sigma原则”,“2sigma原则”,“3sigma原则”分别是什么原则?...

    展开全部 sigma原则:数值分布在(μ-σ,μ+σ)32313133353236313431303231363533e58685e5aeb931333431366431中的概率为0.6526: 2s ...

  4. 吴军的数学通识讲义 读书笔记

    通识教育.博雅教育 Liberal Arts 人想要成为社会的精英,首先要在精神上成为精英,这样才能以精英的方式思考,以主人的态度做事,才能超出常人. 基础篇 理解数学的线索:从毕达哥拉斯讲起 勾股定 ...

  5. 《速通深度学习数学基础》

    目录 序 前言 第1章 线性代数的基本概念 1.1 向量和深度学习 1.2 向量距离计算 1.3 向量的基本性质 1.4 矩阵的基本概念 1.5 一些特殊的矩阵 第2章 线性代数在深度学习中的应用 2 ...

  6. 数学建模清风微信公众号的习题答案(挑战篇-数据异常值处理)

    以下题目是来自微信公众数学建模清风老师的题目 1.0数据异常处理 1.1正态分布的3σ\sigmaσ原则 1.2箱线图识别异常值 2.0 数据异常处理实例 3.0 总结分析 以下是个人结合在微信公众号 ...

  7. 【工程项目经济分析】 期末复习

    写在前面 尽量避免使用百度(但在第六章有两处用了),基于课本和ppt 为什么title上没写"考研复试",是因为我真不信计院考研能考这个. 提纲 第一章 绪论 1.了解工程项目及其 ...

  8. 基于Python实现的残缺图像检索SDK

    残缺图像检索 SDK 方法一:模板匹配 1.1 算法说明 灰度模板匹配算法:将裁剪图视作模板,遍历图像库中的每一张图片,对模板和图片应用模板匹配算法,算法输出模板在图片中的匹配的最高相似度,作为模板( ...

  9. python数据分析及可视化(二)离散程度、标准化值、分布形态、描述性统计图表

    描述性统计 平均指标 调和平均数 算术平均数的变种,本质跟算术平均数是一致的. 定义:变量值倒数的算术平均值的倒数.表示的符号:HHH 调和平均数(根据未分组数据计算的):H=n1x1+1x2+... ...

最新文章

  1. linux运维 对比 网络_linux运维、架构之路-网络基础
  2. 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用29
  3. 计算机二级find,Excel函数-find、if和iferror-计算机二级Office
  4. Linux操作系统无人值守安装配置指南
  5. python发挥程度_你为什么用 Python?
  6. Windows 控制台cmd中文乱码的解决办法
  7. SpringBoot集成Dubbo+Zookeeper
  8. 【LeetCode】【数组】题号:*289,生命游戏
  9. 中文计算机语言编程优势,十种编程语言特点比较
  10. oracle扩容临时表空间,oracle临时表空间扩容
  11. 计算机主板电源接口8pin,主板供电篇——CPU辅助电源
  12. Word2010页眉添加两条横线
  13. 近代物理实验 核磁共振的稳态吸收(含数据及参考题)
  14. 虾皮有哪些站点?各站点有什么特色
  15. 《安富莱嵌入式周报》第249期:2022.01.17--2022.01.23
  16. 计算机开机最快,教你如何让你的电脑快速开机
  17. Error response from daemon: Container 073f76ff69aa420bbd3f70050779111770562b080caa77e89bd444d0bf3a3a
  18. 240. 搜索二维矩阵 II
  19. Java实现七牛云上传下载文件或图片
  20. android项目中文字乱码的问题

热门文章

  1. 大学四年,研究生三年,我的学习宝典。
  2. 利用python数据分析,获取双色球历史中奖信息!(内含详细代码)
  3. 【Trie】vijos p1028 魔族密码
  4. 合并报表编制采用的理论_3.合并报表编制理论知识(必读)详解
  5. 【图像去噪】基于边缘增强扩散 (cEED) 和 Coherence Enhancing Diffusion (cCED) 滤波器实现图像去噪附matlab代码
  6. 以太坊黄皮书(1~6章)
  7. Virgo与Maven整合开发环境搭建(一)
  8. Flowable 流程引擎系列文章导读
  9. Python的高级函数
  10. Android背景模糊话模糊、高斯模糊(FastBlur)