3 Sigma原则筛选离群值
1.导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
2.加载数据
np.random.seed(12345)
data = pd.Series(np.random.randn(10000)*100)
3.正态性检验
########## normal test ###################
u = data.mean()
std = data.std()
print(stats.kstest(data,'norm',(u,std)))
4.拟合核密度曲线并添加K倍Sigma限
############ kde #######################
fig = plt.figure(figsize = (15,9))
ax1 = fig.add_subplot(2,1,1)
data.plot(kind = 'kde',color = 'k',ylim = [0,0.005],label='kde line')
# add reference line
#添加 3 sigma 线
plt.axvline(u-1*std,color = 'b',linestyle = '--',label='1 sigma')
plt.axvline(u+1*std,color = 'b',linestyle = '--')
plt.text(50,0,"1 sigma",fontdict={'fontsize':15,'color':'b'})plt.axvline(u-2*std,color = 'g',linestyle = '--',label='2 sigma')
plt.axvline(u+2*std,color = 'g',linestyle = '--')plt.axvline(u-3*std,color = 'r',linestyle = '--',label='3 sigma')
plt.axvline(u+3*std,color = 'r',linestyle = '--')plt.axvline(u-6*std,color = 'lime',linestyle = '--',label='6 sigma')
plt.axvline(u+6*std,color = 'lime',linestyle = '--')ax1.legend()
5.筛选出Outliers
#### plot and mark error point ##########
#筛选出离群值
left = u-3*std
right = u+3*std
# left = u-2.7*std
# right = u+2.7*std
error = data[(data<left)|(data>right)]
data_c = data[(data>=left)&(data<=right)]
#绘图可视化
print('Error:{}'.format(len(error)))
ax2 = fig.add_subplot(2,1,2)
plt.scatter(data_c.index,data_c.values,color = 'g',alpha = 0.6,label='normal')
plt.scatter(error.index ,error.values ,color = 'r',alpha = 0.8,label='outliers')
ax2.set_xlabel('Index')
ax2.set_ylabel('Value')
ax2.legend()
特别注明:本文属于Python学习笔记,不以盈利为目的,纯手工码字不容易,若整理的笔记中,对您有所助益,麻烦点个赞或者收藏,万分感谢!如有构成侵权的地方,请联系作者删除,谢谢合作!
3 Sigma原则筛选离群值相关推荐
- 正态分布中“sigma原则”,“2sigma原则”,“3sigma原则”
正态分布中"sigma原则","2sigma原则","3sigma原则" 正态分布3sigma原则 正态分布中的参数含义 正态分布3sigm ...
- 正态分布西格玛越大_正态分布中什么是1 sigma原则,2sigma原则,3sigma原则
sigma原则:数值分布636f707962616964757a686964616f31333431366431在(μ-σ,μ+σ)中的概率为0.6526: 2sigma原则:数值分布在(μ-2σ,μ ...
- 正态分布西格玛越大_正态分布中“sigma原则”,“2sigma原则”,“3sigma原则”分别是什么原则?...
展开全部 sigma原则:数值分布在(μ-σ,μ+σ)32313133353236313431303231363533e58685e5aeb931333431366431中的概率为0.6526: 2s ...
- 吴军的数学通识讲义 读书笔记
通识教育.博雅教育 Liberal Arts 人想要成为社会的精英,首先要在精神上成为精英,这样才能以精英的方式思考,以主人的态度做事,才能超出常人. 基础篇 理解数学的线索:从毕达哥拉斯讲起 勾股定 ...
- 《速通深度学习数学基础》
目录 序 前言 第1章 线性代数的基本概念 1.1 向量和深度学习 1.2 向量距离计算 1.3 向量的基本性质 1.4 矩阵的基本概念 1.5 一些特殊的矩阵 第2章 线性代数在深度学习中的应用 2 ...
- 数学建模清风微信公众号的习题答案(挑战篇-数据异常值处理)
以下题目是来自微信公众数学建模清风老师的题目 1.0数据异常处理 1.1正态分布的3σ\sigmaσ原则 1.2箱线图识别异常值 2.0 数据异常处理实例 3.0 总结分析 以下是个人结合在微信公众号 ...
- 【工程项目经济分析】 期末复习
写在前面 尽量避免使用百度(但在第六章有两处用了),基于课本和ppt 为什么title上没写"考研复试",是因为我真不信计院考研能考这个. 提纲 第一章 绪论 1.了解工程项目及其 ...
- 基于Python实现的残缺图像检索SDK
残缺图像检索 SDK 方法一:模板匹配 1.1 算法说明 灰度模板匹配算法:将裁剪图视作模板,遍历图像库中的每一张图片,对模板和图片应用模板匹配算法,算法输出模板在图片中的匹配的最高相似度,作为模板( ...
- python数据分析及可视化(二)离散程度、标准化值、分布形态、描述性统计图表
描述性统计 平均指标 调和平均数 算术平均数的变种,本质跟算术平均数是一致的. 定义:变量值倒数的算术平均值的倒数.表示的符号:HHH 调和平均数(根据未分组数据计算的):H=n1x1+1x2+... ...
最新文章
- linux运维 对比 网络_linux运维、架构之路-网络基础
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用29
- 计算机二级find,Excel函数-find、if和iferror-计算机二级Office
- Linux操作系统无人值守安装配置指南
- python发挥程度_你为什么用 Python?
- Windows 控制台cmd中文乱码的解决办法
- SpringBoot集成Dubbo+Zookeeper
- 【LeetCode】【数组】题号:*289,生命游戏
- 中文计算机语言编程优势,十种编程语言特点比较
- oracle扩容临时表空间,oracle临时表空间扩容
- 计算机主板电源接口8pin,主板供电篇——CPU辅助电源
- Word2010页眉添加两条横线
- 近代物理实验 核磁共振的稳态吸收(含数据及参考题)
- 虾皮有哪些站点?各站点有什么特色
- 《安富莱嵌入式周报》第249期:2022.01.17--2022.01.23
- 计算机开机最快,教你如何让你的电脑快速开机
- Error response from daemon: Container 073f76ff69aa420bbd3f70050779111770562b080caa77e89bd444d0bf3a3a
- 240. 搜索二维矩阵 II
- Java实现七牛云上传下载文件或图片
- android项目中文字乱码的问题
热门文章
- 大学四年,研究生三年,我的学习宝典。
- 利用python数据分析,获取双色球历史中奖信息!(内含详细代码)
- 【Trie】vijos p1028 魔族密码
- 合并报表编制采用的理论_3.合并报表编制理论知识(必读)详解
- 【图像去噪】基于边缘增强扩散 (cEED) 和 Coherence Enhancing Diffusion (cCED) 滤波器实现图像去噪附matlab代码
- 以太坊黄皮书(1~6章)
- Virgo与Maven整合开发环境搭建(一)
- Flowable 流程引擎系列文章导读
- Python的高级函数
- Android背景模糊话模糊、高斯模糊(FastBlur)