对于正态分布的随机变量而言,其概率密度满足

μ是随机变量的均值,σ是随机变量的标准差。 对于正态分布的曲线,一般大家都很熟悉,由于概率密度函数关于x=μ对称,在样本个数较多的情况下,有以下三个概率成立

即绝大多数样本分布在[μ-3σ,μ+3σ]闭区间之内,只有极少数的样本可能分布在该区间之外,概率不到0.003,几乎不可能发生,是小概率事件,这即为3σ原则。 我们通常把这些极少数分布在[μ-3σ,μ+3σ]区间之外的样本称之为“坏值”。

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.preprocessing import StandardScalerdef three_sigma(y):#数据标准化处理yStd = StandardScaler().fit_transform(y)result = []for index, value in enumerate(yStd):if abs(value - np.mean(yStd)) > 3 * np.std(yStd):result.append(index)return resultif __name__=="__main__":dataframe = pd.read_csv("32_finaldata_lowfreq_magn.csv").head(5000)["average"]y = dataframe.valuesX = np.arange(0, len(y), 1)train_data = np.vstack((X, y)).T  #X,y按列合并y_Hdim = y.reshape((len(y), 1))dirty_data = three_sigma(y_Hdim)plt.plot(train_data[:, 0], train_data[:, 1], color="c")for i in range(len(dirty_data)):plt.text(dirty_data[i], y[dirty_data[i]], "("+str(dirty_data[i])+","+str(y[dirty_data[i]])+")")plt.show()

利用3sigma准则识别数据中的坏值相关推荐

  1. dts无法识别excel中的数字值?

    经常出现这种情况,excel里面明明有数据,通过dts(或all tasks--import data)导入到数据库,数据就成null了.在导入过程中预览,也看不到数据.通过函数把改数据转换为字符性, ...

  2. python识别图像中的物体_python爬虫-利用百度api识别照片中的物体

    我会了,您呢 开门见山,我直接开始了,这真的只是体验课,不值得我体验一整天的时间,我花了半小时. 基础不需要,会认字就行.软件:pycharm,py3.x/py2.x,两个都行,我用的3. 需要自己有 ...

  3. java json相加_JAVA,当某个json数据中一个字段与另一个json数据中的字段值相同时,对两个json进行合并且相加,...

    展开全部 要判断json数据的字段62616964757a686964616fe78988e69d8331333365636634与其他数据是否相同,那么肯定是要先解析json数据.解析json数据的 ...

  4. r语言赋值为na_如何将R数据中的NA值替换为0?

    dplyr杂交选项现在比BaseR子集重新分配快30%左右.在一个100米的数据池上mutate_all(~replace(., is.na(.), 0))比基数R快半秒d[is.na(d)] 如果你 ...

  5. Spring Boot 10:处理Json数据中的null值

    Jackson版: /*** Jackson 配置类 对Json数据进行特殊处理** @Author YangXuyue* @Date 2019/04/02 07:12*/ @Configuratio ...

  6. zabbix最新数据中,没有值 45653:20211111:181222.474 [Z3005] query failed: [1526] Unknown error 1526 [insert in

    1 . 查看 zabbix日志: 45653:20211111:181221.467 item "10.66.8.233:ifOutOctets.Pused[GigabitEthernet2 ...

  7. stata怎么判断是否存在异常值_利用统计方法,辨别和处理数据中的异常值

    在建模时,清理数据样本非常重要,这样做可以确保观察结果充分代表问题.有时,数据集可能包含超出预期范围之外的极端值.这通常被称为异常值,通过理解甚至去除这些异常值,能够改进机器学习建模和模型技能. 在本 ...

  8. 大数据中数据清理怎么做的_针对不完整数据的大数据清洗方法与流程

    本发明属于大数据清洗技术领域,涉及一种针对不完整数据的大数据清洗方法. 背景技术: 随着信息化的进展,企业内部积累了大量的电子数据,这些数据对企业非常重要.但由于各种原因,导致企业现有系统数据库中存在 ...

  9. mysql 查询数据库索引语句_利用SQL语句查询数据库中所有索引

    本章我们就要讲解一下如何利用sql语句来查询出数据库中所有索引明细.当然了,我们可以在microsoft sql server management studio中选择"表"- & ...

最新文章

  1. 微信公众号开发的一些配置
  2. 从Transformer到BERT模型
  3. AI的使用场景破冰开拓商业服务
  4. Windows scp传输文件给Linux
  5. 光纤交换机产品功能介绍
  6. 测试用例设计与管理思路整理
  7. java1.8+pydev_Ubuntu 18.04.4 中使用 Eclipse+PyDev 配置 Python 开发环境
  8. 排序算法_HeapSort
  9. java ftp 上传文件 无效_java实现FTP文件上传出现的问题
  10. SP1812 LCS2 - Longest Common Substring II
  11. 正交实验法,软件测试用例的特性,编写方法,软件缺陷的基础知识
  12. 微信8.0下载(可抓包)
  13. 国内十大白银期货APP最新排名
  14. Calendar获取当前日期,或前几天,或后几天的日期
  15. uniapp上传华为应用市场,您的应用提示获取手机存储敏感权限,用户不同意时强制退出应用
  16. Git 六 时光穿梭机
  17. Win10下媲美apt的包管理工具 Scoop 的安装以及常用软件清单
  18. 全志T3开发板——嵌入式入门学习测试教程(7)
  19. NetworkManager network-manager 的 /etc/NetworkManager/system-connections/*.nmconnection
  20. C语言学习笔记(十五)

热门文章

  1. 基于JAVA无人值守台球厅智能管理监控系统计算机毕业设计源码+数据库+lw文档+系统+部署
  2. 《女人的起源》阅读笔记
  3. DASCTF x SU 春季挑战赛
  4. 什么时候用std::move()?
  5. mockmvc 用法
  6. 美国东北大学工程学院计算机,美国东北大学计算机工程排名2020年
  7. Goland 快捷键统计
  8. ChatGLM LoRA微调实战方案
  9. 思普linux安装教程,思普操作系统下载
  10. Linux之父炮轰:C++是一门很烂的语言,不会用其重写Linux内核