学习机器学习算法时,经常会碰到数理统计中置信区间、置信度,虽然学习过相关课程,但是每次遇到它总是懵懵懂懂,似懂非懂。为了对这两个概念有深入的了解,这里做了相关的介绍。为了不老是纠缠于数理统计理论,或者学习了概念之后又无法应用的情况发生,这里以一个机器学习特征工程中常用的异常值检测算法--3sigma模型,来解释这两个概念,这样你既学会了一种异常值模型,又弄懂了这个概念,这个买卖划得来。

异常值检测算法场景

最近也是疲于完成一个项目,做企业污染源检测,为了检测传感器是否正常,或者企业排放污染异常,你需要对传感器值做异常值的检测,假设企业每天排放污染是独立的,那么就可以使用简单粗暴的3sigma模型来检测。


估计这个算法很多场景中都可以遇到。具体做法是以一个月排放为样本数据,检测这一个月中排放是否正常。根据一个月的样本,估计出均值与方差。如果某天的值落在 之外,就可以认为这个值是异常值。
算法很简单,但是背后的原理却很容易让人产生困惑,为什么这样就可以检测出异常了呢?为什么是3sigma,不是5或6sigma呢?

置信度与置信区间

要知道企业的污染物排放是跟一个企业生产有关系的,如果一个企业正常生产那么污染物的排放量是不会相差太多。也就是说企业污染物排放量,会在一个范围内波动。对一个月的排放量,做一个简单的柱状图统计,x轴为排放量,y轴为排放次数。


通过图可以观察出,本月的排放还是挺符合正态分布的。如果取一个月的排放量为样本,那么就是样本容量为30,如果扩大采样数,进行统计的话。

很明显可以看出,36.8为均值。

采样估计

现在让你去评估该企业一天正常排放量是多少?假设企业真实污染物正常一天排放量为36.8。然后我们随机抽取一天,结果为30.2,你就说该企业正常排放量为30.2,这样显然不能让人认同。但是如果做了多天的样本抽样得出,[20,50]这个区间为污染物正常一天排放量的范围,显然这样更容易让人接受。但是能够让人多大程度接受呢?假设为95%,那么这里就引入置信区间[30.2,38.3]与置信度95%的概念。
显然把所有天的排放量都采集回来做正常排放量估计是不合适的,因为每天都有新的数据加入,所以只能够以样本估计整体。

置信区间置信度案例解释

置信区间相信你有个大概想法,就是为认为这个排放量是正常的区间呗,那就是真实企业污染物正常排放量36.8,落在这个区间的概率吗?答案是否定的。为了帮助你理解这个拗口的话,错误的理解计算置信度的方式是,统计在区间[30.2,38.3]的排放量的总个数除36.8的排放天数,结果为95%。实际上正确的求解置信度的方式是,假设样本容量1000天,重新计算均值与方差,得到置信区间 。反复取这样的样本容量为1000 天 100次,那么就得到量100个置信区间,这100个置信区间有95次包含了真实值36.8,95/100=95%,所以就得到置信度为95%。但是这里又有个疑问,平时做置信区间的时候没有做100次啊,一般做一次,就得出了置信度为95%的置信区间为。引入一个例子,把置信区间比喻为黑箱子里的球,有黑白两种颜色,抽样100次,统计得出95%为黑球,5%为白球。现在找另外一个人重黑箱子中抽一个球,问这个求是黑球的概率是多少?答案很显然 95%,所以我们经常只做一次抽样,得到置信区间就可以说,这个置信区间有95%的概率包含真实值。
那么异常值检测的思路就很清晰了,抽取一个月的数据,计算出置信区间,也就是说如果某天的排放量不在这个区间内,那么就可以说这天的值只有5%是一天正常的排放量,可能性很小那么就认为它是异常值。有兴趣讨论的欢迎关注我的微信公共号

3sigma模型案例分析彻底搞懂置信度与置信区间相关推荐

  1. R语言Logistic回归模型案例:分析吸烟、饮酒与食管癌的关系

    R语言Logistic回归模型案例:分析吸烟.饮酒与食管癌的关系 目录 R语言Logistic回归模型案例分析吸烟.饮酒与食管癌的关系 #样例数据

  2. 单方程误差修正模型案例分析

    单方程误差修正模型案例分析 数据的生成 set.seed(12345) u<-rnorm(500) x<-cumsum(u) y<-x+u E-G协整估计及检验 model.lm&l ...

  3. 一文快速搞懂对95%置信区间的理解

    一文快速搞懂对95%置信区间的理解 综合知乎上各大神的解答和网络资料得到本文对95%置信区间的理解 先给出结论 最常出现的对置信区间的错误理解: 在95%置信区间内,有95%的概率包括真实参数  (错 ...

  4. SWAT模型案例分析

    SWAT模型的产生 SWAT模型的最直接前身是SWRRB模型.而SWRRB模型则起始于20世纪70年代美国农业部农业研究中心开发的CREAMS(Chemicals, Runoff, and Erosi ...

  5. 卡诺模型案例分析_3个维度看竞品分析!

    谁都想站在巨人的肩膀上,问题是怎么上去? ABC分享会线下24期回顾 时间:10月24日 下午13:00-17:30 地点:上海嘉定U-CUBE创意空间 参与人数:18人 主题:怎样做竞品分析 这次活 ...

  6. 神策数据:游戏企业如何做产品 A/B 测试?三大案例一次搞懂

    A/B 测试是游戏行业常用的数据试验方法,特别是有过游戏出海经历的企业,都尝试过 A/B 测试: 商店 A/B 测试:在 Google Play 开发者后台,通过 A/B 测试挑选最合适的游戏图标.商 ...

  7. 【Vue】一个案例带你搞懂methods、watch及computed的使用规则

    本文我们通过案例来介绍一下vue中 watch 和 computed 的使用规则,案例效果如下: 以上案例就是实现一个简单的 名称拼接处理.实现的方式有很多,本文我们将采用以下三种方式来实现. 1.D ...

  8. 卡诺模型案例分析_AMOS案例分析 | 结构方程模型(二)

    使用结构方程的方法进行模型的验证 1. 替换缺失值 在读取数据文件之前,对数据的完整性问题做适当处理.利用SPSS进行数据缺失值的处理.操作过程:转换→替换缺失值 输出结果:形成新的数据集.从下表中可 ...

  9. 卡诺模型案例分析_质量管理神器,Kano模型您可知道?

    在六西格玛中,倾听.分析.理解顾客的需求 (voice of customer)是非常重要的,而Kano模型就是这个环节中关键的工具之一. 而笔者觉得更为重要的是,Kano模型不仅仅是质量领域的重要工 ...

最新文章

  1. oracle归档原理,增加ORACLE归档位置到NFS(转)
  2. python3.8使用requests_python3.8.1 入门基础学习 之 【 requests 基础学习,python3爬虫必备基础】...
  3. Windows 10 [ ERROR ] Can not init Myriad device: NC_ERROR Error
  4. 女人心中真正男人具有的十大特征
  5. Java Review - 线程池中使用ThreadLocal不当导致的内存泄漏案例源码分析
  6. PMcaff-干货| App品牌初期搭建必须要注意的几个点
  7. IOS网络框架的Alamofire5.4高版本网络工具封装
  8. php用mssql还是用pdo,php使用pdo连接mssql server数据库实例
  9. 打造全键盘操作的PDF阅读器
  10. RAC集群故障恢复CRS-4047,CRS-4000
  11. decorator php,php设计模式 Decorator(装饰模式)
  12. CentOS7.2中安装rabbitmq
  13. Bootstrap创建拼接式按钮下拉菜单
  14. 用MySQL-zrm来备份和恢复MySQL数据库
  15. python hash函数_Python hash()函数
  16. HDOJ 2013 蟠桃记
  17. FFmpeg解码H264视频流
  18. [BJ2006] 狼抓兔子
  19. 安装的Mac Windows双系统,Mac分区的空间太小/太大了,有什么办法调整吗?
  20. Springboot+Vue开发的简单的后台管理系统

热门文章

  1. g18 android 4.4,HTC G18能升级安卓4.0吗
  2. 让你的app无法使用系统截图的探究
  3. 1的k次方到n的k次方
  4. Python批量ipynb文件转(另存为)pdf
  5. 六十五、vue生命周期和发送Ajax请求
  6. 万物皆可集成系列:低代码通过Web API
  7. 计算机php是做什么的,最早的计算机是用来干什么的
  8. Ubuntu无法从桌面拖动文件到U盘
  9. Office 部署工具
  10. 两张图告诉你刺激战场最全年兽刷新位置:另附年兽对抗技巧