指数分布(Exponential distribution)是一种连续型概率分布,可以用来表示独立随机事件发生的时间间隔的概率,比如婴儿出生的时间间隔、旅客进入机场的时间间隔、打进客服中心电话的时间间隔、系统出现bug的时间间隔等等。

指数分布的由来

  指数分布与泊松分布存在着联系,它实际上可以由泊松分布推导而来。

  

  泊松分布(概率统计15)中已经介绍过泊松分布,除了作为二项分布的近似外,当独立事件发生的频率固定时,泊松分布还可以刻画算单位时间内事件发生次数的概率分布。

  假设某个公司有一个带伤上线的系统,每周平均的故障次数是2次,在下周不发生故障概率是多少?

  每周平均的故障次数是2次,我们可以把“一周”看作单位时间,程序的故障率是λ=2,单位时间内发生故障的次数X符合泊松分布X~Po(λ)。在下周不发生故障的概率相当于发生了0个故障的概率:

  现在要求计算两周之内不发生故障的概率。我们用随机变量T>2表示在2个单位时间内系统未发生故障的事件。在已知下周不发生故障的概率的情况下,P(T>2)计算起来很容易:

  我们换一种思路。之前是把“一周”看作单位时间,单位时间内事件发生的频率是λ=2。现在是变成了双倍的单位时间,故障发生的频率自然就变成2λ=4,这样一来,两周之内不发生故障的概率是:

  结果和①相等。

  时间是连续的,如果计算T=1.5周内不发生故障的概率,①就显得无能为力了。但是②却没有任何问题,只要把单位时间内事件的频率λ随着时间T进行放缩就可以了:

  将问题推广到任意时间间隔:

  反过来,故障在时间 t 之内发生的概率就是1-P(T>t):

  现在把T换成X:

  这里的F(x;λ)就是指数分布的分布函数,λ表示平均每单位时间内事件发生的次数,随机变量X表示时间间隔。

  F(x;λ)对应的密度函数是:

  随机变量X符合参数为λ>0的指数分布,记作X~E(λ)。

  有些资料的写法是:

  仅仅是用θ代替了1/λ。

无记忆性

  指数分布的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。如果一个随机变量呈指数分布X~E(λ),当s, t ≥0时:

  先来看看这个等式为什么成立。

  因此二者相等。

  

  在前面的推导中可以看到:

  累积概率对应面积,这个结论告诉我们,在指数分布下,P{X>s+t}和P{X>s}对应的面积的比值等于P{X>t}对应的面积和总体面积的比值:

理解无记忆性

  我们已经知道指数分布可以用来表示独立随机事件发生的时间间隔的概率分布,在精密元件的可靠性研究中,指数分布通常用于描述对元件发生缺陷数测量结果。但是无记忆性又指出,元件在经过s时间的工作之后,它的寿命分布与原来还未工作时的寿命分布相同。这就好比有一个已经用了10年的灯泡和一个刚买的灯泡,现在我告诉你它俩在未来一年里报废的概率相同,你信吗?

  一个著名的问题是“赌徒心理”。假设在赌桌上只能押大或小,某个赌徒已经连续押了10次小,但都输了,于是赌徒认为,下次再出现小的可能性非常低,于是他想把兜里的钱全部押大,试图翻本。

  不妨帮助赌徒分析一下翻本的概率。

  假设这是一个公平的赌场,大和小的概率都是0.5,用随机变量X表示第一次出现“大”时所参与的赌局数,X符合几何分布:

  其中p表示出现“大”的概率,q表示出现“小”的概率。直到第11次才出现“大”的概率是0.511,这是个非常小的数值,可见这个赌徒确实运气不佳。

  接着分析,用X>10表示连续10次以上没出现“大”的事件,以此为前提,下一次(第11次)出现大的概率是:

  在连续押小输掉10次的条件下,下一次出现“大”,和第1次就出现“大”的概率相同。对于赌徒来说,每一局都是全新的,下一次赢钱的概率和之前的输赢没有任何关系,这就是所谓的无记忆性。

  指数分布与几何分布类似,只不过把离散随型机变量变成了连续型。

  

  实际上生活中有很多无记忆性的例子,比如车牌摇号。对于参与摇号的人来说,在每一次摇号中摇中的概率都是相等的。有人说不对啊,明明告诉我摇中的概率是1%,100次里面怎么还不能中一回吗?所谓的1%摇中率,是在大数定律下才起作用,而现实生活中我们面对的往往是“小数”。可以用程序模拟一下:

1 import numpy as np
2
3 np.random.seed(41)
4 for i in range(1, 11, 1):
5     m = 100 * i # 试验次数
6     nums = np.random.randint(1, 101, 200) # 从1~100中随机选择m个数字
7     p_50_size = nums[nums == 50].size # m个数字中出现50的次数
8     print('一共参与摇号{}次,摇中{}次,概率{}'.format(m, p_50_size, p_50_size/m))

  结果显示:

  一共参与100次摇号,摇中0次,概率0.0

  一共参与200次摇号,摇中0次,概率0.0

  一共参与300次摇号,摇中3次,概率0.01

  一共参与400次摇号,摇中3次,概率0.0075

  一共参与500次摇号,摇中2次,概率0.004

  一共参与600次摇号,摇中3次,概率0.005

  一共参与700次摇号,摇中4次,概率0.005714285714285714

  一共参与800次摇号,摇中3次,概率0.00375

  一共参与900次摇号,摇中3次,概率0.0033333333333333335

  一共参与1000次摇号,摇中5次,概率0.005

  每月摇号一次,一个人穷尽一生也满足不了“大数”,摇号还真是件没谱的事。

  因为无记忆性的关系,有人戏称服从指数分布的随机变量就像传说中金鱼只有7秒钟记忆一样,是“永远年轻的”。也正是这一点限制了指数分布的应用,因为指数分布忽略了损耗。但是,指数分布仍然可以近似地作为高可靠性的复杂部件、机器或系统的失效分布模型,特别是在部件或机器的整机试验中得到广泛的应用。

  至于灯泡的寿命是否符合指数分布,其实我也不知道。也许现在制作工艺提升了,灯泡已经是具有高可靠性的产品,灯泡明天是否还能正常工作,完全取决于是否遭到了外力的破坏,日常损耗所起到的作用可以忽略不计,这种情况下,灯泡的使用寿命才有可能符合指数分布。

关于保修期的问题

  冰箱平均10年出现一次大的故障,求:

  (1)冰箱使用15年后还没有出现大故障的比例。

  (2)如果厂家想提供大故障免费维修的质保,试确定保修1~5年内,需要维修的冰箱的占比。

  冰箱平均10年出现大的故障,可见故障率不高,可以认为故障次数服从泊松分布,单位时间是1年,λ=0.1。

  (1)根据指数分布:

  冰箱使用15年后还没有出现大故障的比例约等于22.3%。

  (2)

1 from scipy import stats
2
3 lam = 0.1
4 for i in range(1, 6):
5     print(stats.expon.cdf(i, scale=1/lam))

  上表告诉了我们冰箱的保修期一般都是2年以内的原因,厂家为了把上门修理的次数控制在20%以内,一般选择保修2年。

期望和方差

  对于X~E(λ)的指数分布来说,它的期望是1/λ,方差是1/λ2。

  先来看期望:

  根据分部积分:

  再来看方差:

  继续利用分部积分:

  将u=λx代入④:

  

  将在E[X]中求得的③代入⑤中:

  最终:


  出处:微信公众号 "我是8位的"

  本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途!

  扫描二维码关注作者公众号“我是8位的”

概率统计21——指数分布和无记忆性相关推荐

  1. 关于概率分布理论的原理分析的一些讨论,以及经典概率分布的应用场景,以及概率统计其在工程实践中的应用...

    1. 随机变量定义 0x1:为什么要引入随机变量这个数学概念 在早期的古典概率理论研究中,人们基于随机试验的样本空间去研究随机事件,也发展出了非常多辉煌的理论,包括著名的贝叶斯估计在内. 但是随着研究 ...

  2. 2020.6.26 概率统计-Task03-常见分布与假设检验

    常见分布与假设检验 一.一般随机变量 1 离散型随机变量 2 连续型随机变量 二.常见的离散型分布 1 二项分布 2 泊松分布 3 二项分布与泊松分布之间的关系 4 其他离散型随机分布 几何分布 负二 ...

  3. 深度学习中需要掌握的数学1之概率统计

    深度学习中需要掌握的概率统计 1.常见的概率分布 1.1伯努利分布(二值分布,0-1分布) 1.2二项分布(离散的) 1.3均匀分布 1.4`高斯分布`(连续) 2.独立事件的解释 3.多变量概率分布 ...

  4. 概率统计(三)常见分布与假设检验

    常见分布与假设检验 一.一般随机变量 二.常见分布 1.离散型分布 (1)二项分布 (2)泊松分布 (3)几何分布 (4)负二项分布 (5)超几何分布 2.连续型分布 (1)均匀分布 (2)正态分布 ...

  5. 18个常见的数据分析面试题-概率统计类

    总结了一些常见的概率与统计类的数据分析面试题,不定期更新-- 随机变量的含义 一个随机事件的所有可能的值X,且每个可能值X都有确定的概率P,X就是P(X)的随机变量.比如掷骰子中出现的点数 随机变量和 ...

  6. 距离算法在概率统计C语言,基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计.PDF...

    基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计 第39 卷 第6 期 核 技 术 Vol.39, No.6 2016 年6 月 NUCLEAR TECHNIQUES June 20 ...

  7. Matlab概率统计编程指南

    Matlab概率统计编程指南 第4章 概率统计 本章介绍MATLAB在概率统计中的若干命令和使用格式,这些命令存放于MatlabR12\Toolbox\Stats中. 4.1 随机数的产生 4.1.1 ...

  8. 2020.6.29 概率统计-Task04-方差分析

    方差分析 一.概要 1 从独立样本t检验到方差分析 2 方差分析定义与分类 二.单因素方差分析 1 推导过程 2 代码实现 三.双(多因素)因素方差分析 1 推导过程 2 代码实现 最后 概率统计的最 ...

  9. MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

    样本是随机变量,统计量作为样本的函数自然也是随机变量.当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关.本篇学习概率统计的基本知识,以及在此基础上的统计推论.MADlib提供了概率函数和统计 ...

  10. ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘

    概述 样本选择方法是噪声标签鲁棒学习的常用方法.然而,如何正确地控制选择过程,使深度网络能够从记忆效应中获益是一大难题.本次工作中,受自动机器学习(AutoML)的成功启发,我们将此问题建模为一个函数 ...

最新文章

  1. 【PHPWord】列表ListItem
  2. 电脑重装系统文件会丢失吗_电脑黑屏,利用重装系统软件,把黑屏电脑里的文件拷出来...
  3. Select的OnChange()事件
  4. 51nod 3 * problem
  5. EasyMock 使用方法与原理剖析--转载
  6. esp32 micropython web服务器_ESP32 Arduino教程:Websocket server(服务器)
  7. 【Android】launcher启动参数
  8. 136.Single Number
  9. 免费的音视频格式转换网站-ncm, qmc, mflac, mgg转mp3
  10. 对vue的 v-for 循环中添加属性的方法的研究
  11. phpword模板替换并插入表格
  12. 现代网页的灵魂 —— JavaScript
  13. 消息队列及短信发送平台
  14. Android开发工具类 Utils
  15. 项羽ol网站服务器,《项羽OL》今日开服 全新新服务器“巨鹿之战”开启
  16. ramdump,QPST
  17. 「工作流Activiti」介绍-新手上路,注意安全 - 第320篇
  18. 10-webrtc实现1V1音视频实时互动直播系统
  19. ENVI经验|基于多源遥感影像的红树林范围提取3-监督分类
  20. [网络安全自学篇] 二十二.Web渗透之网站信息、域名信息、端口信息、敏感信息及指纹信息收集

热门文章

  1. 如何用Python操作Excel自动化办公?一个案例教会你openpyxl——图表设计和透视表
  2. c语言数字黑洞123问题,求助:数字黑洞效率问题
  3. 全面领跑中国DevOps云服务市场,为什么是华为云?
  4. Docker进阶篇超详细版(https://www.bilibili.com/video/BV1kv411q7Qc)
  5. 【STM32H7的DSP教程】第16章 DSP功能函数-数据拷贝,数据填充和浮点转定点
  6. excel打印时显示服务器脱机怎么办,excle正在访问打印机!连接局域网打印机在excel中预览,excel自动就关闭是怎么回事...
  7. C++ 有理数运算符重载
  8. 【地理中国】百年地理大发现(全8集)内容笔记记录
  9. HLOJ486 种花小游戏
  10. Windows小技巧:巧用CMD命令设置定时关机