概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。

离散概率分布也称为概率质量函数(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)、泊松分布(Poisson distribution)和几何分布(geometric distribution)等。

连续概率分布也称为概率密度函数(probability density function),它们是具有连续取值(例如一条实线上的值)的函数。正态分布(normal distribution)、指数分布(exponential distribution)和β分布(beta distribution)等都属于连续概率分布。

1、两点分布(伯努利分布)

伯努利试验:

伯努利试验是在同样的条件下重复地、各次之间相互独立地进行的一种试验。

即只先进行一次伯努利试验,该事件发生的概率为p,不发生的概率为1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象都服从0-1分布。

最常见的例子为抛硬币

其中,

期望E = p

方差D = p*(1-p)^2+(1-p)*(0-p)^2 = p*(1-p)

2、二项分布(n重伯努利分布)(X~B(n,p))

即做n个两点分布的实验

其中,

E = np

D = np(1-p)

二项分布的应用场景主要是,对于已知次数n,关心发生k次成功。

,即为二项分布公式可求。

对于抛硬币的问题,做100次实验,观察其概率分布函数:

# -*- coding: utf-8 -*-

from scipy.stats import binom

import matplotlib as mpl

import matplotlib.pyplot as plt

import numpy as np

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei']

mpl.rcParams['axes.unicode_minus'] = False

fig,ax = plt.subplots(1,1)

n = 100

p = 0.5

#平均值, 方差, 偏度, 峰度

mean,var,skew,kurt = binom.stats(n,p,moments='mvsk')

print (mean,var,skew,kurt)

#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.arange(binom.ppf(0.01, n, p),binom.ppf(0.99, n, p))

ax.plot(x, binom.pmf(x, n, p),'o')

plt.title(u'二项分布概率质量函数')

plt.show()

首先导入库函数以及设置对中文的支持

观察概率分布图,可以看到,对于n = 100次实验中,有50次成功的概率(正面向上)的概率最大。

3、几何分布(X ~ GE(p))

在n次伯努利实验中,第k次实验才得到第一次成功的概率分布。其中:P(k) = (1-p)^(k-1)*p

E = 1/p  推到方法就是利用利用错位相减法然后求lim - k ->无穷

D = (1-p)/p^2  推到方法利用了D(x) = E(x)^2-E(x^2),其中E(x^2)求解同上

# -*- coding: utf-8 -*-

from scipy.stats import geom

import matplotlib as mpl

import matplotlib.pyplot as plt

import numpy as np

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei']

mpl.rcParams['axes.unicode_minus'] = False

fig,ax = plt.subplots(1,1)

p = 0.5

#平均值, 方差, 偏度, 峰度

mean,var,skew,kurt = geom.stats(p,moments='mvsk')

print (mean,var,skew,kurt)

#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.arange(geom.ppf(0.01, p),geom.ppf(0.99, p))

ax.plot(x, geom.pmf(x, p),'o')

plt.title(u'几何分布概率质量函数')

plt.show()

因此,可以看到,对于抛硬币问题,抛个两三次就能成功。

4、泊松分布(X~P(λ))

描述单位时间/面积内,随机事件发生的次数。P(x = k) = λ^k/k!*e^(-λ)   k = 0,1,2, ...    λ >0

泊松分布可作为二项分布的极限而得到。一般的说,若

 ,其中n很大,p很小,因而

 不太大时,X的分布接近于泊松分布

 。

λ:单位时间/面积下,随机事件的平均发生率

E = λ

D = λ

譬如:某一服务设施一定时间内到达的人数、一个月内机器损坏的次数等。

假设某地区,一年中发生枪击案的平均次数为2。

# -*- coding: utf-8 -*-

from scipy.stats import poisson

import matplotlib as mpl

import matplotlib.pyplot as plt

import numpy as np

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei']

mpl.rcParams['axes.unicode_minus'] = False

fig,ax = plt.subplots(1,1)

mu = 2

#平均值, 方差, 偏度, 峰度

mean,var,skew,kurt = poisson.stats(mu,moments='mvsk')

print (mean,var,skew,kurt)

#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.arange(poisson.ppf(0.01, mu),poisson.ppf(0.99, mu))

ax.plot(x, poisson.pmf(x, mu),'o')

plt.title(u'poisson分布概率质量函数')

plt.show()

因此,一年内的枪击案发生次数的分布如上所示。

与二项分布对比:

# -*- coding: utf-8 -*-

from scipy.stats import binom

from scipy.stats import poisson

import matplotlib as mpl

import matplotlib.pyplot as plt

import numpy as np

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei']

mpl.rcParams['axes.unicode_minus'] = False

fig,ax = plt.subplots(1,1)

n = 100

p = 0.1

#平均值, 方差, 偏度, 峰度

mean,var,skew,kurt = binom.stats(n,p,moments='mvsk')

print (mean,var,skew,kurt)

#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.arange(binom.ppf(0.01, n, p),binom.ppf(0.99, n, p))

p1, = ax.plot(x, binom.pmf(x, n, p),'b*',label = 'binom')

mu = n * p

# 平均值, 方差, 偏度, 峰度

mean, var, skew, kurt = poisson.stats(mu, moments='mvsk')

print (mean,var,skew,kurt)

# ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.arange(poisson.ppf(0.01, mu), poisson.ppf(0.99, mu))

p2, = ax.plot(x, poisson.pmf(x, mu), 'ro', label='poisson')

plt.legend(handles=[p1, p2])

plt.title(u'对比')

plt.show()

5、均匀分布(X~U(a,b))

对于随机变量x的概率密度函数:

则称随机变量X服从区间[a,b]上的均匀分布。

E = 0.5(a+b)

D = (b-a)^2 / 12

均匀分布在自然情况下极为罕见,而人工栽培的有一定株行距的植物群落即是均匀分布。这表明X落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关,因此X落在[a,b]的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性。

落在某一点的概率都是相同的

若[x1,x2]是[a,b]的任一子区间,则

P{x1≤x≤x2}=(x2-x1)/(b-a)

这表明X落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关。

# -*- coding: utf-8 -*-

from scipy.stats import uniform

import matplotlib as mpl

import matplotlib.pyplot as plt

import numpy as np

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei']

mpl.rcParams['axes.unicode_minus'] = False

fig, ax = plt.subplots(1, 1)

loc = 1

scale = 1

# 平均值, 方差, 偏度, 峰度

mean, var, skew, kurt = uniform.stats(loc, scale, moments='mvsk')

print (mean,var,skew,kurt)

# ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.linspace(uniform.ppf(0.01, loc, scale), uniform.ppf(0.99, loc, scale), 100)

ax.plot(x, uniform.pdf(x, loc, scale), 'b-', label='uniform')

plt.title(u'均匀分布概率密度函数')

plt.show()

6、指数分布X~ E(λ)

 E = 1/λ

D = 1/λ^2

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

fig,ax= plt.subplots(1,1)

lambdaUse= 2

loc= 0

scale= 1.0/lambdaUse

#平均值, 方差, 偏度, 峰度

mean,var,skew,kurt= expon.stats(loc,scale,moments='mvsk')

print mean,var,skew,kurt

#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x= np.linspace(expon.ppf(0.01,loc,scale),expon.ppf(0.99,loc,scale),100)

ax.plot(x, expon.pdf(x,loc,scale),'b-',label= 'expon')

plt.title(u'指数分布概率密度函数')

plt.show()

指数分布通常用来表示随机事件发生的时间间隔,其中lambda和poisson分布的是一个概念(我认为),不知道为什么知乎上:https://www.zhihu.com/question/24796044,他们为啥说这俩不一样呢?我觉得这两种分布的期望肯定不一样啊,一个描述发生次数,一个描述两次的时间间隔,互为倒数也是应该的啊。

指数分布常用来表示旅客进机场的时间间隔、电子产品的寿命分布(需要高稳定的产品,现实中要考虑老化的问题)

指数分布的特性:无记忆性

比如灯泡的使用寿命服从指数分布,无论他已经使用多长一段时间,假设为s,只要还没有损坏,它能再使用一段时间t 的概率与一件新产品使用时间t 的概率一样。

这个证明过程简单表示:

P(s+t| s) = P(s+t , s)/P(s) = F(s+t)/F(s)=P(t)

7、正态分布(X~N(μ,σ^2))

E = μ

D = σ^2

正态分布是比较常见的,譬如学生考试成绩的人数分布等

fig,ax = plt.subplots(1,1)

loc = 1

scale = 2.0

#平均值, 方差, 偏度, 峰度

mean,var,skew,kurt = norm.stats(loc,scale,moments='mvsk')

print mean,var,skew,kurt

#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X

x = np.linspace(norm.ppf(0.01,loc,scale),norm.ppf(0.99,loc,scale),100)

ax.plot(x, norm.pdf(x,loc,scale),'b-',label = 'norm')

plt.title(u'正太分布概率密度函数')

plt.show()

补充:

大数定理:

随着样本的增加,样本的平均数将接近于总体的平均数,故推断中,一般会使用样本平均数估计总体平均数。

大数定律讲的是样本均值收敛到总体均值

中心极限定理:

独立同分布的事件,具有相同的期望和方差,则事件服从中心极限定理。他表示了对于抽取样本,n足够大的时候,样本分布符合x~N(μ,σ^2)

中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布

来源:oschina

链接:https://my.oschina.net/u/2245781/blog/1853847

scipy 概率 泊松分布_概率论中常见分布总结以及python的scipy库使用相关推荐

  1. scipy 概率 泊松分布_概率论中常见分布总结以及python的scipy库使用:两点分布、二项分布、几何分布、泊松分布、均匀分布、指数分布、正态分布......

    概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布. 离散概率分布也称为概率质量函数(probability mass function).离散概率分布的例子有 ...

  2. python概率论_概率论中常见分布总结以及python的scipy库使用

    概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布. 离散概率分布也称为概率质量函数(probability mass function).离散概率分布的例子有 ...

  3. 概率论中常见分布总结以及python的scipy库使用:两点分布、二项分布、几何分布、泊松分布、均匀分布、指数分布、正态分布...

    概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布. 离散概率分布也称为概率质量函数(probability mass function).离散概率分布的例子有 ...

  4. 机器学习中用到的概率知识_机器学习中有关概率论知识的小结

    一.引言 最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学 ...

  5. python 绘制分布直方图_统计学中常见的4种抽样分布及其分布曲线(Python绘制)...

    现代统计学奠基人之一.英国统计学家费希尔(Fisher)曾把抽样分布.参书估计和假设检验看作统计推断的三大中心内容. 统计学中,需要研究统计量的性质,并评价一个统计推断的优良性,而这些取决于其抽样分布 ...

  6. 概率统计(三)常见分布与假设检验

    常见分布与假设检验 一.一般随机变量 二.常见分布 1.离散型分布 (1)二项分布 (2)泊松分布 (3)几何分布 (4)负二项分布 (5)超几何分布 2.连续型分布 (1)均匀分布 (2)正态分布 ...

  7. 分段函数的期望和方差_概率论中数学期望什么时候不存在?

    很多考生对数学的复习不是有很清晰的认识,其实现在可以真正的开始了第一轮的复习.在第一轮的复习中有以下四大框架可以推荐给广大考生. 1. 注意基本概念.基本方法和基本定理的复习掌握 结合考研辅导书和大纲 ...

  8. java api集合,javaAPI_集合基础_集合中常见操作示例

    集合中常见的操作 1.list集合去重 //使用HashSet去重 public static List removeDuplicate(List list) { HashSet h = new Ha ...

  9. 概率论在实际生活的例子_概率论中几个有趣的例子

    转载]概率论中几个有趣的例子 [ 2007-6-3 13:06:00 | By: Byron ] 推荐 作者: ni1985 (妮子||从东方席地卷来一团野火), 原发新水木Mathematics 已 ...

  10. 最简单的python语言程序设计_编程中最简单的语言Python,这样学或许更容易

    最近微信小程序上面出了一个跳一跳的小游戏 大家有没有玩呀? 编程中最简单的语言Python,这样学或许更容易 分享之前我还是要推荐下我自己建的Python开发学习群:628979297,群里都是学Py ...

最新文章

  1. 并发编程之多线程篇之四
  2. Springboot 整合微信小程序实现登录与增删改查
  3. CodeForces - 468C Hack it!(构造+数位dp)
  4. java split函数报错
  5. android 数据库实例,android – 数据库全局实例
  6. 【渝粤题库】陕西师范大学201381 国际经济法作业
  7. LeetCode 295. 数据流的中位数(大小堆)
  8. 浅析Serverless
  9. 2021考研c语言编程题,2021c语言编程例题及答案.docx
  10. 怎么用计算机求浮动额,2015计算机一级考试MSOFFICE上机综合训练(5)
  11. JQuery插件,轻量级表单模型验证
  12. 博士一篇SCI三区即可入职该高校,配偶是硕士的,直接给事业编!还有45万安家费…...
  13. 破14亿,Python分析我国存在哪些人口危机!
  14. 斐讯路由器刷华硕固件后按复位键无反应,无法设置网络
  15. mini_sniffer抓包 音乐免费下载 网盘提速下载
  16. 在线抢购平台_项目预览
  17. 软件项目管理六要素分别是什么?
  18. 原创工具14Finger-全能web指纹识别与分享平台
  19. 一个简单的步骤让你的 Python 代码更干净
  20. 软件测试一般什么时候招聘人多,软件测试工程师能做到多少岁?

热门文章

  1. 孙思邈的养生哲学和孔子的阴阳和谐之道
  2. JSP页面中用绝对路径显示图片
  3. 变分法模型的运用:生产设备的最大经济效益
  4. STM32 CubeMX EWARM开发流程备忘录
  5. python中itertools模块zip_longest函数详解
  6. 技校计算机可以学平面设计吗,上技校可以学平面设计吗 去技校学平面设计还是自己在家自学好 - 兔课网...
  7. 3D游戏图形API简史
  8. “物联网开发实战”学习笔记-(三)通过感知光线开关电灯
  9. wifi虚拟服务器怎么设置方法,虚拟路由器如何设置
  10. Java将字符串中的中文数字转化成阿拉伯数字或阿拉伯数字转化成中文数字