Gumbel 分布

Gumbel分布是一种极值型分布, 其概率密度分布函数为
f(x;μ,β)=e−z−e−z,z=x−μβf(x;\mu,\beta)=e^{-z-e^{-z}}, z=\frac{x-\mu}{\beta}f(x;μ,β)=e−z−e−z,z=βx−μ,其中 μ\muμ 为位置系数（Gumbel分布的众数是 μ\muμ）; β\betaβ 为尺度系数 (Gumbel分布的方差为 π26β2\frac{\pi^2}{6}\beta^26π2β2)
标准Gumbel分布，μ=0\mu=0μ=0, β=1\beta=1β=1
概率密度分布函数为
f(x;μ,β)=e−x−e−xf(x;\mu,\beta)=e^{-x-e^{-x}}f(x;μ,β)=e−x−e−x
Python Gumbel概率密度函数代码

import numpy as np
import matplotlib.pyplot as plt
def gumbel_pdf(x, mu=0, beta=1):z = (x - mu) / betay = np.exp(-z - np.exp(-z))return y
######## 分布函数##############
def gumbel_cdf(x, mu=0, beta=1):z = (x - mu) / betay = np.exp(- np.exp(-z))return y
################################x = np.arange(-5., 20, 0.2)
plt.plot(x,gumbel_pdf(x, 0, 1),label= r'$\mu=0,\ \beta=1$')
plt.plot(x,gumbel_pdf(x, 1, 2),label= r'$\mu=1,\ \beta=2$')
plt.axis([-5, 20, 0, 0.4])
plt.ylim([0, 0.5])
plt.xlabel('$x$')
plt.ylabel('Probability')
plt.title('Standard Gumbel distribution probability density distribution curve')
plt.legend(loc='best')
plt.annotate(r'$f(x)=e^{-x-e^{-x}}$',xy=(0, 0.37), xytext=(4.5, 0.45),arrowprops=dict(facecolor='black', shrink=0.01,linewidth=0.01),fontsize=14)
plt.annotate(r'$f(x)=e^{-\frac{x-\mu}{\beta}-e^{-\frac{x-\mu}{\beta}}}$',xy=(4, 0.2), xytext=(8, 0.1),arrowprops=dict(facecolor='black', shrink=0.01,linewidth=0.01),fontsize=16)
plt.show()

图片展示

若随机变量 ξ\xiξ 服从标准Gumbel分布，则其期望为
E(ξ)=∫−∞+∞xe−x−e−xdx=−r\mathbb{E}(\xi)=\int_{-\infty}^{+\infty}xe^{-x-e^{-x}}dx=-rE(ξ)=∫−∞+∞xe−x−e−xdx=−r方差为D(ξ)=∫−∞+∞x2e−x−e−xdx=π26\mathbb{D}(\xi)=\int_{-\infty}^{+\infty}x^2e^{-x-e^{-x}}dx=\frac{\pi^2}{6}D(ξ)=∫−∞+∞x2e−x−e−xdx=6π2其中rrr 为 Euler 常数，r=0.577215r=0.577215r=0.577215
累积概率密度函数公式为
F(x;μ,β)=e−e−x−μβF(x;\mu,\beta)=e^{-e^{-\frac{x-\mu}{\beta}}}F(x;μ,β)=e−e−βx−μ

matlab 产生服从极值分布的相关函数

I类型极值分布（Gumbel分布）

若随机量 xxx 服从威布尔分布（Weibull distribution），那么 X=log(x)X = log(x)X=log(x) 服从I类型极值分布

evrnd() 生成极值分布随机数，默认生成服从极小值极值分布（即Gumbel分布）
语法

R = evrnd(mu, sigma)%产生位置参数为mu，尺度参数为sigma的随机数
R = evrnd(mu, sigma, m, n,...)
R = evrnd(mu, sigma, [m, n, ...])

evpdf(x, mu, sigma) 返回I类型位置参数为mu，尺度参数为sigma在x点处的极值分布的概率密度函数值

evcdf()用于表示极值累积分布函数

p = evcdf(x,mu,sigma)
[p, plo, pup] = evcdf(x, mu, sigma, pcov, alpha)
[p, plo, pup] = evcdf(x, mu,sigma, pcov, alpha, 'upper')

p = evcdf(x,mu,sigma)返回I类型位置参数为mu，尺度参数为sigma在x点处的极值分布的累积概率值
[p, plo, pup] = evcdf(x, mu, sigma, pcov, alpha)返回I类型位置参数为mu，尺度参数为sigma在x点处的极值分布的累积概率值的置信区间域，plo和pup分别为置信区间域的上界和下界
[p, plo, pup] = evcdf(x, mu,sigma, pcov, alpha, ‘upper’)使用一种更精确地计算上尾概率的算法返回I类型位置参数为mu，尺度参数为sigma在x点处的极值分布的累积概率值的置信区间域，plo和pup分别为置信区间域的上界和下界

evfit() 用于极值参数估计
语法

parmhat = evfit(data)
[parmhat,parmci] = evfit(data)
[parmhat,parmci] = evfit(data,alpha)
[...] = evfit(data,alpha,censoring)
[...] = evfit(data,alpha,censoring,freq)
[...] = evfit(data,alpha,censoring,freq,options)

parmhat = evfit(data)估计给定样本数据data的服从I类极值分布时的极大似然估计参数值。样本数据必须为双精度的向量，返回值为I类极值分布的位置参数mu与尺度参数sigma
[parmhat,parmci] = evfit(data) 估计给定样本数据data服从I类极值分布时的极大似然估计参数值，以及95%置信区间的估计值的置信区间。其中parmci代表估计参数值的位置参数mu与尺度参数sigma的区间，第一列为位置参数区间，第二列为尺度参数区间。如

[parmhat,parmci] = evfit([1,2,3,4,5,6,7,8])
parmhat =5.6400    2.0647
parmci =4.1251    1.20507.1549    3.5379

[parmhat,parmci] = evfit(data,alpha)功能同上，不同之处在于可以自行指定置信度。这里的alpha为区间[0,1]范围内的一个数用于制定执行区间的宽度。默认值为0.05.
[parmhat,parmci] = evfit(data,alpha,censoring)。此处censoring为同样本数据data同维度的布尔矢量，用于标注数据的删失情况。其中1代表数据值是右删失的，0代表数据值为精确观测值。如

[parmhat,parmci] = evfit([1,2,3,4,5,6,7,8],0.05,[1,0,1,0,1,0,1,0])
parmhat =7.0141    1.7707
parmci =5.2695    0.84358.7588    3.7173

[parmhat,parmci] = evfit(data,alpha,censoring,freq)接受一个频率向量。其中freq和样本数据具有相同的维度。通常，频率向量包含数据中相应元素的整数频率，但是频率向量中可为任何非负值。
[parmhat,parmci] = evfit(data,alpha,censoring,freq, option)可指定选项进行输出。option使用函数statset, 可在matlab控制台help statset

evinv() 用于计算已知概率值下的样本值

语法

X = evinv(P,mu,sigma)
[X,XLO,XUP] = evinv(P,mu,sigma,pcov,alpha)

evlike() 用于计算极值负对数似然值。 matlab help evlike

[M,V] = evstat(mu,sigma)返回位置参数为mu尺度参数为sigma的Gumbel分布的均值与方差。

广义极值分布

Gnedenko证明了标准化后的极值存在极限分布：Gumbel分布、Frechet分布、Weibull分布，分别称为第一型、第二型和第三型极值分布。Jekinson将这三种极值分布合为一个，提出了广义极值分布。若随机变量 XXX 服从广义极值分布，则其概率密度函数为
f(x)=1σ[1+ξ(x−μσ)](−1ξ−1)exp[1+ξ(x−μσ)]−1ξf(x)=\frac{1}{\sigma}[1+\xi(\frac{x-\mu}{\sigma})]^(-\frac{1}{\xi}-1)exp{[1+\xi(\frac{x-\mu}{\sigma})]^{-\frac{1}{\xi}}}f(x)=σ1[1+ξ(σx−μ)](−ξ1−1)exp[1+ξ(σx−μ)]−ξ1其中

1+ξ(x−μσ)>01+\xi(\frac{x-\mu}{\sigma})>01+ξ(σx−μ)>0
ξ\xiξ 表示形状参数决定了分布的尾部形状
−∞<μ<∞-\infty<\mu<\infty−∞<μ<∞ 为位置参数
σ>0\sigma>0σ>0是尺度参数。
当ξ>0\xi>0ξ>0 时，分布的尾部较长，趋向于Frechet分布；
当ξ=0\xi=0ξ=0 时，分布的尾部呈指数状，趋向于Gumbel分布；
当ξ<0\xi<0ξ<0 时，分布具有有限的上端点，趋向于Weibull分布；
其累积分布函数为
F(x)=exp{−[1+ξ(x−μσ)]−1ξ}F(x)=exp{\{-[1+\xi(\frac{x-\mu}{\sigma})]^{-\frac{1}{\xi}}\}}F(x)=exp{−[1+ξ(σx−μ)]−ξ1}
matlab相关操作同I类型极值分布前面加g

gevrnd() 生成广义极值分布随机数，生成服从极大值极值分布
语法

R = evrnd(k, mu, sigma)%产生形状参数为k，位置参数为mu，尺度参数为sigma的随机数
R = evrnd(k, mu, sigma, m, n,...)
R = evrnd(k, mu, sigma, [m, n, ...])

附录----数据介绍

完全数据(complete data)： 在研究过程中，如果能够明确的观察记录到每个研究对象的生存时间，或发生终点事件的具体时间，称这类数据为完全数据。其中生存时间是指从规定的观察起点到发生某一特定终点事件之间经历的时间跨度。
删失数据（Censoring data）: 如果在研究结束的时候，研究对象发生了研究之外的其他事件或生存结局，无法明确的观察记录到发生终点事件的生存时间，称这类数据为删失数据，或不完整数据
右删失（right censored） 指在进行随访观察中，研究对象观察的起始时间已知，但终点事件发生的时间未知，无法获取具体的生存时间，只知道生存时间大于观察时间，这种类型的生存时间称为右删失。右删失是实际研究中最常见的数据删失类型，根据观察结束时间的不同，可以分为：

参考文献

【1】樊利利，王艳永，2017. 广义极值分布的参数估计及实例分布，38(3), 13-17.
【2】Gnedenko B. Sur la distribution limite du terme d’ une serie aleatoire[J], Ann Math, 1943, 44: 423-453.
【3】Jenkinson A F. The frequency distribution of the annual maximum(or minimum) of meteorological elements[J]. The Quarterly Journal of the Royal Meteorological Society, 1955, 81: 158-197.

离散选择模型之Gumbel分布相关推荐

非期望产出的sbm模型_线性模型 vs. Logistic模型——离散选择模型之二
前言:为什么因变量是分类变量的时候,我们会选择Logistic模型.而非最常见的线性回归模型?或者,换个说法:线性回归模型的劣势是什么?Logistic模型的优势又是什么?--针对这些问题,本文为您详 ...
离散选择模型（DCM）和深度神经网络（DNN）结合
前言:这篇文章是深度学习和传统离散选择模型的融合. 机器学习在交通运输领域中越来越多地被应用,但 DCM(discrete choice model, 离散选择模型)和 DNN(deep neural ...
logit模型应用实例_最大似然估计（上）——离散选择模型之十
原创文章,如需转载请联系作者! 希望这篇文章能讲清楚什么是"最大似然估计". 通过前文的推理,我们已经得到了二项Probit和二项Logit的模型表达式.在二项Probit模型中, ...
logit回归模型_你们要的二项Logit模型在这里——离散选择模型之八
前言:本文主要介绍如何以效用最大化理论为基础,推导出二项 Logit(Binary Logit)模型. 本文为系列离散选择模型(Discrete Choice Model, DCM)系列文章的第8篇. ...
离散选择模型（Discrete Choice model）
目录 1. 什么是离散选择模型? 1.1 基本概念 1.2 效用 1.3 离散选择模型的类型 2. 线性概率模型 3. Probit模型 3.1 效用最大化准则 4. Logit模型 4.1 Gumb ...
二值logit模型的适用条件_你们要的二项Logit模型在这里——离散选择模型之八...
前言:本文主要介绍如何以效用最大化理论为基础,推导出二项 Logit(Binary Logit)模型. 本文为系列离散选择模型(Discrete Choice Model, DCM)系列文章的第8篇. ...
离散选择模型中的分散系数theta到底该放在哪里呢？
前言 \quad~~ 一直都在想为啥子离散选择模型中分散系数以分母形式出现而在路径选择公式中以系数形式出现呢?看着公式想了想,现在想出了一个似乎感觉应该差不多很合理的答案,希望与大家一起探讨. ...
效用最大化准则：离散选择模型的核心（二项Logit模型）——离散选择模型之九
效用最大化准则:离散选择模型的核心(二项Logit模型)--离散选择模型之九 (qq.com)
正确打开/解读Logit模型系数的方式——离散选择模型之四
正确打开/解读Logit模型系数的方式--离散选择模型之四 - 知乎 (zhihu.com)

离散选择模型之Gumbel分布

文章目录