离散选择模型之Gumbel分布
文章目录
- Gumbel 分布
- matlab 产生服从极值分布的相关函数
- I类型极值分布(Gumbel分布)
- 广义极值分布
- 附录----[数据介绍](https://www.sohu.com/a/303863350_489312)
- 参考文献
离散选择模型有用链接:https://eml.berkeley.edu/books/choice2.html
Gumbel 分布
Gumbel分布是一种极值型分布, 其概率密度分布函数为
f(x;μ,β)=e−z−e−z,z=x−μβf(x;\mu,\beta)=e^{-z-e^{-z}}, z=\frac{x-\mu}{\beta}f(x;μ,β)=e−z−e−z,z=βx−μ,其中 μ\muμ 为位置系数 (Gumbel分布的众数是 μ\muμ); β\betaβ 为尺度系数 (Gumbel分布的方差为 π26β2\frac{\pi^2}{6}\beta^26π2β2)
标准Gumbel分布,μ=0\mu=0μ=0, β=1\beta=1β=1
概率密度分布函数为
f(x;μ,β)=e−x−e−xf(x;\mu,\beta)=e^{-x-e^{-x}}f(x;μ,β)=e−x−e−x
Python Gumbel概率密度函数代码
import numpy as np
import matplotlib.pyplot as plt
def gumbel_pdf(x, mu=0, beta=1):z = (x - mu) / betay = np.exp(-z - np.exp(-z))return y
######## 分布函数##############
def gumbel_cdf(x, mu=0, beta=1):z = (x - mu) / betay = np.exp(- np.exp(-z))return y
################################x = np.arange(-5., 20, 0.2)
plt.plot(x,gumbel_pdf(x, 0, 1),label= r'$\mu=0,\ \beta=1$')
plt.plot(x,gumbel_pdf(x, 1, 2),label= r'$\mu=1,\ \beta=2$')
plt.axis([-5, 20, 0, 0.4])
plt.ylim([0, 0.5])
plt.xlabel('$x$')
plt.ylabel('Probability')
plt.title('Standard Gumbel distribution probability density distribution curve')
plt.legend(loc='best')
plt.annotate(r'$f(x)=e^{-x-e^{-x}}$',xy=(0, 0.37), xytext=(4.5, 0.45),arrowprops=dict(facecolor='black', shrink=0.01,linewidth=0.01),fontsize=14)
plt.annotate(r'$f(x)=e^{-\frac{x-\mu}{\beta}-e^{-\frac{x-\mu}{\beta}}}$',xy=(4, 0.2), xytext=(8, 0.1),arrowprops=dict(facecolor='black', shrink=0.01,linewidth=0.01),fontsize=16)
plt.show()
图片展示
若随机变量 ξ\xiξ 服从标准Gumbel分布,则其期望为
E(ξ)=∫−∞+∞xe−x−e−xdx=−r\mathbb{E}(\xi)=\int_{-\infty}^{+\infty}xe^{-x-e^{-x}}dx=-rE(ξ)=∫−∞+∞xe−x−e−xdx=−r方差为D(ξ)=∫−∞+∞x2e−x−e−xdx=π26\mathbb{D}(\xi)=\int_{-\infty}^{+\infty}x^2e^{-x-e^{-x}}dx=\frac{\pi^2}{6}D(ξ)=∫−∞+∞x2e−x−e−xdx=6π2其中rrr 为 Euler 常数,r=0.577215r=0.577215r=0.577215
累积概率密度函数公式为
F(x;μ,β)=e−e−x−μβF(x;\mu,\beta)=e^{-e^{-\frac{x-\mu}{\beta}}}F(x;μ,β)=e−e−βx−μ
matlab 产生服从极值分布的相关函数
I类型极值分布(Gumbel分布)
若随机量 xxx 服从威布尔分布(Weibull distribution),那么 X=log(x)X = log(x)X=log(x) 服从I类型极值分布
- evrnd() 生成极值分布随机数,默认生成服从极小值极值分布(即Gumbel分布)
语法
R = evrnd(mu, sigma)%产生位置参数为mu,尺度参数为sigma的随机数
R = evrnd(mu, sigma, m, n,...)
R = evrnd(mu, sigma, [m, n, ...])
- evpdf(x, mu, sigma) 返回
I类型
位置参数为mu,尺度参数为sigma在x点处的极值分布的概率密度函数值
- evcdf()用于表示极值累积分布函数
p = evcdf(x,mu,sigma)
[p, plo, pup] = evcdf(x, mu, sigma, pcov, alpha)
[p, plo, pup] = evcdf(x, mu,sigma, pcov, alpha, 'upper')
- p = evcdf(x,mu,sigma)返回
I类型
位置参数为mu,尺度参数为sigma在x点处的极值分布的累积概率值 - [p, plo, pup] = evcdf(x, mu, sigma, pcov, alpha)返回
I类型
位置参数为mu,尺度参数为sigma在x点处的极值分布的累积概率值的置信区间域,plo和pup分别为置信区间域的上界和下界 - [p, plo, pup] = evcdf(x, mu,sigma, pcov, alpha, ‘upper’)使用一种更精确地计算上尾概率的算法返回
I类型
位置参数为mu,尺度参数为sigma在x点处的极值分布的累积概率值的置信区间域,plo和pup分别为置信区间域的上界和下界
- evfit() 用于极值参数估计
语法
parmhat = evfit(data)
[parmhat,parmci] = evfit(data)
[parmhat,parmci] = evfit(data,alpha)
[...] = evfit(data,alpha,censoring)
[...] = evfit(data,alpha,censoring,freq)
[...] = evfit(data,alpha,censoring,freq,options)
- parmhat = evfit(data)估计给定样本数据data的服从I类极值分布时的极大似然估计参数值。样本数据必须为双精度的向量,返回值为I类极值分布的位置参数mu与尺度参数sigma
- [parmhat,parmci] = evfit(data) 估计给定样本数据data服从I类极值分布时的极大似然估计参数值,以及95%置信区间的估计值的置信区间。其中parmci代表估计参数值的位置参数mu与尺度参数sigma的区间,第一列为位置参数区间,第二列为尺度参数区间。如
[parmhat,parmci] = evfit([1,2,3,4,5,6,7,8])
parmhat =5.6400 2.0647
parmci =4.1251 1.20507.1549 3.5379
- [parmhat,parmci] = evfit(data,alpha)功能同上,不同之处在于可以自行指定置信度。这里的alpha为区间[0,1]范围内的一个数用于制定执行区间的宽度。默认值为0.05.
- [parmhat,parmci] = evfit(data,alpha,censoring)。此处censoring为同样本数据data同维度的布尔矢量,用于标注数据的删失情况。其中1代表数据值是右删失的,0代表数据值为精确观测值。如
[parmhat,parmci] = evfit([1,2,3,4,5,6,7,8],0.05,[1,0,1,0,1,0,1,0])
parmhat =7.0141 1.7707
parmci =5.2695 0.84358.7588 3.7173
- [parmhat,parmci] = evfit(data,alpha,censoring,freq)接受一个频率向量。其中freq和样本数据具有相同的维度。通常,频率向量包含数据中相应元素的整数频率,但是频率向量中可为任何非负值。
- [parmhat,parmci] = evfit(data,alpha,censoring,freq, option)可指定选项进行输出。option使用函数
statset
, 可在matlab控制台help statset
- evinv() 用于计算已知概率值下的样本值
语法
X = evinv(P,mu,sigma)
[X,XLO,XUP] = evinv(P,mu,sigma,pcov,alpha)
- evlike() 用于计算极值负对数似然值。 matlab help evlike
- [M,V] = evstat(mu,sigma)返回位置参数为mu尺度参数为sigma的Gumbel分布的均值与方差。
广义极值分布
Gnedenko证明了标准化后的极值存在极限分布:Gumbel分布、Frechet分布、Weibull分布,分别称为第一型、第二型和第三型极值分布。Jekinson将这三种极值分布合为一个,提出了广义极值分布。若随机变量 XXX 服从广义极值分布,则其概率密度函数为
f(x)=1σ[1+ξ(x−μσ)](−1ξ−1)exp[1+ξ(x−μσ)]−1ξf(x)=\frac{1}{\sigma}[1+\xi(\frac{x-\mu}{\sigma})]^(-\frac{1}{\xi}-1)exp{[1+\xi(\frac{x-\mu}{\sigma})]^{-\frac{1}{\xi}}}f(x)=σ1[1+ξ(σx−μ)](−ξ1−1)exp[1+ξ(σx−μ)]−ξ1其中
- 1+ξ(x−μσ)>01+\xi(\frac{x-\mu}{\sigma})>01+ξ(σx−μ)>0
- ξ\xiξ 表示形状参数决定了分布的尾部形状
- −∞<μ<∞-\infty<\mu<\infty−∞<μ<∞ 为位置参数
- σ>0\sigma>0σ>0是尺度参数。
当ξ>0\xi>0ξ>0 时,分布的尾部较长,趋向于Frechet分布;
当ξ=0\xi=0ξ=0 时,分布的尾部呈指数状,趋向于Gumbel分布;
当ξ<0\xi<0ξ<0 时,分布具有有限的上端点,趋向于Weibull分布;
其累积分布函数为
F(x)=exp{−[1+ξ(x−μσ)]−1ξ}F(x)=exp{\{-[1+\xi(\frac{x-\mu}{\sigma})]^{-\frac{1}{\xi}}\}}F(x)=exp{−[1+ξ(σx−μ)]−ξ1}
matlab相关操作同I类型极值分布前面加g
- gevrnd() 生成广义极值分布随机数,生成服从极大值极值分布
语法
R = evrnd(k, mu, sigma)%产生形状参数为k,位置参数为mu,尺度参数为sigma的随机数
R = evrnd(k, mu, sigma, m, n,...)
R = evrnd(k, mu, sigma, [m, n, ...])
附录----数据介绍
- I型删失
所有研究对象的观察起点时间是统一的,在研究随访的过程中,除了已经发生终点事件的研究对象外,其余研究对象的观察时间统一截止到某一固定的时间,这种删失类型即为I型删失。I型删失的删失时间是固定的,因此又称为定时删失。I型删失不允许个体在研究的过程中退出。 - II型删失
所有研究对象的观察起点时间是统一的,在研究的过程中,一直随访观察到有足够数量的终点结局事件发生为止,此时研究停止,未发生终点事件的研究对象的生存时间未知,这种删失类型即为II型删失。II型删失可以理解为删失比例是事先已经设定的。 - III型删失
在实际的研究过程中,往往不能保证所有研究对象在同一时间同时进入研究,在研究开始后,随着研究对象的陆续招募进入研究,不同研究对象的观察起始时间有先有后。同时,在研究结束前,有些研究对象已经发生终点事件,可以记录其准确的生存时间,但也有些研究对象中途退出研究,或者在研究结束时仍然未发生终点事件,他们的生存时间无法明确。
左删失(right censored): 假设研究对象在某一时刻开始进入研究接受观察,但是在该时间点之前,研究所感兴趣的时间点已经发生,但无法明确具体时间,这种类型即为左删失数据。
区间删失(right censored): 在实际的研究中,如果不能够进行连续的观察随访,只能预先设定观察时间点,研究人员仅能知道每个研究对象在两次随访区间内是否发生终点事件,而不知道准确的发生时间,这种删失类型称为区间删失。
参考文献
【1】樊利利,王艳永,2017. 广义极值分布的参数估计及实例分布,38(3), 13-17.
【2】Gnedenko B. Sur la distribution limite du terme d’ une serie aleatoire[J], Ann Math, 1943, 44: 423-453.
【3】Jenkinson A F. The frequency distribution of the annual maximum(or minimum) of meteorological elements[J]. The Quarterly Journal of the Royal Meteorological Society, 1955, 81: 158-197.
离散选择模型之Gumbel分布相关推荐
- 非期望产出的sbm模型_线性模型 vs. Logistic模型——离散选择模型之二
前言:为什么因变量是分类变量的时候,我们会选择Logistic模型.而非最常见的线性回归模型?或者,换个说法:线性回归模型的劣势是什么?Logistic模型的优势又是什么?--针对这些问题,本文为您详 ...
- 离散选择模型(DCM)和深度神经网络(DNN)结合
前言:这篇文章是深度学习和传统离散选择模型的融合. 机器学习在交通运输领域中越来越多地被应用,但 DCM(discrete choice model, 离散选择模型)和 DNN(deep neural ...
- logit模型应用实例_最大似然估计(上)——离散选择模型之十
原创文章,如需转载请联系作者! 希望这篇文章能讲清楚什么是"最大似然估计". 通过前文的推理,我们已经得到了二项Probit和二项Logit的模型表达式.在二项Probit模型中, ...
- logit回归模型_你们要的二项Logit模型在这里——离散选择模型之八
前言:本文主要介绍如何以效用最大化理论为基础,推导出二项 Logit(Binary Logit)模型. 本文为系列离散选择模型(Discrete Choice Model, DCM)系列文章的第8篇. ...
- 离散选择模型(Discrete Choice model)
目录 1. 什么是离散选择模型? 1.1 基本概念 1.2 效用 1.3 离散选择模型的类型 2. 线性概率模型 3. Probit模型 3.1 效用最大化准则 4. Logit模型 4.1 Gumb ...
- 二值logit模型的适用条件_你们要的二项Logit模型在这里——离散选择模型之八...
前言:本文主要介绍如何以效用最大化理论为基础,推导出二项 Logit(Binary Logit)模型. 本文为系列离散选择模型(Discrete Choice Model, DCM)系列文章的第8篇. ...
- 离散选择模型中的分散系数theta到底该放在哪里呢?
前言 \quad~~ 一直都在想为啥子离散选择模型中分散系数以分母形式出现而在路径选择公式中以系数形式出现呢?看着公式想了想,现在想出了一个似乎感觉应该差不多很合理的答案,希望与大家一起探讨. ...
- 效用最大化准则:离散选择模型的核心(二项Logit模型)——离散选择模型之九
效用最大化准则:离散选择模型的核心(二项Logit模型)--离散选择模型之九 (qq.com)
- 正确打开/解读Logit模型系数的方式——离散选择模型之四
正确打开/解读Logit模型系数的方式--离散选择模型之四 - 知乎 (zhihu.com)
最新文章
- vuecli 实战商城后台管理系统_前台商城系统及后台管理系统
- 前端vue框架的跨域处理方法
- osgi:install_OSGi服务测试助手:ServiceRegistrationRule
- 去除对象中的类型集合
- python需要配置环境变量吗_python安装和配置环境变量
- 关于推荐系统中的冷启动问题探讨(Approaching the Cold Start Problem in Recommender Systems)...
- 我才是嗨到最晚的男人
- HDU 5980 位运算 进制转换函数 DEV C++调试失败的原因
- python回溯算法全排列_从全排列看回溯算法
- 资产管理系统测试用例
- Activiti 任务的签收与委托
- 充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志
- Python——免费观看全网视频小程序
- android使用百度地图SDK 去掉百度Logo的小技巧
- 今天的学生要做汤饭吗
- C++描述 LeetCode 5677. 统计同构子字符串的数目
- 手把手教你对接阿里云短信服务
- 游戏抽奖界面html,基于JavaScript实现幸运抽奖页面
- 100+套Axure数据可视化大屏展示原型模板
- python 中的形参与实参
热门文章
- 【转】从程序员到项目经理--西西吹雪
- 沁恒MCU从EVT中提取文件建立MounRiver独立工程
- matlab存储excel数据,怎么把matlab表格数据写入excel-怎么把matlab中处理的数据存入到excel中...
- HTML横向二级导航
- 人行征信第三张报告的信息提取
- 编程求解问题。 若一头小母牛,从出生起第四个年头开始每年生一头小母牛,按此规律,第n年时有多少头小母牛
- 《弃子长安》第十五章 人断惊崖
- 昆明:推进智慧交通 缓解交通拥堵
- 鸿蒙系统电视家,华为智慧屏S系列下载哪个直播软件最好?分享用当贝市场下载直播软件方法...
- 汉语言处理工具pyhanlp的拼音转换与字符正则化