指数族分布（2）：矩母函数、累积量生成函数

指数族分布（2）

指数族分布（1）：
[https://blog.csdn.net/RSstudent/article/details/127465224?spm=1001.2014.3001.5501]

典型形式指数族分布在矩、累积量的计算方面存在方便之处，包括期望、方差。

定义：令T∈RsT\in \mathbb{R}^sT∈Rs，Moment generating function（MGF） of TTT定义为
MT(u)=E[euT]M_T(u)=E[e^{uT}] MT(u)=E[euT]
累计生成函数CGF：
KT(u)=logMT(u)K_T(u)=logM_T(u) KT(u)=logMT(u)
引理:

如果MGFMX(u)M_X(u)MX(u)和MY(u)M_Y(u)MY(u)对于随机向量XXX和YYY有限 ,且一致在某个非空集合的内点uuu，则PX=PYP_X=P_YPX=PY

T1,⋯,TsT_1, \cdots,T_sT1,⋯,Ts的幂次的期望称为TTT的矩
αr1,r2,⋯,rs=E[T1r1×T2r2×⋯×Tsrs]\alpha_{r_1,r_2, \cdots,r_s}=E[T_1^{r_1}\times T_2^{r_2}\times\cdots\times T_s^{r_s}] αr1,r2,⋯,rs=E[T1r1×T2r2×⋯×Tsrs]
通过在u=0u=0u=0点求取MGF的导数，可以获得这些矩。

定理1

若MTM_TMT在远点的某个邻域内有限，且在原点具有个各阶连续导数
αr1,r2,⋯,rs=∂r1∂u1r1⋯∂rs∂usrsMT(u)∣u=0\alpha_{r_1,r_2, \cdots,r_s}=\frac{\partial^{r_1}}{\partial u_1^{r_1}}\cdots\frac{\partial^{r_s}}{\partial u_s^{r_s}}M_T(u)|_{u=0} αr1,r2,⋯,rs=∂u1r1∂r1⋯∂usrs∂rsMT(u)∣u=0
这是矩，相应的KT(u)K_T(u)KT(u)的导数称为累积量
κr1,r2,⋯,rs=∂r1∂u1r1⋯∂rs∂usrsKT(u)∣u=0\kappa_{r_1,r_2, \cdots,r_s}=\frac{\partial^{r_1}}{\partial u_1^{r_1}}\cdots\frac{\partial^{r_s}}{\partial u_s^{r_s}}K_T(u)|_{u=0} κr1,r2,⋯,rs=∂u1r1∂r1⋯∂usrs∂rsKT(u)∣u=0
当s=1s=1s=1的时候，KT′=(logMT)′=MT′MTK_T^{'}=(logM_T)'=\frac{M_T'}{M_T}KT′=(logMT)′=MTMT′,以及KT′′=MT′′MT−MT′2MT2K_T''=\frac{M_T''M_T-M_T'^2}{M_T^2}KT′′=MT2MT′′MT−MT′2

可以发现，取导数在u=0u=0u=0，就
MT′=E[TeuT]M_T^{'}=E[Te^{uT}] MT′=E[TeuT]

MT′=E[euT]M_T'=E[e^{uT}] MT′=E[euT]

κ1=KT′∣u=0=E[T]E[1]=E[T]\kappa_1=K_T'|_{u=0}=\frac{E[T]}{E[1]}=E[T] κ1=KT′∣u=0=E[1]E[T]=E[T]

MT′′=E[T2euT]M_T''=E[T^2e^{uT}] MT′′=E[T2euT]

κ2=E[T2]−E[T]2=Var(T)\kappa_2=E[T^2]-E[T]^2=Var(T) κ2=E[T2]−E[T]2=Var(T)

定理2

设XXX和YYY是独立随机变量。若XXX和YYY均为正的，或者E∣X∣E|X|E∣X∣和E∣Y∣E|Y|E∣Y∣有限（Fubini定理条件），则
E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=E[X]E[Y]
利用上述定理，可以将上面的结论拓展到nnn个随机向量的和的情况。

设T=Y1,⋯,YnT=Y_1, \cdots, Y_nT=Y1,⋯,Yn，且Yi∈RsY_i\in\mathbb{R}^sYi∈Rs的独立变量。由于
MT(u)=E[eu1Y1×⋯×eunYn]M_T(u)=E[e^{u_1Y_1}\times\cdots\times e^{u_nY_n}] MT(u)=E[eu1Y1×⋯×eunYn]
利用定理2，
(12)=MY1(u)×⋯×MYn(u)(12)=M_{Y_1}(u)\times\cdots\times M_{Y_n}(u) (12)=MY1(u)×⋯×MYn(u)
考虑累积量生成函数，取对数
KT(u)=KY1(u)+⋯+KYn(u)K_T(u)=K_{Y_1}(u)+\cdots+K_{Y_n}(u) KT(u)=KY1(u)+⋯+KYn(u)
因此，TTT的累积量就等于相应的Y1,⋯,YnY_1,\cdots,Y_nY1,⋯,Yn的累积量之和。

考察典型形式指数族分布的矩母函数MGF，
EηeuT(X)=∫xeuT(x)eηT(x)−A(η)h(x)dμ(x)=eA(u+η)−A(η)∫xe(u+η)T(x)−A(u+η)h(x)dμ(x)\begin{aligned} E_\eta e^{uT(X)}&=\int_x e^{uT(x)}e^{\eta T(x)-A(\eta)}h(x)d\mu(x)\\ &=e^{A(u+\eta)-A(\eta)}\int_xe^{(u+\eta)T(x)-A(u+\eta)}h(x)d\mu(x)\\ \end{aligned} EηeuT(X)=∫xeuT(x)eηT(x)−A(η)h(x)dμ(x)=eA(u+η)−A(η)∫xe(u+η)T(x)−A(u+η)h(x)dμ(x)
发现后面凑成了一个典型形式指数族分布，积分为1.因此，典型形式指数族分布的矩母函数的表达式为
eA(u+η)−A(η)e^{A(u+\eta)-A(\eta)} eA(u+η)−A(η)
对应的累积量生成函数为
A(u+η)−A(η)A(u+\eta)-A(\eta) A(u+η)−A(η)
利用定理1，对uuu求导并使之等于0：
∂(A(u+η)−A(η))∂u∣u=0=∂A(u+η)∂(u+η)∣u=0=∂A(η)∂(η)\begin{aligned} \frac{\partial (A(u+\eta)-A(\eta))}{\partial u}|_{u=0} = \frac{\partial A(u+\eta)}{\partial (u+\eta)}|_{u=0}=\frac{\partial A(\eta)}{\partial (\eta)} \end{aligned} ∂u∂(A(u+η)−A(η))∣u=0=∂(u+η)∂A(u+η)∣u=0=∂(η)∂A(η)
依此类推，
κr1,r2,⋯,rs=∂r1∂η1r1⋯∂rs∂ηsrsKT(η)\kappa_{r_1,r_2, \cdots,r_s}=\frac{\partial^{r_1}}{\partial \eta_1^{r_1}}\cdots\frac{\partial^{r_s}}{\partial \eta_s^{r_s}}K_T(\eta) κr1,r2,⋯,rs=∂η1r1∂r1⋯∂ηsrs∂rsKT(η)

对于指数族分布来说，考虑当s=1s=1s=1的时候。由累积量生成函数和矩母函数之家牛的关系，M=eKM=e^KM=eK，进而
M′=K′eKM′′=K′′eK+(K′)2eKM'=K'e^K\ M''=K''e^K+(K')^2e^K M′=K′eK M′′=K′′eK+(K′)2eK
在0处取值，则E[T]=k1,E[T2]=k2+k12E[T]=k_1,E[T^2]=k_2+k_1^2E[T]=k1,E[T2]=k2+k12

指数族分布（2）：矩母函数、累积量生成函数相关推荐

一文了解什么是指数族分布
前言指数分布族是一系列分布的统称,包含连续和离散的相关分布.例如,正态分布(Gaussian).泊松分布(Poisson).二项分布(Bernoulli).指数分布(exponential).Gam ...
kl散度度量分布_概率图简要模型笔记（二）马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...
这一篇文章主要是想捋一捋KL散度.最大熵.指数族分布这些东西之间的关系,这是一些非常基本的知识点,刚入门机器学习的时候,傻傻分不清楚,现在回过头来看,其实很多东西都可以串起来,不得不感叹数学真是一个很 ...
白板机器学习笔记 P39-P45 指数族分布
视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=39 笔记地址:https://www.yuque.com/books/share/f4031f6 ...
exponential family distribution（指数族分布）
1. exponential family 给定参数 η\boldsymbol \eta,关于 x\mathbf x 的指数族分布定义为如下的形式: p(x∣∣η)=h(x)g(η)exp{ηTu(x ...
PRML(3)--Chapter2(上)-概率分布-二元变量、多项式变量、高斯分布、指数族分布
PRML第二章上-概率估计 2.1二元变量 2.1.1 beta 分布 2.2 多项式变量 2.3 高斯分布 2.3.1条件高斯分布.2.3.2边缘高斯分布 2.3.3 高斯变量的贝叶斯定理 2.3. ...
机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系
机器学习笔记之指数族分布--最大熵原理与softmax激活函数的关系引言符号定义基于多维数据集合的经验概率分布回顾:经验概率分布多维数据的经验概率分布 Softmax\mathcal Sof ...
机器学习-白板推导-系列（八）笔记：指数族分布/充分统计量/对数配分函数/最大熵
文章目录 0 笔记说明 1 背景 1.1 指数族分布的一般形式 1.2 共轭先验 2 高斯分布的指数族形式 3 对数配分函数与充分统计量 4 极大似然估计与充分统计量 5 熵 5.1 最大熵⇔x服从均 ...
指数族分布(2)——对数配分函数和MLE与充分统计量
一.对数配分函数与充分统计量二.最大似然估计与充分统计量
gamma分布 pytorch_Probability distributions - torch.distributions
概率分布 - torch.distributions distributions 包含可参数化的概率分布和采样函数. 这允许构造用于优化的随机计算图和随机梯度估计器. 这个包一般遵循 TensorFl ...
Gumbel-Softmax Trick和Gumbel分布附VAE讲解
转自https://www.cnblogs.com/initial-h/p/9468974.html 写的非常好,思路清晰,顺带连VAE trick也讲了之前看MADDPG论文的时候,作者提到在离散 ...

指数族分布（2）：矩母函数、累积量生成函数

指数族分布（2）

定理1

定理2

指数族分布（2）：矩母函数、累积量生成函数相关推荐

最新文章

热门文章