指数分布族（The Exponential Family)与广义线性回归（Generalized Linear Model GLM）

项目github地址：bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star，留言，一起学习进步

在各种算法相关的paper中，经常看到指数分布族这个概念。博主作为一个好奇心很强喜欢打破砂锅问到底的人，看到一个东西老在眼前晃来晃去却又似懂非懂，心里非常难受，于是想好好了解一下这个指数分布族到底是个什么鬼。。。

1.指数分布族的概念

指数分布族是指可以表示为指数形式的概率分布。wiki上的定义如下：
A single-parameter exponential family is a set of probability distributions whose probability density function (or probability mass function, for the case of a discrete distribution) can be expressed in the form
fX(x∣θ)=h(x)exp⁡(η(θ)⋅T(x)−A(θ))f_X(x\mid\theta) = h(x) \exp \left (\eta(\theta) \cdot T(x) -A(\theta)\right )fX(x∣θ)=h(x)exp(η(θ)⋅T(x)−A(θ))

其中，η\etaη为自然参数(nature parameter)，T(x)T(x)T(x)是充分统计量（sufficient statistic）。当参数A，h，T都固定以后，就定义了一个以η\etaη为参数的函数族。

2.其他常见分布于指数分布族的关系

2.1 伯努利分布

伯努利分布是对0，1分布的问题进行建模。对于Bernouli(φ),y∈{0,1}Bernouli(\varphi),y\in\{0,1\}Bernouli(φ),y∈{0,1}，其概率密度函数如下：
{p(y=1;φ)=φp(y=1;φ)=φ\begin{cases} p(y=1;\varphi) = \varphi \\ p(y=1;\varphi) = \varphi \end{cases} {p(y=1;φ)=φp(y=1;φ)=φ

将其华为指数分布族的形式：
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ P(y,\varphi) &…

将上面转化以后的表达式与指数分布族对比，可以看出：
h(y)=1h(y) = 1h(y)=1 T(y)=yT(y) = yT(y)=y η=logφ1−φ\eta=log\frac{\varphi}{1-\varphi}η=log1−φφ φ=11+e−η\varphi=\frac{1}{1+e^{-\eta}}φ=1+e−η1 A(η)=−log(1−φ)A(\eta)=-log(1-\varphi)A(η)=−log(1−φ)

由此可见，伯努利分布也是指数分布族的一种。细心的小伙伴发现了，θ\thetaθ的形式与logistic函数的形式一致。（logistic函数的详解请参考 http://blog.csdn.net/bitcarmanlee/article/details/51154481）。这是因为 logistic模型对问题的前置概率估计其实就是伯努利分布。（貌似没有特别理解，以后再来慢慢琢磨）

2.2高斯分布（正态分布）

关于高斯分布的来龙去脉，足足可以写厚厚一本书。后面有时间回来详细整理高斯分布的相关资料。
关于高斯分布的详细推导过程如下（为了方便起见，将方差σ\sigmaσ设为1）：
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ N(\mu,1) & = \…

将其与指数分布族对比，可知:
h(y)=12πexp(−12y2)h(y) = \frac{1}{\sqrt{2\pi}} exp\left(-\frac{1}{2}y^2\right)h(y)=2π1exp(−21y2) T(y)=yT(y) = yT(y)=y η=μ\eta = \muη=μ A(η)=12μ2A(\eta) = \frac{1}{2}\mu ^2A(η)=21μ2

伯努利分布与高斯分布是两个典型的指数分布族

3.广义线性模型（Generalized Linear Model GLM）

通过上面两个例子我们可以看出，在伯努利的指数分布族形式中，θ\thetaθ 与伯努利分布中的参数φ\varphiφ是一个logistic函数。而在高斯分布的指数分布族形式中，θ\thetaθ是与μ\muμ相等的一个表达式（前提是我们假设了σ=1\sigma=1σ=1）。通过以上的例子，θ\thetaθ以不同的映射函数与其它概率分布函数中的参数发生联系，从而得到不同的模型，广义线性模型正是将指数分布族中的所有成员（每个成员正好有一个这样的联系）都作为线性模型的扩展，通过各种非线性的连接函数将线性函数映射到其他空间，从而大大扩大了线性模型可解决的问题。

下面我们看 GLM 的形式化定义，GLM 有三个假设：

(1) y∣x;θExponentialFamily(θ)y|x;θ ExponentialFamily(\theta)y∣x;θExponentialFamily(θ) 给定样本xxx与参数θ\thetaθ，样本分类yyy 服从指数分布族中的某个分布；
(2) 给定一个xxx，我们需要的目标函数为h(θ(x))=E[T(y)∣x]h(\theta(x))=E[T(y)|x]h(θ(x))=E[T(y)∣x];
(3)η=θTx\eta=\theta^Txη=θTx。

根据伯努利分布推导logistic模型的过程如下：
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ h_\theta(x) & …

总之，广义线性模型通过拟合响应变量的条件均值的一个函数（不是响应变量的条件均值），并假设响应变量服从指数分布族中的某个分布（不限于正态分布），从而极大地扩展了标准线性模型。模型参数估计的推导依据是极大似然估计，而非最小二乘法。

本博文主要参考了以下内容，感谢大牛们的无私分享：
http://www.aliog.com/83492.html