广义线性模型

1. 广义线性模型（Generalized Linear Model）
- 1.1 指数分布族
- 1.2 广义线性模型建模（三个假设）
2. 线性回归推导
- 2.1 Gaussian 分布的指数分布族形式
- 2.2 线性回归建模
3. 逻辑回归推导
- 3.1 Bernoulli分布的指数分布族形式
- 3.2 逻辑回归建模
4. Softmax回归（多分类）
- 4.1 多项式分布的指数分布族形式
- 4.2 softmax回归建模

1. 广义线性模型（Generalized Linear Model）

1.1 指数分布族

指数分布族具有如下形式
p(y∣η)=b(y)exp⁡(ηTT(y)−a(η)))p(y|\eta )=b(y)\exp(\eta ^T T(y)-a(\eta)))p(y∣η)=b(y)exp(ηTT(y)−a(η)))
其中：

ηT\eta ^TηT为自然参数
T(y)T(y)T(y)为充分统计量，通常T(y)=yT(y)=yT(y)=y
a(η)a(\eta)a(η)为对数分配函数，使得概率分布积分为1的条件得到满足。
a(η)=ln⁡(∫xb(y)exp⁡(ηTT(y)dx)a(\eta)=\ln(\int_x b(y)\exp(\eta^T T(y)\mathrm{d}x)a(η)=ln(∫xb(y)exp(ηTT(y)dx)

伯努利（Bernoulli）分布、多项式（Multinomial）分布、泊松（Poisson）分布、高斯（Gaussian）分布、gamma分布、β\betaβ分布等均属于指数分布族。

1.2 广义线性模型建模（三个假设）

y∣x;θ∼ExponentialFamily(η)y|x;\theta\sim ExponentialFamily(\eta)y∣x;θ∼ExponentialFamily(η)，及yyy的条件概率属于某个指数分布族。
hθ(x)=E[T(y)∣x]h_{\theta}(x)=E[T(y)|x]hθ(x)=E[T(y)∣x]，目标函数为充分统计量的条件期望。
η\etaη以不同的连接函数与其它概率分布函数中的参数发生联系，从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员（每个成员正好有一个这样的联系）都作为线性模型的扩展，通过各种非线性的连接函数将线性函数映射到其他空间，从而扩大了线性模型可解决的问题。
η=θTx\eta=\theta^T xη=θTx，由于是线性模型，自然参数=参数与xxx的线性组合。

2. 线性回归推导

2.1 Gaussian 分布的指数分布族形式

在线性回归中，σ\sigmaσ对于模型参数θ\thetaθ的选择没有影响，为了推导方便我们将其设为1：

p(y∣μ)=12πexp⁡(−12(y−μ)2)=12πexp⁡(−12y2)exp⁡(μy−12μ2)\begin{aligned} p(y|\mu)&=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2)\\ &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)\exp(\mu y-\frac{1}{2}\mu ^2) \end{aligned}p(y∣μ)=2π1exp(−21(y−μ)2)=2π1exp(−21y2)exp(μy−21μ2)

得到对应的参数
η=μT(y)=ya(η)=12μ2=12η2b(y)=12πexp⁡(−12y2)\eta =\mu\\ T(y)=y\\ a(\eta)=\frac{1}{2}\mu ^2=\frac{1}{2}\eta ^2\\ b(y)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)η=μT(y)=ya(η)=21μ2=21η2b(y)=2π1exp(−21y2)

2.2 线性回归建模

假设1：y∣x;θ∼N(μ,σ)y|x;\theta\sim N(\mu,\sigma)y∣x;θ∼N(μ,σ)
假设3：η=θTx\eta=\theta^T xη=θTx
假设2：
hθ(x)=E[T(y)∣x]=μ=η=θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\mu\\ &=\eta\\ &=\theta^T x \end{aligned}hθ(x)=E[T(y)∣x]=μ=η=θTx

3. 逻辑回归推导

3.1 Bernoulli分布的指数分布族形式

对于逻辑回归，有p(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕp(y=1;\phi)=\phi\\ p(y=0;\phi)=1-\phip(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕ
即p(y∣ϕ)=ϕy(1−ϕ)1−y=exp⁡(ylog⁡(ϕ)+(1−y)log⁡(1−ϕ))=exp⁡(ylog⁡(ϕ1−ϕ)+log⁡(1−ϕ))\begin{aligned} p(y|\phi)&=\phi^y (1-\phi)^{1-y}\\ &=\exp(y\log(\phi)+(1-y)\log(1-\phi))\\ &=\exp(y\log(\frac{\phi}{1-\phi})+\log(1-\phi)) \end{aligned}p(y∣ϕ)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ)+log(1−ϕ))
得到对应的参数
η=log⁡(ϕ1−ϕ)→ϕ=11+e−ηT(y)=yb(y)=1a(η)=−log⁡(1−ϕ)=log⁡(1+eη)\eta =\log(\frac{\phi}{1-\phi})\rightarrow \phi=\frac{1}{1+e^{-\eta}}\\ T(y)=y\\ b(y)=1\\ \begin{aligned} a(\eta)&=-\log(1-\phi)\\ &=\log(1+e^{\eta})\\ \end{aligned}η=log(1−ϕϕ)→ϕ=1+e−η1T(y)=yb(y)=1a(η)=−log(1−ϕ)=log(1+eη)

3.2 逻辑回归建模

假设1：y∣x;θ∼Bernoulli(ϕ)y|x;\theta\sim Bernoulli(\phi)y∣x;θ∼Bernoulli(ϕ)
假设3：η=θTx\eta=\theta^T xη=θTx
假设2：
hθ(x)=E[T(y)∣x]=ϕ=11+e−η=11+e−θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\phi\\ &=\frac{1}{1+e^{-\eta}}\\ &=\frac{1}{1+e^{-\theta^{T}x}} \end{aligned}hθ(x)=E[T(y)∣x]=ϕ=1+e−η1=1+e−θTx1

4. Softmax回归（多分类）

4.1 多项式分布的指数分布族形式

yyy可能有多个分类y∈{1,2,⋯,k}y\in \left \{ 1,2,\cdots,k \right \}y∈{1,2,⋯,k}，每种分类对应概率：ϕ1,ϕ2,⋯,ϕk\phi_1,\phi_2,\cdots ,\phi_kϕ1,ϕ2,⋯,ϕk，但是，由于∑i=1kϕi=1\sum_{i=1}^{k}\phi_i=1i=1∑kϕi=1, 所以一般用k−1k-1k−1个参数ϕ1,ϕ2,⋯,ϕk−1\phi_1,\phi_2,\cdots ,\phi_{k-1}ϕ1,ϕ2,⋯,ϕk−1，其中：ϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−∑i=1k−1ϕi\phi_i=p(y=i|\phi),p(y=k;\phi)=1-\sum_{i=1}^{k-1} \phi_iϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−i=1∑k−1ϕi
定义T(y)∈Rk−1T(y)\in R^{k-1}T(y)∈Rk−1，
T(1)=[100⋯0],T(2)=[010⋯0],⋯,T(k−1)=[000⋯1],T(k)=[000⋯0]T(1)=\begin{bmatrix}1\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}, T(2)=\begin{bmatrix}0\\ 1\\ 0\\ \cdots \\ 0\end{bmatrix}, \cdots , T(k-1)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 1\end{bmatrix}, T(k)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}T(1)=⎣⎢⎢⎢⎢⎡100⋯0⎦⎥⎥⎥⎥⎤,T(2)=⎣⎢⎢⎢⎢⎡010⋯0⎦⎥⎥⎥⎥⎤,⋯,T(k−1)=⎣⎢⎢⎢⎢⎡000⋯1⎦⎥⎥⎥⎥⎤,T(k)=⎣⎢⎢⎢⎢⎡000⋯0⎦⎥⎥⎥⎥⎤
引进函数{⋅}\left \{ \cdot \right \}{⋅}
{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi\left \{ True \right \}=1,\left \{ False \right \}=0\\ E[T(y)_i]=p(y=i)=\phi_i{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi
对应的概率分布为
p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp⁡(T(y)1log⁡(ϕ1)+T(y)2log⁡(ϕ2)+⋯+(1−∑i=1k−1T(y)i)log⁡(ϕk))=exp⁡(T(y)1log⁡(ϕ1ϕk)+T(y)2log⁡(ϕ2ϕk)+⋯+T(y)k−1log⁡(ϕk−1ϕk)+log⁡(ϕk))\begin{aligned} p(y;\phi)&=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{\left \{ y=k \right \}}\\ &=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{1-\sum_{i=1}^{k-1}\left \{ y=i \right \}}\\ &=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots \phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}\\ &=\exp(T(y)_1\log(\phi_1)+T(y)_2\log(\phi_2)+\cdots+(1-\sum_{i=1}^{k-1}T(y)_i)\log(\phi_k))\\ &=\exp(T(y)_1\log(\frac{\phi_1}{\phi_k})+T(y)_2\log(\frac{\phi_2}{\phi_k})+\cdots+T(y)_{k-1}\log(\frac{\phi_{k-1}}{\phi_k})+\log(\phi_k)) \end{aligned}p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp(T(y)1log(ϕ1)+T(y)2log(ϕ2)+⋯+(1−i=1∑k−1T(y)i)log(ϕk))=exp(T(y)1log(ϕkϕ1)+T(y)2log(ϕkϕ2)+⋯+T(y)k−1log(ϕkϕk−1)+log(ϕk))
对应的指数分布族参数为
b(y)=1a(η)=−log⁡(ϕk)η=[log⁡(ϕ1ϕk)log⁡(ϕ2ϕk)⋯log⁡(ϕk−1ϕk)]b(y)=1\\ a(\eta)=-\log(\phi_k)\\ \eta=\begin{bmatrix} \log(\frac{\phi_1}{\phi_k})\\ \log(\frac{\phi_2}{\phi_k})\\ \cdots\\ \log(\frac{\phi_{k-1}}{\phi_k}) \end{bmatrix}b(y)=1a(η)=−log(ϕk)η=⎣⎢⎢⎢⎡log(ϕkϕ1)log(ϕkϕ2)⋯log(ϕkϕk−1)⎦⎥⎥⎥⎤
即ηi=log⁡(ϕiϕk)ϕkeηi=ϕiϕk∑i=1keηi=∑i=1kϕi=1\eta_i=\log(\frac{\phi_i}{\phi_k})\\ \phi_k e^{\eta_i}=\phi_i\\ \phi_k\sum_{i=1}^{k}e^{\eta_i}=\sum_{i=1}^{k}\phi_i=1ηi=log(ϕkϕi)ϕkeηi=ϕiϕki=1∑keηi=i=1∑kϕi=1
可以得出ϕi=eηi∑j=1keηjϕk=1∑j=1keηj\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ \phi_k=\frac{1}{\sum_{j=1}^{k}e^{\eta_j}}ϕi=∑j=1keηjeηiϕk=∑j=1keηj1

4.2 softmax回归建模

假设1：y∣x;θ∼Multinomial(ϕ)y|x;\theta\sim Multinomial(\phi)y∣x;θ∼Multinomial(ϕ)
假设3：ηi=θiTxp(y=i∣x;θ)=ϕi=eηi∑j=1keηj=eθiTx∑j=1keθjTx\eta_i=\theta_i^Tx\\ \begin{aligned} p(y=i|x;\theta)&=\phi_i\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ &=\frac{e^{\theta_i^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{aligned}ηi=θiTxp(y=i∣x;θ)=ϕi=∑j=1keηjeηi=∑j=1keθjTxeθiTx
假设2：
hθ(x)=E[T(y)∣x;θ]=E[{y=1}{y=2}⋯{y=k−1}x;θ]=[ϕ1ϕ2⋯ϕk−1]=[eθ1Tx∑j=1keθjTxeθ2Tx∑j=1keθjTx⋯eθk−1Tx∑j=1keθjTx]\begin{aligned} h_{\theta}(x)&=E[T(y)|x;\theta]\\ &=E\begin{bmatrix} \begin{array}{c|} \left \{ y=1 \right \}\\ \left \{ y=2 \right \}\\ \cdots\\ \left \{ y=k-1 \right \} \end{array} x;\theta \end{bmatrix}\\ &=\begin{bmatrix} \phi_1\\ \phi_2\\ \cdots\\ \phi_{k-1} \end{bmatrix}\\ &=\begin{bmatrix} \frac{e^{\theta_1^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \frac{e^{\theta_2^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \cdots\\ \frac{e^{\theta_{k-1}^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{bmatrix} \end{aligned}hθ(x)=E[T(y)∣x;θ]=E⎣⎢⎢⎡{y=1}{y=2}⋯{y=k−1}x;θ⎦⎥⎥⎤=⎣⎢⎢⎡ϕ1ϕ2⋯ϕk−1⎦⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎢⎡∑j=1keθjTxeθ1Tx∑j=1keθjTxeθ2Tx⋯∑j=1keθjTxeθk−1Tx⎦⎥⎥⎥⎥⎥⎥⎥⎤
即拟合函数的输出结果是每一种分类对应的概率所组成的向量，接下了只需要根据最大似然法拟合参数，使用梯度下降法求解即可。

广义线性模型（Generalized Linear Model）相关推荐

广义线性模型(Generalized Linear Model)——机器学习
零.前言对于条件分布(y|x;θ),对于线性回归模型有,而对分类问题有.其实这些分布均是广义线性模型(GLM)的特殊情况. 我们通过定义广义线性模型,可以据此求出拟合函数h(x) 一.指数分布族(E ...
系统学习机器学习之线性判别式（三）--广义线性模型(Generalized Linear Models)
转自:https://www.cnblogs.com/czdbest/p/5769326.html 在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是 ...
广义线性模型--Generalized Linear Models
监督学习问题: 1.线性回归模型: 适用于自变量X和因变量Y为线性关系 2.广义线性模型: 对于输入空间一个区域改变会影响所有其他区域的问题,解决为:把输入空间划分成若干个区域,然后对每个区域用不同的 ...
广义线性模型（Generalized Linear Model）之二：Logistic回归
广义线性模型(Generalized Linear Model)之二:Logistic回归一.引入:多元线性回归模型二.Logistic回归模型三.非条件logistic回归模型 (一)介绍 ( ...
混合线性模型+mixed linear model+GEEs+GLMM+LMM
混合线性模型+mixed linear model+GEEs+GLMM+LMM 线性回归广义线性回归混合线性模型/线性混合模型的区别是什么? spss中遇见线性混合模型价值,意义,目的是什么? ...
R语言对数线性模型loglm函数_使用R语言进行混合线性模型(mixed linear model) 分析代码及详解...
1.混合线性模型简介混合线性模型,又名多层线性模型(Hierarchical linear model).它比较适合处理嵌套设计(nested)的实验和调查研究数据.此外,它还特别适合处理带有被试内 ...
线性模型(Linear Model)
线性模型(Linear Model) 对于给定样本x⃗ \mathbf{\vec{x}},假定其有n维特征,则,x⃗ =(x1,x2,x3,-,xn)T\mathbf{\vec{x}}=(x_1, x ...
Machine Learning——Linear Model
本系列博客是我学习周志华的<机器学习(西瓜书)>的自学笔记. 我是零基础学习,因此所写只是书上的知识,肯定不全面,以后随着学习的深入,慢慢补充吧. 基本形式给定由ddd个属性描述的示例x ...
AI实践之路：线性/逻辑回归背后的广义线性模型与最大似然估计
写上一篇文章的过程中,讲到逻辑回归是如何利用Sigmoid函数将线性回归的数值转换为概率时,才意识到自己对逻辑回归的理解十分浅显,为什么是Sigmoid函数?它一个就说是概率了?数学原理是什么?为了增 ...

广义线性模型（Generalized Linear Model）