广义线性模型

  • 1. 广义线性模型(Generalized Linear Model)
    • 1.1 指数分布族
    • 1.2 广义线性模型建模(三个假设)
  • 2. 线性回归推导
    • 2.1 Gaussian 分布的指数分布族形式
    • 2.2 线性回归建模
  • 3. 逻辑回归推导
    • 3.1 Bernoulli分布的指数分布族形式
    • 3.2 逻辑回归建模
  • 4. Softmax回归(多分类)
    • 4.1 多项式分布的指数分布族形式
    • 4.2 softmax回归建模

1. 广义线性模型(Generalized Linear Model)

1.1 指数分布族

指数分布族具有如下形式
p(y∣η)=b(y)exp⁡(ηTT(y)−a(η)))p(y|\eta )=b(y)\exp(\eta ^T T(y)-a(\eta)))p(y∣η)=b(y)exp(ηTT(y)−a(η)))
其中:

  • ηT\eta ^TηT为自然参数
  • T(y)T(y)T(y)为充分统计量,通常T(y)=yT(y)=yT(y)=y
  • a(η)a(\eta)a(η)为对数分配函数,使得概率分布积分为1的条件得到满足。
    a(η)=ln⁡(∫xb(y)exp⁡(ηTT(y)dx)a(\eta)=\ln(\int_x b(y)\exp(\eta^T T(y)\mathrm{d}x)a(η)=ln(∫x​b(y)exp(ηTT(y)dx)

伯努利(Bernoulli)分布、多项式(Multinomial)分布、泊松(Poisson)分布、高斯(Gaussian)分布、gamma分布、β\betaβ分布等均属于指数分布族。

1.2 广义线性模型建模(三个假设)

  • y∣x;θ∼ExponentialFamily(η)y|x;\theta\sim ExponentialFamily(\eta)y∣x;θ∼ExponentialFamily(η),及yyy的条件概率属于某个指数分布族。
  • hθ(x)=E[T(y)∣x]h_{\theta}(x)=E[T(y)|x]hθ​(x)=E[T(y)∣x],目标函数为充分统计量的条件期望。
    η\etaη以不同的连接函数与其它概率分布函数中的参数发生联系,从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其他空间,从而扩大了线性模型可解决的问题。
  • η=θTx\eta=\theta^T xη=θTx,由于是线性模型,自然参数=参数与xxx的线性组合。

2. 线性回归推导

2.1 Gaussian 分布的指数分布族形式

在线性回归中,σ\sigmaσ对于模型参数θ\thetaθ的选择没有影响,为了推导方便我们将其设为1:

p(y∣μ)=12πexp⁡(−12(y−μ)2)=12πexp⁡(−12y2)exp⁡(μy−12μ2)\begin{aligned} p(y|\mu)&=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2)\\ &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)\exp(\mu y-\frac{1}{2}\mu ^2) \end{aligned}p(y∣μ)​=2π​1​exp(−21​(y−μ)2)=2π​1​exp(−21​y2)exp(μy−21​μ2)​

得到对应的参数
η=μT(y)=ya(η)=12μ2=12η2b(y)=12πexp⁡(−12y2)\eta =\mu\\ T(y)=y\\ a(\eta)=\frac{1}{2}\mu ^2=\frac{1}{2}\eta ^2\\ b(y)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)η=μT(y)=ya(η)=21​μ2=21​η2b(y)=2π​1​exp(−21​y2)

2.2 线性回归建模

  • 假设1:y∣x;θ∼N(μ,σ)y|x;\theta\sim N(\mu,\sigma)y∣x;θ∼N(μ,σ)
  • 假设3:η=θTx\eta=\theta^T xη=θTx
  • 假设2:
    hθ(x)=E[T(y)∣x]=μ=η=θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\mu\\ &=\eta\\ &=\theta^T x \end{aligned}hθ​(x)​=E[T(y)∣x]=μ=η=θTx​

3. 逻辑回归推导

3.1 Bernoulli分布的指数分布族形式

对于逻辑回归,有p(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕp(y=1;\phi)=\phi\\ p(y=0;\phi)=1-\phip(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕ
即p(y∣ϕ)=ϕy(1−ϕ)1−y=exp⁡(ylog⁡(ϕ)+(1−y)log⁡(1−ϕ))=exp⁡(ylog⁡(ϕ1−ϕ)+log⁡(1−ϕ))\begin{aligned} p(y|\phi)&=\phi^y (1-\phi)^{1-y}\\ &=\exp(y\log(\phi)+(1-y)\log(1-\phi))\\ &=\exp(y\log(\frac{\phi}{1-\phi})+\log(1-\phi)) \end{aligned}p(y∣ϕ)​=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ​)+log(1−ϕ))​
得到对应的参数
η=log⁡(ϕ1−ϕ)→ϕ=11+e−ηT(y)=yb(y)=1a(η)=−log⁡(1−ϕ)=log⁡(1+eη)\eta =\log(\frac{\phi}{1-\phi})\rightarrow \phi=\frac{1}{1+e^{-\eta}}\\ T(y)=y\\ b(y)=1\\ \begin{aligned} a(\eta)&=-\log(1-\phi)\\ &=\log(1+e^{\eta})\\ \end{aligned}η=log(1−ϕϕ​)→ϕ=1+e−η1​T(y)=yb(y)=1a(η)​=−log(1−ϕ)=log(1+eη)​

3.2 逻辑回归建模

  • 假设1:y∣x;θ∼Bernoulli(ϕ)y|x;\theta\sim Bernoulli(\phi)y∣x;θ∼Bernoulli(ϕ)
  • 假设3:η=θTx\eta=\theta^T xη=θTx
  • 假设2:
    hθ(x)=E[T(y)∣x]=ϕ=11+e−η=11+e−θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\phi\\ &=\frac{1}{1+e^{-\eta}}\\ &=\frac{1}{1+e^{-\theta^{T}x}} \end{aligned}hθ​(x)​=E[T(y)∣x]=ϕ=1+e−η1​=1+e−θTx1​​

4. Softmax回归(多分类)

4.1 多项式分布的指数分布族形式

yyy可能有多个分类y∈{1,2,⋯,k}y\in \left \{ 1,2,\cdots,k \right \}y∈{1,2,⋯,k},每种分类对应概率:ϕ1,ϕ2,⋯,ϕk\phi_1,\phi_2,\cdots ,\phi_kϕ1​,ϕ2​,⋯,ϕk​,但是,由于∑i=1kϕi=1\sum_{i=1}^{k}\phi_i=1i=1∑k​ϕi​=1, 所以一般 用k−1k-1k−1个参数ϕ1,ϕ2,⋯,ϕk−1\phi_1,\phi_2,\cdots ,\phi_{k-1}ϕ1​,ϕ2​,⋯,ϕk−1​,其中:ϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−∑i=1k−1ϕi\phi_i=p(y=i|\phi),p(y=k;\phi)=1-\sum_{i=1}^{k-1} \phi_iϕi​=p(y=i∣ϕ),p(y=k;ϕ)=1−i=1∑k−1​ϕi​
定义T(y)∈Rk−1T(y)\in R^{k-1}T(y)∈Rk−1,
T(1)=[100⋯0],T(2)=[010⋯0],⋯,T(k−1)=[000⋯1],T(k)=[000⋯0]T(1)=\begin{bmatrix}1\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}, T(2)=\begin{bmatrix}0\\ 1\\ 0\\ \cdots \\ 0\end{bmatrix}, \cdots , T(k-1)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 1\end{bmatrix}, T(k)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}T(1)=⎣⎢⎢⎢⎢⎡​100⋯0​⎦⎥⎥⎥⎥⎤​,T(2)=⎣⎢⎢⎢⎢⎡​010⋯0​⎦⎥⎥⎥⎥⎤​,⋯,T(k−1)=⎣⎢⎢⎢⎢⎡​000⋯1​⎦⎥⎥⎥⎥⎤​,T(k)=⎣⎢⎢⎢⎢⎡​000⋯0​⎦⎥⎥⎥⎥⎤​
引进函数{⋅}\left \{ \cdot \right \}{⋅}
{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi\left \{ True \right \}=1,\left \{ False \right \}=0\\ E[T(y)_i]=p(y=i)=\phi_i{True}=1,{False}=0E[T(y)i​]=p(y=i)=ϕi​
对应的概率分布为
p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp⁡(T(y)1log⁡(ϕ1)+T(y)2log⁡(ϕ2)+⋯+(1−∑i=1k−1T(y)i)log⁡(ϕk))=exp⁡(T(y)1log⁡(ϕ1ϕk)+T(y)2log⁡(ϕ2ϕk)+⋯+T(y)k−1log⁡(ϕk−1ϕk)+log⁡(ϕk))\begin{aligned} p(y;\phi)&=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{\left \{ y=k \right \}}\\ &=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{1-\sum_{i=1}^{k-1}\left \{ y=i \right \}}\\ &=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots \phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}\\ &=\exp(T(y)_1\log(\phi_1)+T(y)_2\log(\phi_2)+\cdots+(1-\sum_{i=1}^{k-1}T(y)_i)\log(\phi_k))\\ &=\exp(T(y)_1\log(\frac{\phi_1}{\phi_k})+T(y)_2\log(\frac{\phi_2}{\phi_k})+\cdots+T(y)_{k-1}\log(\frac{\phi_{k-1}}{\phi_k})+\log(\phi_k)) \end{aligned}p(y;ϕ)​=ϕ1{y=1}​ϕ2{y=2}​⋯ϕk{y=k}​=ϕ1{y=1}​ϕ2{y=2}​⋯ϕk1−∑i=1k−1​{y=i}​=ϕ1T(y)1​​ϕ2T(y)2​​⋯ϕk1−∑i=1k−1​T(y)i​​=exp(T(y)1​log(ϕ1​)+T(y)2​log(ϕ2​)+⋯+(1−i=1∑k−1​T(y)i​)log(ϕk​))=exp(T(y)1​log(ϕk​ϕ1​​)+T(y)2​log(ϕk​ϕ2​​)+⋯+T(y)k−1​log(ϕk​ϕk−1​​)+log(ϕk​))​
对应的指数分布族参数为
b(y)=1a(η)=−log⁡(ϕk)η=[log⁡(ϕ1ϕk)log⁡(ϕ2ϕk)⋯log⁡(ϕk−1ϕk)]b(y)=1\\ a(\eta)=-\log(\phi_k)\\ \eta=\begin{bmatrix} \log(\frac{\phi_1}{\phi_k})\\ \log(\frac{\phi_2}{\phi_k})\\ \cdots\\ \log(\frac{\phi_{k-1}}{\phi_k}) \end{bmatrix}b(y)=1a(η)=−log(ϕk​)η=⎣⎢⎢⎢⎡​log(ϕk​ϕ1​​)log(ϕk​ϕ2​​)⋯log(ϕk​ϕk−1​​)​⎦⎥⎥⎥⎤​
即ηi=log⁡(ϕiϕk)ϕkeηi=ϕiϕk∑i=1keηi=∑i=1kϕi=1\eta_i=\log(\frac{\phi_i}{\phi_k})\\ \phi_k e^{\eta_i}=\phi_i\\ \phi_k\sum_{i=1}^{k}e^{\eta_i}=\sum_{i=1}^{k}\phi_i=1ηi​=log(ϕk​ϕi​​)ϕk​eηi​=ϕi​ϕk​i=1∑k​eηi​=i=1∑k​ϕi​=1
可以得出ϕi=eηi∑j=1keηjϕk=1∑j=1keηj\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ \phi_k=\frac{1}{\sum_{j=1}^{k}e^{\eta_j}}ϕi​=∑j=1k​eηj​eηi​​ϕk​=∑j=1k​eηj​1​

4.2 softmax回归建模

  • 假设1:y∣x;θ∼Multinomial(ϕ)y|x;\theta\sim Multinomial(\phi)y∣x;θ∼Multinomial(ϕ)
  • 假设3:ηi=θiTxp(y=i∣x;θ)=ϕi=eηi∑j=1keηj=eθiTx∑j=1keθjTx\eta_i=\theta_i^Tx\\ \begin{aligned} p(y=i|x;\theta)&=\phi_i\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ &=\frac{e^{\theta_i^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{aligned}ηi​=θiT​xp(y=i∣x;θ)​=ϕi​=∑j=1k​eηj​eηi​​=∑j=1k​eθjT​xeθiT​x​​
  • 假设2:
    hθ(x)=E[T(y)∣x;θ]=E[{y=1}{y=2}⋯{y=k−1}x;θ]=[ϕ1ϕ2⋯ϕk−1]=[eθ1Tx∑j=1keθjTxeθ2Tx∑j=1keθjTx⋯eθk−1Tx∑j=1keθjTx]\begin{aligned} h_{\theta}(x)&=E[T(y)|x;\theta]\\ &=E\begin{bmatrix} \begin{array}{c|} \left \{ y=1 \right \}\\ \left \{ y=2 \right \}\\ \cdots\\ \left \{ y=k-1 \right \} \end{array} x;\theta \end{bmatrix}\\ &=\begin{bmatrix} \phi_1\\ \phi_2\\ \cdots\\ \phi_{k-1} \end{bmatrix}\\ &=\begin{bmatrix} \frac{e^{\theta_1^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \frac{e^{\theta_2^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \cdots\\ \frac{e^{\theta_{k-1}^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{bmatrix} \end{aligned}hθ​(x)​=E[T(y)∣x;θ]=E⎣⎢⎢⎡​{y=1}{y=2}⋯{y=k−1}​x;θ​⎦⎥⎥⎤​=⎣⎢⎢⎡​ϕ1​ϕ2​⋯ϕk−1​​⎦⎥⎥⎤​=⎣⎢⎢⎢⎢⎢⎢⎢⎡​∑j=1k​eθjT​xeθ1T​x​∑j=1k​eθjT​xeθ2T​x​⋯∑j=1k​eθjT​xeθk−1T​x​​⎦⎥⎥⎥⎥⎥⎥⎥⎤​​
    即拟合函数的输出结果是 每一种分类对应的概率所组成的向量,接下了只需要根据最大似然法拟合参数,使用梯度下降法求解即可 。

广义线性模型(Generalized Linear Model)相关推荐

  1. 广义线性模型(Generalized Linear Model)——机器学习

    零.前言 对于条件分布(y|x;θ),对于线性回归模型有,而对分类问题有.其实这些分布均是广义线性模型(GLM)的特殊情况. 我们通过定义广义线性模型,可以据此求出拟合函数h(x) 一.指数分布族(E ...

  2. 系统学习机器学习之线性判别式(三)--广义线性模型(Generalized Linear Models)

    转自:https://www.cnblogs.com/czdbest/p/5769326.html 在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是 ...

  3. 广义线性模型--Generalized Linear Models

    监督学习问题: 1.线性回归模型: 适用于自变量X和因变量Y为线性关系 2.广义线性模型: 对于输入空间一个区域改变会影响所有其他区域的问题,解决为:把输入空间划分成若干个区域,然后对每个区域用不同的 ...

  4. 广义线性模型(Generalized Linear Model)之二:Logistic回归

    广义线性模型(Generalized Linear Model)之二:Logistic回归 一.引入:多元线性回归模型 二.Logistic回归模型 三.非条件logistic回归模型 (一)介绍 ( ...

  5. 混合线性模型+mixed linear model+GEEs+GLMM+LMM

    混合线性模型+mixed linear model+GEEs+GLMM+LMM 线性回归 广义线性回归 混合线性模型/线性混合模型 的区别是什么? spss中遇见线性混合模型 价值,意义,目的是什么? ...

  6. R语言对数线性模型loglm函数_使用R语言进行混合线性模型(mixed linear model) 分析代码及详解...

    1.混合线性模型简介 混合线性模型,又名多层线性模型(Hierarchical linear model).它比较适合处理嵌套设计(nested)的实验和调查研究数据.此外,它还特别适合处理带有被试内 ...

  7. 线性模型(Linear Model)

    线性模型(Linear Model) 对于给定样本x⃗ \mathbf{\vec{x}},假定其有n维特征,则,x⃗ =(x1,x2,x3,-,xn)T\mathbf{\vec{x}}=(x_1, x ...

  8. Machine Learning——Linear Model

    本系列博客是我学习周志华的<机器学习(西瓜书)>的自学笔记. 我是零基础学习,因此所写只是书上的知识,肯定不全面,以后随着学习的深入,慢慢补充吧. 基本形式 给定由ddd个属性描述的示例x ...

  9. AI实践之路:线性/逻辑回归背后的广义线性模型与最大似然估计

    写上一篇文章的过程中,讲到逻辑回归是如何利用Sigmoid函数将线性回归的数值转换为概率时,才意识到自己对逻辑回归的理解十分浅显,为什么是Sigmoid函数?它一个就说是概率了?数学原理是什么?为了增 ...

最新文章

  1. 云智易获上海CIO联盟“年度物联网云平台技术创新奖”
  2. zabbix3.4.7版本饼图显示问题
  3. 怎么确定迭代器后面还有至少两个值_JS Lazy evaluation:可迭代对象与迭代器
  4. gitee提交代码_在Gitee获8.5k Star,做微信小程序商城看这一个开源项目就够了
  5. oracle 树查询语句,oracle 树查询 语句
  6. 使用java交换两个数——CSDN博客
  7. 关于Tensorflow安装opencv和pygame
  8. Linux下动态库的创建与更新
  9. mysql linux安装百度经验_MySQL 安装(Windows Linux)
  10. 两岁的微信小程序,创造超 5000 亿的价值
  11. C++构造函数、析构函数与抛出异常
  12. Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj
  13. vr全景图如何制作?vr制作用什么软件?(详细教程)
  14. 如何将一个mp3文件平均分割成三个?
  15. lubuntu xubunut ubuntu kubuntu 区别
  16. xss靶场练习之xss.haozi.me解析及答案
  17. 開關(switch)規格中,SPDT, DPDT, 3PDT, 4PDT是什麼意思?
  18. 浅浅分析滤波器截止频率
  19. jzoj 5850.【NOIP提高组模拟2018.8.25】e 可持久化线段树+lca
  20. 一幅长文细学HTML5

热门文章

  1. k8s正确删除pod的方法
  2. 春节7日高赞视频的背后,是怎样的节日流量收割秘籍?
  3. 储能是什么?​储能系统解决方案现状及趋势​
  4. AVFoundation里用到的相关库(一)
  5. 使用Python爬取考勤信息
  6. 【庖丁解牛】rm: cannot remove ‘libtoolT‘: No such file or directory
  7. 剪映电脑版如何设置局部动态马赛克
  8. AD导出3D模型的各种方法——AD转SW(贴图形式)
  9. 树莓派 gpio / 串口通信
  10. 龙贝格算法求数值积分的Python程序