广义线性模型(Generalized Linear Model)
广义线性模型
- 1. 广义线性模型(Generalized Linear Model)
- 1.1 指数分布族
- 1.2 广义线性模型建模(三个假设)
- 2. 线性回归推导
- 2.1 Gaussian 分布的指数分布族形式
- 2.2 线性回归建模
- 3. 逻辑回归推导
- 3.1 Bernoulli分布的指数分布族形式
- 3.2 逻辑回归建模
- 4. Softmax回归(多分类)
- 4.1 多项式分布的指数分布族形式
- 4.2 softmax回归建模
1. 广义线性模型(Generalized Linear Model)
1.1 指数分布族
指数分布族具有如下形式
p(y∣η)=b(y)exp(ηTT(y)−a(η)))p(y|\eta )=b(y)\exp(\eta ^T T(y)-a(\eta)))p(y∣η)=b(y)exp(ηTT(y)−a(η)))
其中:
- ηT\eta ^TηT为自然参数
- T(y)T(y)T(y)为充分统计量,通常T(y)=yT(y)=yT(y)=y
- a(η)a(\eta)a(η)为对数分配函数,使得概率分布积分为1的条件得到满足。
a(η)=ln(∫xb(y)exp(ηTT(y)dx)a(\eta)=\ln(\int_x b(y)\exp(\eta^T T(y)\mathrm{d}x)a(η)=ln(∫xb(y)exp(ηTT(y)dx)
伯努利(Bernoulli)分布、多项式(Multinomial)分布、泊松(Poisson)分布、高斯(Gaussian)分布、gamma分布、β\betaβ分布等均属于指数分布族。
1.2 广义线性模型建模(三个假设)
- y∣x;θ∼ExponentialFamily(η)y|x;\theta\sim ExponentialFamily(\eta)y∣x;θ∼ExponentialFamily(η),及yyy的条件概率属于某个指数分布族。
- hθ(x)=E[T(y)∣x]h_{\theta}(x)=E[T(y)|x]hθ(x)=E[T(y)∣x],目标函数为充分统计量的条件期望。
η\etaη以不同的连接函数与其它概率分布函数中的参数发生联系,从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其他空间,从而扩大了线性模型可解决的问题。 - η=θTx\eta=\theta^T xη=θTx,由于是线性模型,自然参数=参数与xxx的线性组合。
2. 线性回归推导
2.1 Gaussian 分布的指数分布族形式
在线性回归中,σ\sigmaσ对于模型参数θ\thetaθ的选择没有影响,为了推导方便我们将其设为1:
p(y∣μ)=12πexp(−12(y−μ)2)=12πexp(−12y2)exp(μy−12μ2)\begin{aligned} p(y|\mu)&=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2)\\ &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)\exp(\mu y-\frac{1}{2}\mu ^2) \end{aligned}p(y∣μ)=2π1exp(−21(y−μ)2)=2π1exp(−21y2)exp(μy−21μ2)
得到对应的参数
η=μT(y)=ya(η)=12μ2=12η2b(y)=12πexp(−12y2)\eta =\mu\\ T(y)=y\\ a(\eta)=\frac{1}{2}\mu ^2=\frac{1}{2}\eta ^2\\ b(y)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)η=μT(y)=ya(η)=21μ2=21η2b(y)=2π1exp(−21y2)
2.2 线性回归建模
- 假设1:y∣x;θ∼N(μ,σ)y|x;\theta\sim N(\mu,\sigma)y∣x;θ∼N(μ,σ)
- 假设3:η=θTx\eta=\theta^T xη=θTx
- 假设2:
hθ(x)=E[T(y)∣x]=μ=η=θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\mu\\ &=\eta\\ &=\theta^T x \end{aligned}hθ(x)=E[T(y)∣x]=μ=η=θTx
3. 逻辑回归推导
3.1 Bernoulli分布的指数分布族形式
对于逻辑回归,有p(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕp(y=1;\phi)=\phi\\ p(y=0;\phi)=1-\phip(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕ
即p(y∣ϕ)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(ϕ1−ϕ)+log(1−ϕ))\begin{aligned} p(y|\phi)&=\phi^y (1-\phi)^{1-y}\\ &=\exp(y\log(\phi)+(1-y)\log(1-\phi))\\ &=\exp(y\log(\frac{\phi}{1-\phi})+\log(1-\phi)) \end{aligned}p(y∣ϕ)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ)+log(1−ϕ))
得到对应的参数
η=log(ϕ1−ϕ)→ϕ=11+e−ηT(y)=yb(y)=1a(η)=−log(1−ϕ)=log(1+eη)\eta =\log(\frac{\phi}{1-\phi})\rightarrow \phi=\frac{1}{1+e^{-\eta}}\\ T(y)=y\\ b(y)=1\\ \begin{aligned} a(\eta)&=-\log(1-\phi)\\ &=\log(1+e^{\eta})\\ \end{aligned}η=log(1−ϕϕ)→ϕ=1+e−η1T(y)=yb(y)=1a(η)=−log(1−ϕ)=log(1+eη)
3.2 逻辑回归建模
- 假设1:y∣x;θ∼Bernoulli(ϕ)y|x;\theta\sim Bernoulli(\phi)y∣x;θ∼Bernoulli(ϕ)
- 假设3:η=θTx\eta=\theta^T xη=θTx
- 假设2:
hθ(x)=E[T(y)∣x]=ϕ=11+e−η=11+e−θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\phi\\ &=\frac{1}{1+e^{-\eta}}\\ &=\frac{1}{1+e^{-\theta^{T}x}} \end{aligned}hθ(x)=E[T(y)∣x]=ϕ=1+e−η1=1+e−θTx1
4. Softmax回归(多分类)
4.1 多项式分布的指数分布族形式
yyy可能有多个分类y∈{1,2,⋯,k}y\in \left \{ 1,2,\cdots,k \right \}y∈{1,2,⋯,k},每种分类对应概率:ϕ1,ϕ2,⋯,ϕk\phi_1,\phi_2,\cdots ,\phi_kϕ1,ϕ2,⋯,ϕk,但是,由于∑i=1kϕi=1\sum_{i=1}^{k}\phi_i=1i=1∑kϕi=1, 所以一般 用k−1k-1k−1个参数ϕ1,ϕ2,⋯,ϕk−1\phi_1,\phi_2,\cdots ,\phi_{k-1}ϕ1,ϕ2,⋯,ϕk−1,其中:ϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−∑i=1k−1ϕi\phi_i=p(y=i|\phi),p(y=k;\phi)=1-\sum_{i=1}^{k-1} \phi_iϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−i=1∑k−1ϕi
定义T(y)∈Rk−1T(y)\in R^{k-1}T(y)∈Rk−1,
T(1)=[100⋯0],T(2)=[010⋯0],⋯,T(k−1)=[000⋯1],T(k)=[000⋯0]T(1)=\begin{bmatrix}1\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}, T(2)=\begin{bmatrix}0\\ 1\\ 0\\ \cdots \\ 0\end{bmatrix}, \cdots , T(k-1)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 1\end{bmatrix}, T(k)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}T(1)=⎣⎢⎢⎢⎢⎡100⋯0⎦⎥⎥⎥⎥⎤,T(2)=⎣⎢⎢⎢⎢⎡010⋯0⎦⎥⎥⎥⎥⎤,⋯,T(k−1)=⎣⎢⎢⎢⎢⎡000⋯1⎦⎥⎥⎥⎥⎤,T(k)=⎣⎢⎢⎢⎢⎡000⋯0⎦⎥⎥⎥⎥⎤
引进函数{⋅}\left \{ \cdot \right \}{⋅}
{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi\left \{ True \right \}=1,\left \{ False \right \}=0\\ E[T(y)_i]=p(y=i)=\phi_i{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi
对应的概率分布为
p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp(T(y)1log(ϕ1)+T(y)2log(ϕ2)+⋯+(1−∑i=1k−1T(y)i)log(ϕk))=exp(T(y)1log(ϕ1ϕk)+T(y)2log(ϕ2ϕk)+⋯+T(y)k−1log(ϕk−1ϕk)+log(ϕk))\begin{aligned} p(y;\phi)&=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{\left \{ y=k \right \}}\\ &=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{1-\sum_{i=1}^{k-1}\left \{ y=i \right \}}\\ &=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots \phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}\\ &=\exp(T(y)_1\log(\phi_1)+T(y)_2\log(\phi_2)+\cdots+(1-\sum_{i=1}^{k-1}T(y)_i)\log(\phi_k))\\ &=\exp(T(y)_1\log(\frac{\phi_1}{\phi_k})+T(y)_2\log(\frac{\phi_2}{\phi_k})+\cdots+T(y)_{k-1}\log(\frac{\phi_{k-1}}{\phi_k})+\log(\phi_k)) \end{aligned}p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp(T(y)1log(ϕ1)+T(y)2log(ϕ2)+⋯+(1−i=1∑k−1T(y)i)log(ϕk))=exp(T(y)1log(ϕkϕ1)+T(y)2log(ϕkϕ2)+⋯+T(y)k−1log(ϕkϕk−1)+log(ϕk))
对应的指数分布族参数为
b(y)=1a(η)=−log(ϕk)η=[log(ϕ1ϕk)log(ϕ2ϕk)⋯log(ϕk−1ϕk)]b(y)=1\\ a(\eta)=-\log(\phi_k)\\ \eta=\begin{bmatrix} \log(\frac{\phi_1}{\phi_k})\\ \log(\frac{\phi_2}{\phi_k})\\ \cdots\\ \log(\frac{\phi_{k-1}}{\phi_k}) \end{bmatrix}b(y)=1a(η)=−log(ϕk)η=⎣⎢⎢⎢⎡log(ϕkϕ1)log(ϕkϕ2)⋯log(ϕkϕk−1)⎦⎥⎥⎥⎤
即ηi=log(ϕiϕk)ϕkeηi=ϕiϕk∑i=1keηi=∑i=1kϕi=1\eta_i=\log(\frac{\phi_i}{\phi_k})\\ \phi_k e^{\eta_i}=\phi_i\\ \phi_k\sum_{i=1}^{k}e^{\eta_i}=\sum_{i=1}^{k}\phi_i=1ηi=log(ϕkϕi)ϕkeηi=ϕiϕki=1∑keηi=i=1∑kϕi=1
可以得出ϕi=eηi∑j=1keηjϕk=1∑j=1keηj\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ \phi_k=\frac{1}{\sum_{j=1}^{k}e^{\eta_j}}ϕi=∑j=1keηjeηiϕk=∑j=1keηj1
4.2 softmax回归建模
- 假设1:y∣x;θ∼Multinomial(ϕ)y|x;\theta\sim Multinomial(\phi)y∣x;θ∼Multinomial(ϕ)
- 假设3:ηi=θiTxp(y=i∣x;θ)=ϕi=eηi∑j=1keηj=eθiTx∑j=1keθjTx\eta_i=\theta_i^Tx\\ \begin{aligned} p(y=i|x;\theta)&=\phi_i\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ &=\frac{e^{\theta_i^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{aligned}ηi=θiTxp(y=i∣x;θ)=ϕi=∑j=1keηjeηi=∑j=1keθjTxeθiTx
- 假设2:
hθ(x)=E[T(y)∣x;θ]=E[{y=1}{y=2}⋯{y=k−1}x;θ]=[ϕ1ϕ2⋯ϕk−1]=[eθ1Tx∑j=1keθjTxeθ2Tx∑j=1keθjTx⋯eθk−1Tx∑j=1keθjTx]\begin{aligned} h_{\theta}(x)&=E[T(y)|x;\theta]\\ &=E\begin{bmatrix} \begin{array}{c|} \left \{ y=1 \right \}\\ \left \{ y=2 \right \}\\ \cdots\\ \left \{ y=k-1 \right \} \end{array} x;\theta \end{bmatrix}\\ &=\begin{bmatrix} \phi_1\\ \phi_2\\ \cdots\\ \phi_{k-1} \end{bmatrix}\\ &=\begin{bmatrix} \frac{e^{\theta_1^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \frac{e^{\theta_2^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \cdots\\ \frac{e^{\theta_{k-1}^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{bmatrix} \end{aligned}hθ(x)=E[T(y)∣x;θ]=E⎣⎢⎢⎡{y=1}{y=2}⋯{y=k−1}x;θ⎦⎥⎥⎤=⎣⎢⎢⎡ϕ1ϕ2⋯ϕk−1⎦⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎢⎡∑j=1keθjTxeθ1Tx∑j=1keθjTxeθ2Tx⋯∑j=1keθjTxeθk−1Tx⎦⎥⎥⎥⎥⎥⎥⎥⎤
即拟合函数的输出结果是 每一种分类对应的概率所组成的向量,接下了只需要根据最大似然法拟合参数,使用梯度下降法求解即可 。
广义线性模型(Generalized Linear Model)相关推荐
- 广义线性模型(Generalized Linear Model)——机器学习
零.前言 对于条件分布(y|x;θ),对于线性回归模型有,而对分类问题有.其实这些分布均是广义线性模型(GLM)的特殊情况. 我们通过定义广义线性模型,可以据此求出拟合函数h(x) 一.指数分布族(E ...
- 系统学习机器学习之线性判别式(三)--广义线性模型(Generalized Linear Models)
转自:https://www.cnblogs.com/czdbest/p/5769326.html 在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是 ...
- 广义线性模型--Generalized Linear Models
监督学习问题: 1.线性回归模型: 适用于自变量X和因变量Y为线性关系 2.广义线性模型: 对于输入空间一个区域改变会影响所有其他区域的问题,解决为:把输入空间划分成若干个区域,然后对每个区域用不同的 ...
- 广义线性模型(Generalized Linear Model)之二:Logistic回归
广义线性模型(Generalized Linear Model)之二:Logistic回归 一.引入:多元线性回归模型 二.Logistic回归模型 三.非条件logistic回归模型 (一)介绍 ( ...
- 混合线性模型+mixed linear model+GEEs+GLMM+LMM
混合线性模型+mixed linear model+GEEs+GLMM+LMM 线性回归 广义线性回归 混合线性模型/线性混合模型 的区别是什么? spss中遇见线性混合模型 价值,意义,目的是什么? ...
- R语言对数线性模型loglm函数_使用R语言进行混合线性模型(mixed linear model) 分析代码及详解...
1.混合线性模型简介 混合线性模型,又名多层线性模型(Hierarchical linear model).它比较适合处理嵌套设计(nested)的实验和调查研究数据.此外,它还特别适合处理带有被试内 ...
- 线性模型(Linear Model)
线性模型(Linear Model) 对于给定样本x⃗ \mathbf{\vec{x}},假定其有n维特征,则,x⃗ =(x1,x2,x3,-,xn)T\mathbf{\vec{x}}=(x_1, x ...
- Machine Learning——Linear Model
本系列博客是我学习周志华的<机器学习(西瓜书)>的自学笔记. 我是零基础学习,因此所写只是书上的知识,肯定不全面,以后随着学习的深入,慢慢补充吧. 基本形式 给定由ddd个属性描述的示例x ...
- AI实践之路:线性/逻辑回归背后的广义线性模型与最大似然估计
写上一篇文章的过程中,讲到逻辑回归是如何利用Sigmoid函数将线性回归的数值转换为概率时,才意识到自己对逻辑回归的理解十分浅显,为什么是Sigmoid函数?它一个就说是概率了?数学原理是什么?为了增 ...
最新文章
- 云智易获上海CIO联盟“年度物联网云平台技术创新奖”
- zabbix3.4.7版本饼图显示问题
- 怎么确定迭代器后面还有至少两个值_JS Lazy evaluation:可迭代对象与迭代器
- gitee提交代码_在Gitee获8.5k Star,做微信小程序商城看这一个开源项目就够了
- oracle 树查询语句,oracle 树查询 语句
- 使用java交换两个数——CSDN博客
- 关于Tensorflow安装opencv和pygame
- Linux下动态库的创建与更新
- mysql linux安装百度经验_MySQL 安装(Windows Linux)
- 两岁的微信小程序,创造超 5000 亿的价值
- C++构造函数、析构函数与抛出异常
- Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj
- vr全景图如何制作?vr制作用什么软件?(详细教程)
- 如何将一个mp3文件平均分割成三个?
- lubuntu xubunut ubuntu kubuntu 区别
- xss靶场练习之xss.haozi.me解析及答案
- 開關(switch)規格中,SPDT, DPDT, 3PDT, 4PDT是什麼意思?
- 浅浅分析滤波器截止频率
- jzoj 5850.【NOIP提高组模拟2018.8.25】e 可持久化线段树+lca
- 一幅长文细学HTML5
热门文章
- k8s正确删除pod的方法
- 春节7日高赞视频的背后,是怎样的节日流量收割秘籍?
- 储能是什么?​储能系统解决方案现状及趋势​
- AVFoundation里用到的相关库(一)
- 使用Python爬取考勤信息
- 【庖丁解牛】rm: cannot remove ‘libtoolT‘: No such file or directory
- 剪映电脑版如何设置局部动态马赛克
- AD导出3D模型的各种方法——AD转SW(贴图形式)
- 树莓派 gpio / 串口通信
- 龙贝格算法求数值积分的Python程序