Log-Linear Model是一种判别式模型算法的创建框架,它并不指某种特定的模型、它指的是一类模型。

1. 定义

设模型预测共考虑 J J J 种特征, j = 1 , 2 , ⋯ , J j=1,2, \cdots, J j=1,2,⋯,J; w j w_j wj​ 表示模型对第 j j j 种特征的参数,其取值在模型训练过程中估计得到; F j ( X , y ) F_j(X, y) Fj​(X,y) 表示模型第 j j j 种特征的特征函数(feature function),它表达特征 X X X 和标签 y y y 之间的一些关系,其因变量为用于模型预测的第 j j j 个特征; Z ( X , W ) Z(X,W) Z(X,W) 表示模型特征预测值的归一化系数,它被称作 normalization term 或 partion function。在此条件下,模型的目标函数可表示成如下所示:
P ( y ∣ X ; W ) = e x p [ ∑ j = 1 J w j F j ( X , y ) ] Z ( X , W ) (1) P(y|\ X;W) = \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)} \tag{1} P(y∣ X;W)=Z(X,W)exp[∑j=1J​wj​Fj​(X,y)]​(1)

模型中,每种特征的特征函数(feature function)由人工设定,给定不同的特征函数可以衍生出不同种类的模型,创建 feature function 是一个特征工程的过程。当人工给定 feature function 时,是一机器学习过程,当通过自动特征机制给定 feature function 时,是深度学习过程。

Z ( X , W ) Z(X,W) Z(X,W) 等于标签所有可能类别的分子项之和,即 Z ( X , W ) = ∑ i = 1 C e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] Z(X,W) = \sum_{i=1}^{C}exp[\sum_{j=1}^{J} w_jF_j(X, y = c_i)] Z(X,W)=∑i=1C​exp[∑j=1J​wj​Fj​(X,y=ci​)],其作用是将分子项归一化,令分数式结果满足条件概率性质。

2. 衍生模型

2.1 衍生逻辑回归模型

设所有可能的标签的集合为 C = { c 1 , c 2 , ⋯ , c N } C = \{c_1, c_2, \cdots, c_N\} C={c1​,c2​,⋯,cN​}、输入特征 X X X 是一个长度为 J J J 的向量 X = ( x 1 , x 2 , ⋯ , x d ) X=(x_1, x_2, \cdots, x_d) X=(x1​,x2​,⋯,xd​)。那么给定 F j ( X , y ) = x j ⋅ I ( y = c i ) F_j(X, y) = x_j \cdot I(y=c_i) Fj​(X,y)=xj​⋅I(y=ci​), I ( y = c i ) I(y=c_i) I(y=ci​) 是 indicator function,当 y = c i y=c_i y=ci​ 时 indicator function 的值为1,否则为0。所以,得到模型目标函数为:

P ( y = c i ∣ X ; W ) = e x p [ ∑ j = 1 + d ( i − 1 ) d + d ( i − 1 ) w j x j − d ( i − 1 ) ] ∑ i = 1 C e x p [ ∑ j = 1 + d ( i − 1 ) d + d ( i − 1 ) w j x j − d ( i − 1 ) ] (2) P(y=c_i|\ X;W) = \frac{ exp \begin{bmatrix} \sum_{j=1 + d(i-1)}^{d+d(i-1)} w_jx_{j-d(i-1)} \end{bmatrix} }{ \sum_{i=1}^{C} exp \begin{bmatrix} \sum_{j=1 + d(i-1)}^{d+d(i-1)} w_jx_{j-d(i-1)} \end{bmatrix} } \tag{2} P(y=ci​∣ X;W)=∑i=1C​exp[∑j=1+d(i−1)d+d(i−1)​wj​xj−d(i−1)​​]exp[∑j=1+d(i−1)d+d(i−1)​wj​xj−d(i−1)​​]​(2)

式中模型参数 w j ∈ R 3 d wj \in R^{3d} wj∈R3d,参数向量 W = ( w 1 , w 2 , ⋯ , w d , w d + 1 , ⋯ , w 2 d , ⋯ , w 1 + d ( C − 1 ) , ⋯ , w d + d ( C − 1 ) ) W = (w_1, w_2, \cdots, w_d, w_{d+1}, \cdots, w_{2d}, \cdots,w_{1+d(C-1), \cdots, w_{d+ d(C-1)}}) W=(w1​,w2​,⋯,wd​,wd+1​,⋯,w2d​,⋯,w1+d(C−1),⋯,wd+d(C−1)​​);我们将参数向量中的子向量 ( w 1 + d ( i − 1 ) , ⋯ , w d + d ( i − 1 ) ) (w_{1 + d(i-1)}, \cdots, w_{d + d(i-1)}) (w1+d(i−1)​,⋯,wd+d(i−1)​) 记作 W i W_{i} Wi​,所以参数向量可改写成 W = ( W 1 , W 2 , ⋯ , W C ) W=(W_{1}, W_{2}, \cdots, W_{C}) W=(W1​,W2​,⋯,WC​),将其带入 式 ( 2 ) 式(2) 式(2)后可将模型目标函数简写为:

P ( y = c i ∣ X ; W ) = e x p [ W i T ⋅ X ] ∑ i = 1 C e x p [ W i T ⋅ X ] (3) P(y=c_i|\ X;W) = \frac{ exp [W_{i}^T \cdot X] }{ \sum_{i=1}^{C} exp [W_{i}^T \cdot X] } \tag{3} P(y=ci​∣ X;W)=∑i=1C​exp[WiT​⋅X]exp[WiT​⋅X]​(3)
显然, 式 ( 3 ) 式(3) 式(3) 等价于 P ( y ∣ X ; W ) = S o f t m a x ( W T X ) P(y|\ X;W) = Softmax(W^TX) P(y∣ X;W)=Softmax(WTX);至此,我们由 Log-Linear Model 衍生出了多分类逻辑回归模型(Multinomial Logistic Regression)。

2.2 衍生CRF模型

同理,设 X ˉ \bar{X} Xˉ 是一个长度为 T T T 的可观测特征序列, y ˉ \bar{y} yˉ​ 是其对应的标签序列,若给定 F j ( X , y ) = ∑ t = 2 T f t ( y t − 1 , y t , X ˉ , t ) F_j(X, y) = \sum_{t=2}^{T} f_t(y_{t-1}, y_t, \bar{X}, t) Fj​(X,y)=∑t=2T​ft​(yt−1​,yt​,Xˉ,t) ,则可得到 Linera CRF 模型的目标函数:

P ( y ˉ ∣ X ˉ ; W ) = 1 Z ( X , W ) e x p [ ∑ t = 2 T f t ( y t − 1 , y t , X ˉ , t ) ] (4) P(\bar{y}|\ \bar{X};W) = \frac{1}{Z(X,W)}exp \begin{bmatrix} \sum_{t=2}^{T} f_t(y_{t-1}, y_t, \bar{X}, t) \end{bmatrix} \tag{4} P(yˉ​∣ Xˉ;W)=Z(X,W)1​exp[∑t=2T​ft​(yt−1​,yt​,Xˉ,t)​](4)

3. 参数估计方法

概率模型的目的是最大化标签在特征条件下的概率分布 P ( y ∣ X ; W ) P(y | X; W) P(y∣X;W)。所以模型参数的极大似然估计为:
w ^ j = arg max ⁡ w j P ( y ∣ X ; W ) = arg max ⁡ w j e x p [ ∑ j = 1 J w j F j ( X , y ) ] Z ( X , W ) (5) \hat{w}_j = \argmax_{w_j} P(y|\ X; W) = \argmax_{w_j} \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)} \tag{5} w^j​=wj​argmax​P(y∣ X;W)=wj​argmax​Z(X,W)exp[∑j=1J​wj​Fj​(X,y)]​(5)
因为对数在定义域上单调递增,所以用其简化 P ( y ∣ X ; W ) P(y|\ X;W) P(y∣ X;W) 表达式,不影响对模型参数的极大似然估计。因此, 式 ( 5 ) 式(5) 式(5)可简化为:

w ^ j = arg max ⁡ w j l o g [ e x p [ ∑ j = 1 J w j F j ( X , y ) ] Z ( X , W ) ] = arg max ⁡ w j ∑ j = 1 J w j F j ( X , y ) − l o g [ Z ( X , W ) ] (6) \hat{w}_j = \argmax_{w_j} log[\frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)}] = \argmax_{w_j} \sum_{j=1}^{J} w_jF_j(X, y) - log[Z(X,W)] \tag{6} w^j​=wj​argmax​log[Z(X,W)exp[∑j=1J​wj​Fj​(X,y)]​]=wj​argmax​j=1∑J​wj​Fj​(X,y)−log[Z(X,W)](6)
对 式 ( 6 ) 式(6) 式(6)求关于 w j w_j wj​ 的偏导数,得到:

∂ ∂ w j [ ∑ j = 1 J w j F j ( X , y ) − l o g ( Z ( X , W ) ) ] = F j ( X , y ) − 1 Z ( X , W ) ⋅ ∂ Z ( X , W ) ∂ w j (7) \frac{\partial}{\partial w_j }[\sum_{j=1}^{J} w_jF_j(X, y) - log(Z(X,W))] = F_j(X, y) - \frac{1}{Z(X, W)} \cdot \frac{\partial Z(X, W) }{\partial w_j } \tag{7} ∂wj​∂​[j=1∑J​wj​Fj​(X,y)−log(Z(X,W))]=Fj​(X,y)−Z(X,W)1​⋅∂wj​∂Z(X,W)​(7)

式 ( 7 ) 式(7) 式(7)中 Z ( X , W ) = ∑ i = 1 C e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] Z(X,W) = \sum_{i=1}^{C} exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] Z(X,W)=∑i=1C​exp[∑j=1J​wj​Fj​(X,y=ci​)],所以 Z ( X , W ) Z(X, W) Z(X,W) 关于 w j w_j wj​ 的偏导数等于:

∂ Z ( X , W ) ∂ w j = ∑ i = 1 C e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] ⋅ F j ( X , y = c i ) (8) \frac{\partial Z(X, W) }{\partial w_j } = \sum_{i=1}^{C} exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] \cdot F_j(X, y=c_i) \tag{8} ∂wj​∂Z(X,W)​=i=1∑C​exp[j=1∑J​wj​Fj​(X,y=ci​)]⋅Fj​(X,y=ci​)(8)

将 式 ( 8 ) 式(8) 式(8)带入 式 ( 7 ) 式(7) 式(7)后得到:

∂ l o g [ P ( y ∣ X ; W ) ] ∂ w j = F j ( X , y ) − 1 Z ( X , W ) ⋅ ∑ i = 1 C { F j ( X , y = c i ) ⋅ e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] } \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \frac{1}{Z(X, W)} \cdot \sum_{i=1}^{C} \{ F_j(X, y=c_i) \cdot exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] \} ∂wj​∂log[P(y∣ X;W)]​=Fj​(X,y)−Z(X,W)1​⋅i=1∑C​{Fj​(X,y=ci​)⋅exp[j=1∑J​wj​Fj​(X,y=ci​)]} ∂ l o g [ P ( y ∣ X ; W ) ] ∂ w j = F j ( X , y ) − ∑ i = 1 C F j ( X , y = c i ) ⋅ e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] Z ( X , W ) \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \sum_{i=1}^{C} F_j(X, y=c_i) \cdot \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)]}{Z(X, W)} ∂wj​∂log[P(y∣ X;W)]​=Fj​(X,y)−i=1∑C​Fj​(X,y=ci​)⋅Z(X,W)exp[∑j=1J​wj​Fj​(X,y=ci​)]​ ∂ l o g [ P ( y ∣ X ; W ) ] ∂ w j = F j ( X , y ) − ∑ i = 1 C F j ( X , y = c i ) ⋅ P ( y = c i ∣ X ; W ) (9) \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \sum_{i=1}^{C} F_j(X, y=c_i) \cdot P(y=c_i | X; W) \tag{9} ∂wj​∂log[P(y∣ X;W)]​=Fj​(X,y)−i=1∑C​Fj​(X,y=ci​)⋅P(y=ci​∣X;W)(9)
式 ( 9 ) 式(9) 式(9)可进一步简写成数学期望的形式:

∂ l o g [ P ( y ∣ X ; W ) ] ∂ w j = F j ( X , y ) − E y i ∼ P ( y = c i ∣ X ; W ) [ F j ( X , y i ) ] (10) \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - E_{y_i \sim P(y = c_i | X; W)}[F_j(X, y_i)] \tag{10} ∂wj​∂log[P(y∣ X;W)]​=Fj​(X,y)−Eyi​∼P(y=ci​∣X;W)​[Fj​(X,yi​)](10)

对数线性模型(Log-Linear Model)一种判别式模型的创建框架相关推荐

  1. R语言对数线性模型loglm函数_使用R语言进行混合线性模型(mixed linear model) 分析代码及详解...

    1.混合线性模型简介 混合线性模型,又名多层线性模型(Hierarchical linear model).它比较适合处理嵌套设计(nested)的实验和调查研究数据.此外,它还特别适合处理带有被试内 ...

  2. 混合线性模型+mixed linear model+GEEs+GLMM+LMM

    混合线性模型+mixed linear model+GEEs+GLMM+LMM 线性回归 广义线性回归 混合线性模型/线性混合模型 的区别是什么? spss中遇见线性混合模型 价值,意义,目的是什么? ...

  3. 广义线性模型(Generalized Linear Model)——机器学习

    零.前言 对于条件分布(y|x;θ),对于线性回归模型有,而对分类问题有.其实这些分布均是广义线性模型(GLM)的特殊情况. 我们通过定义广义线性模型,可以据此求出拟合函数h(x) 一.指数分布族(E ...

  4. 系统学习机器学习之线性判别式(三)--广义线性模型(Generalized Linear Models)

    转自:https://www.cnblogs.com/czdbest/p/5769326.html 在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是 ...

  5. 线性模型(Linear Model)

    线性模型(Linear Model) 对于给定样本x⃗ \mathbf{\vec{x}},假定其有n维特征,则,x⃗ =(x1,x2,x3,-,xn)T\mathbf{\vec{x}}=(x_1, x ...

  6. Machine Learning——Linear Model

    本系列博客是我学习周志华的<机器学习(西瓜书)>的自学笔记. 我是零基础学习,因此所写只是书上的知识,肯定不全面,以后随着学习的深入,慢慢补充吧. 基本形式 给定由ddd个属性描述的示例x ...

  7. 年龄和收入对数的线性回归_如何理解和使用对数线性模型?

    对数线性模型 看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快 ...

  8. 论文总结3 对数线性模型 罗盛

    研究变量之间的相互关系.列联表.对应分析 目录 一.模型介绍 二.比较-对数线性模型&对应分析 1.相同&不同 2.相互关系 三.应用实例 1.模型确立 2.列因素&因子负荷 ...

  9. 生成式模型与判别式模型

    生成式模型与判别式模型的区别 生成式模型(Generative Model)与判别式模型(Discriminative Model)是分类器常遇到的问题 对于判别式模型来说求得P(Y|X),对未见示例 ...

最新文章

  1. Objective-C 的OOP(下)-类(static)方法、实例方法、overwrite(覆写)、属性(property)...
  2. 重庆大学 计算机组成原理,重庆大学计算机组成原理集(含部分)解决方案.doc
  3. python的类方法_python 类不实例化,调用类方法:@staticmethod 和 @classmethod
  4. 泡泡玛特2021年营收44.9亿元 同比增长78.7%
  5. java开启注解扫描,详解Spring框架注解扫描开启之配置细节
  6. python机器学习应用mooc_(3)决策树
  7. 在linux上安装svn
  8. arduino与肌电信号(传感器)的碰撞② 2021 7 20
  9. Golang项目:客户信息管理系统(附源码) (Golang经典编程案例)
  10. dagger2简单使用与理解笔记
  11. Python爬虫技巧--selenium解除webdriver特征值
  12. 关于sd卡的读取权限
  13. 淘宝/天猫图片识别商品接口,1688图片识别商品API接口
  14. 关于centOS无法识别1920*1080分辨率的解决方法
  15. 继承-super详解
  16. 【Markdown 1】什么是Markdown?怎么用? - Markdown语法个人简述总结(图文)(常用)
  17. No connection could be made because the target machine actively refused it [::1]:808
  18. 内外网隔离下,通过网关转发,来部署前后端分离的系统
  19. freemarker bilibi
  20. python 股票图表_k线图分析法_【趣味案例】用Python绘制K线图,一眼看清股市状况...

热门文章

  1. 浅谈共轭梯度法的原理
  2. matlab中的矩阵与向量运算
  3. 2015年第六届蓝桥杯C/C++程序设计本科B组省赛 星系炸弹(日期推算)
  4. 安防工程商前期收集客户信息15种方法与详细流程
  5. Mendix Studio Pro/Mendix Studio的离线安装
  6. Multi-modal Dense Video Captioning--论文翻译
  7. JS中解决单击双击事件的冲突的问题
  8. 郭敬明道歉承认作品抄袭:如何维护互联网作品版权信息
  9. 【python】百度关键词排名查询实现
  10. 记一次vue踩坑 this.$router.back()在ios失效,试了各种返回,最后发现是因为url传参的原因,去掉参数就可以了。。