背景知识

常见回归模型

线性回归(linear regression)：

y=wTx+b(1)

y=\mathbf{w}^T\mathbf{x}+b\tag{1}
但是有时候预测值会逼近 y \mathbf{y}的衍生值比如输出标记在指数尺度上变化。

对数线性回归(log-linear regression):

lny=wTx+b(2)

\ln{y}=\mathbf{w}^T\mathbf{x}+b\tag{2}

广义线性模型(generalized linear model):

y=g−1(wTx+b)⇕g(y)=wTx+b(3)

y=g^{-1}(\mathbf{w}^T\mathbf{x}+b)\\ \Updownarrow\\ g(y)=\mathbf{w}^T\mathbf{x}+b\tag{3}
其中 g(⋅) g(\cdot)称为联系函数, g−1(⋅) g^{-1}(\cdot)是 g(⋅) g(\cdot)的反函数

对数几率回归

阶跃函数

y=⎧⎩⎨⎪⎪0,0.5,1,z<0;z=0;z>0;

y=\left\{ \begin{aligned} 0, \quad&z\lt0;\\ 0.5, \quad&z=0;\\ 1, \quad&z\gt0;\\ \end{aligned} \right.
对于二分类任务，其输出标记 y∈{0,1} y\in\left\{0,1\right\}
线性回归模型产生的预测值 z=wTx+b z=\mathbf{w}^T\mathbf{x}+b，因此最理想的情况就是“单位阶跃函数”但是按照广义线性模型的公式(3),”单位阶跃函数”没有反函数

反函数存在条件

函数存在反函数的充要条件是,函数的定义域与值域是一一映射；严格增（减）的函数一定有严格增（减）的反函数【反函数存在定理】.

对数几率函数（logistic function）

y=11+e−z(4)

y=\dfrac{1}{1+e^{-z}}\tag{4}
这是一种“Sigmoid函数”,它将 z z的值转化为一个接近0或者1的yy的值，
将式（4）代入式（3）得到

y=11+e−(wTx+b)

y=\dfrac{1}{1+e^{-(\mathbf{w}^T\mathbf{x}+b)}}
类似（2）式，此时可以化为：

lny1−y=wTx+b(5)

\ln{\dfrac{y}{1-y}}=\mathbf{w}^T\mathbf{x}+b\tag{5}
此时如果将 y y视为样本x\mathbf{x}作为正例的可能性，则 1−y 1-y视为其实反例的可能性，两者的比值

y1−y

\dfrac{y}{1-y}称为几率，反映了 x \mathbf{x}作为正例的相对可能性，对几率取对数则得到“对数几率”（log odds,AKA logit）

lny1−y

\ln{\dfrac{y}{1-y}}

极大似然估计

如何确定

y=11+e−(wTx+b)

y=\dfrac{1}{1+e^{-(\mathbf{w}^T\mathbf{x}+b)}} 中的 w \mathbf{w}和 b b
在（5）式中，将yy视为类后验概率估计 p(y=1∣x) p(y=1\mid\mathbf{x})则可以重新改写为

p(y=1∣x)=ewTx+b1+ewTx+bp(y=0∣x)=11+ewTx+b

p(y=1\mid\mathbf{x})=\dfrac{e^{\mathbf{w}^T\mathbf{x}+b}}{1+e^{\mathbf{w}^T\mathbf{x}+b}}\\ p(y=0\mid\mathbf{x})=\dfrac{1}{1+e^{\mathbf{w}^T\mathbf{x}+b}}\\
于是可以通过”极大似然估计”(maximum likelihood method)来估计 w \mathbf{w}和 b b
给定数据集

D={(x1,y1),(x2,y2),…,(xm,ym)}={(xi,yi)}mi=1

D=\left\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\dots,(\mathbf{x}_m,y_m)\right\}=\left\{(\mathbf{x}_i,y_i)\right\}_{i=1}^{m}
最大化“对数似然”

ℓ(w,b)=∑i=1mlnp(yi∣wi;w,b)(likehood)

\ell(\mathbf{w},b)=\sum\limits_{i=1}^{m}\ln{p(y_i\mid\mathbf{w}_i;\mathbf{w},b)}\tag{likehood}
likehood最大就是要每个样本属于其真实标记的概率越大越好。似然项：

p(yi∣wi;w,b)

p(y_i\mid\mathbf{w}_i;\mathbf{w},b)

简单处理

1：令 β=(w;b),x^=(x;1) \mathbf{\beta}=(\mathbf{w};b),\hat{\mathbf{x}}=(\mathbf{x};1)此时 wTx+b⇒βTx^ \mathbf{w}^T\mathbf{x}+b\Rightarrow\mathbf{\beta}^T\hat{\mathbf{x}}
2:令

p1(x^i;β)=p(y=1∣x^;β)p0(x^;β)=p(y=0∣w^;β)=1−p1(x^;β)

p_1(\hat{\mathbf{x}}_i;\mathbf{\beta})=p(y=1\mid\hat{\mathbf{x}};\mathbf{\beta})\\p_0(\hat{\mathbf{x}};\mathbf{\beta})=p(y=0\mid\hat{\mathbf{w}};\mathbf{\beta})=1-p_1(\hat{\mathbf{x}};\mathbf{\beta})
3:将likehood中的似然项改写为

p(yi∣xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)(result)

\begin{aligned} p(y_i\mid\mathbf{x}_i;\mathbf{w},b)&=y_ip_1(\hat{\mathbf{x}}_i;\mathbf{\beta})+(1-y_i)p_0(\hat{\mathbf{x}}_i;\beta)\\ \end{aligned}\tag{result}\\
因为 yi∈{0,1} y_i\in\left\{0,1\right\}
所以 yi=0 y_i=0则

p(yi=0∣xi;w,b)=0×p1(x^i;β)+(1−0)p0(x^i;β)=p0(x^i;β)

\begin{aligned} p(y_i=0\mid\mathbf{x}_i;\mathbf{w},b)&=0\times p_1(\hat{\mathbf{x}}_i;\mathbf{\beta})+(1-0)p_0(\hat{\mathbf{x}}_i;\beta)\\ &=p_0(\hat{\mathbf{x}}_i;\beta) \end{aligned}
如果 yi=1 y_i=1则

p(yi=1∣xi;w,b)=1×p1(x^i;β)+(1−1)p0(x^i;β)=p1(x^i;β)

\begin{aligned} p(y_i=1\mid\mathbf{x}_i;\mathbf{w},b)&=1\times p_1(\hat{\mathbf{x}}_i;\mathbf{\beta})+(1-1)p_0(\hat{\mathbf{x}}_i;\beta)\\ &=p_1(\hat{\mathbf{x}}_i;\beta) \end{aligned}
则两种情况相加
此时

lnp0(x^;β)=−ln(1+eβTx^)(s0)

\ln{p_0(\hat{\mathbf{x}};\beta)}=-\ln(1+e^{\beta^T\hat{\mathbf{x}}})\tag{s0}
同样

lnp1(x^;β)=βTx^−ln(1+eβTx^)(s1)

\ln{p_1(\hat{\mathbf{x}};\beta)}=\beta^T\hat{\mathbf{x}}-\ln(1+e^{\beta^T\hat{\mathbf{x}}})\tag{s1}
综合两种情况：

p(yi∣xi;β)=y1βTx^−ln(1+eβTx^)

p(y_i\mid\mathbf{x}_i;\mathbf{\beta})=y_1\beta^T\hat{\mathbf{x}}-\ln(1+e^{\beta^T\hat{\mathbf{x}}})
如果 yi=0 y_i=0则 p(yi∣xi;β)=s0 p(y_i\mid\mathbf{x}_i;\mathbf{\beta})=\text{s0}
如果 yi=1 y_i=1则 p(yi∣xi;β)=s1 p(y_i\mid\mathbf{x}_i;\mathbf{\beta})=\text{s1}
则最终结果为：

ℓ(β)=∑i=1m(y1βTx^−ln(1+eβTx^))

\ell(\beta)=\sum\limits_{i=1}^{m}\left(y_1\beta^T\hat{\mathbf{x}}-\ln(1+e^{\beta^T\hat{\mathbf{x}}})\right)
此时可以使用不同的方法计算最优解 β∗ \beta^*

β∗=argminβℓ(β)

\beta^*=\mathop{\arg\min}\limits_{\beta}\ell{(\beta)}

机器学习笔记（VII）线性模型(III)对数几率回归和极大似然估计相关推荐

逻辑回归_极大似然估计
二.逻辑回归原理逻辑回归又叫对数几率回归,是一种广义的线性回归分析模型.虽然名字里有回归,但其实是分类模型,常用于二分类. 1.什么是逻辑回归由于逻辑回归的原理是用逻辑函数把线性回归的结果 ...
机器学习-对数几率回归
目录前言一.对数几率回归的机器学习三要素二.对数几率回归 2.1 算法原理 2.1.1 广义线性模型 2.1.2 对数几率回归 2.2 利用极大似然估计推导损失函数 2.2.1 确定概率密度(质 ...
机器学习入门学习笔记：（2.3）对数几率回归推导
理论推导在以前的博客(机器学习入门学习笔记:(2.1)线性回归理论推导 )中推导了单元线性回归和多元线性回归的模型. 将线性回归模型简写为:y=ωTx+by = \omega^Tx+b: ...
机器学习（二）线性模型——线性回归、对数几率回归、线性判别分析
一.线性回归线性回归(linear regression:试图学得一个线性模型以尽可能准确地预测实值输出标记. 1.最简单的形式:输入属性的数且只有一个, 最小二乘法:基于均方差误差最小化来进行模型 ...
机器学习教程之线性模型：线性回归、对数几率回归、线性判别分析
常用的三个线性模型的原理及python实现--线性回归(Linear Regression).对数几率回归(Logostic Regression).线性判别分析(Linear Discriminan ...
机器学习 | 对数几率回归
机器学习 | 对数几率回归名词解释对数几率回归名词解释回归:预测连续的值,例如预测气温分类:预测离散的值,例如垃圾分类线性回归:通过一个线性组合预测连续的值,是回归模型对数几率回归:用S ...
机器学习之逻辑回归（对数几率回归）
机器学习算法之逻辑回归(对数几率回归)- 做分类的一.概述: 逻辑(logistic)回归, 又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域 ...
小白学机器学习西瓜书-第三章对数几率回归
小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...
对数几率回归-机器学习
数据集百度网盘,就是西瓜书3.0a的数据. 首先,加载数据,load_data(file)函数. def load_data(file):s =[]with open(file) as f:for l ...

机器学习笔记（VII）线性模型(III)对数几率回归和极大似然估计