机器学习基础（十一）—— Logistic Regression 梯度更新公式的推导

Logistic Regression 所要最佳化的问题是：

minw1N∑n=1Nln(1+exp(−ynwTxn))Ein(w)

\min_{\mathbf{w}}\;\underbrace{\frac1N\sum_{n=1}^N\ln\left (1+\exp(-y_n\mathbf{w}^T\mathbf{x}_n)\right )}_{E_{\text {in}}(\mathbf{w})}

Ein(w)E_{\text {in}}(\mathbf{w}) 对 w\mathbf{w} 求导得：

∇Ein(w)=1N∑n=1Nθ(−ynwTxn)(−ynxn)

\nabla E_{in}(\mathbf w)=\frac1N\sum_{n=1}^N\theta\left (-y_n\mathbf{w}^T\mathbf{x}_n\right)(-y_n\mathbf{x}_n)

无法像 Linear Regression 一样找到 ∇Ein(w)=0\nabla E_{in}(\mathbf w)=0 的解析解。我们采用 iterative optimization 的方式进行求解，已知 iterative optimization 的框架为：

wt+1←wt+ηv

\mathbf{w}_{t+1}\leftarrow \mathbf{w}_t+\eta\:\mathbf{v}

也即，我们可将问题转换为：

Ein(wt+1)=Ein(wt+ηv)

E_{in}(\mathbf w_{t+1})=E_{in}(\mathbf w_t+\eta\:\mathbf v)

我们继续对 Ein(wt+ηv)E_{in}(\mathbf w_t+\eta\:\mathbf v) 进行一阶泰勒展开：

Ein(wt+ηv)≈Ein(wt)+ηvT∇Ein(wt)

E_{in}(\mathbf w_t+\eta\:\mathbf v)\approx E_{in}(\mathbf w_t)+\eta\:\mathbf{v}^T\nabla E_{in}(\mathbf w_t)
只有 v\mathbf{v} 是未知的（假定其为单位向量），那什么时候 EinE_{in} 下降最快呢， v\mathbf{v} 与 Ein(wt)E_{in}(\mathbf w_t) 呈负梯度方向时，也即：

v=−∇Ein(wt)∥∇Ein(wt)∥

\mathbf{v} = - \frac{\nabla E_{in}(\mathbf w_t)}{\left\| \nabla E_{in}(\mathbf w_t)\right\|}

故最终的梯度下降（gradient descent）公式为：

wt+1←wt−η∇Ein(wt)∥∇Ein(wt)∥

\mathbf{w}_{t+1}\leftarrow \mathbf{w}_{t}-\eta \frac{\nabla E_{in}(\mathbf w_t)}{\left\| \nabla E_{in}(\mathbf w_t)\right\|}

如果 η\eta 的取值不固定，是变化的话，它应该正比于 ∥∇Ein(wt)∥\left\| \nabla E_{in}(\mathbf w_t)\right\|，也即坡度（梯度）越大，它的步子应该跨得大一点，坡度小时，它就跨得小一点，以防跨过最小值点。

简单起见，我们可将 η\eta 与 ∥∇Ein(wt)∥\left\| \nabla E_{in}(\mathbf w_t)\right\|视为一定的比例关系，比值继续记做 η\eta（此时称作 fixed learning rate），这样梯度更新就变成了：

wt+1←wt−η∇Ein(wt)

\mathbf{w}_{t+1}\leftarrow \mathbf{w}_t-\eta\:\nabla E_{in}(\mathbf w_t)

机器学习基础（十一）—— Logistic Regression 梯度更新公式的推导相关推荐

梯度下降法参数更新公式的推导
梯度下降法参数更新公式的推导先来回顾一下梯度下降法的参数更新公式: (其中,α是学习速率,是梯度) 这个公式是怎么来的呢?下面进行推导: 首先,如果一个函数 n 阶可导,那么我们可以用多项式仿造一个 ...
瞎聊机器学习——LR（Logistic Regression）逻辑斯蒂回归（一）
逻辑斯蒂回归是我们在学习以及工作中经常用到的一种分类模型,下面通过本文来讲解一下逻辑斯蒂回归(logistic regression,下文简称LR)的概念.数学推导. 一.逻辑斯蒂回归的概念首先希望 ...
机器学习笔记：logistic regression
1 逻辑回归介绍 logistic regressioin是一种二分类算法,通过sigmoid激活函数将线性组合压缩到0和1之间,来代表属于某一个分类的属性虽然其中带有"回归"两 ...
FlyAI小课堂：Python机器学习笔记：Logistic Regression
Logistic回归公式推导和代码实现 1,引言 logistic回归是机器学习中最常用最经典的分类方法之一,有人称之为逻辑回归或者逻辑斯蒂回归.虽然他称为回归模型,但是却处理的是分类问题,这主要是因 ...
【ML】李宏毅机器学习二：Logistic Regression
我们将在分类模型基础上继续,并开始学习一种常用的分类算法--Logistic回归,逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法.简单的说回归问题和分 ...
【机器学习基础】线性回归和梯度下降的初学者教程
作者 | Lily Chen 编译 | VK 来源 | Towards Data Science 假设我们有一个虚拟的数据集,一对变量,一个母亲和她女儿的身高: 考虑到另一位母亲的身高为63,我们如何 ...
机器学习实践一 logistic regression regularize
Logistic regression 数据内容: 两个参数 x1 x2 y值 0 或 1 Potting def read_file(file):data = pd.read_csv(file, n ...
逻辑回归的梯度下降公式详细推导过程
逻辑回归的梯度下降公式逻辑回归的代价函数公式如下: J(θ)=−1m[∑i=1my(i)log⁡hθ(x(i))+(1−y(i))log⁡(1−hθ(x(i)))]J(\theta)=-\frac{ ...
机器学习基础--回归（Regression）
Regression:Case Study 回归-案例研究问题的导入:预测宝可梦的CP值 Estimating the Combat Power(CP) of a pokemon after evo ...

机器学习基础（十一）—— Logistic Regression 梯度更新公式的推导

机器学习基础（十一）—— Logistic Regression 梯度更新公式的推导相关推荐

最新文章

热门文章