大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)

第十八节逻辑回归之交叉熵损失函数梯度求解过程(2)

上一节中，我们讲解了交叉熵损失函数的概念，目标是要找到使得损失函数最小的那组θ，也就是l(θ)最大，即预测出来的结果在训练集上全部正确的概率最大。那我们怎么样找到我们的最优解呢？上节中提出用梯度下降法求解，本节的话我们对其具体细节展开。

先来看下我们用梯度下降求解最优解，想要通过梯度下降优化L(θ)到最小值需要几步？

第一步，随机产生w，随机到0附近会比较好一点，w随机到0附近就意味着不管用L1还是L2正则的时候，可以使w的整体比较小。L1和L2正则同样可以用到逻辑回归里面去，来使得逻辑回归的损失函数obj相对比较小，然后使得我们模型具有推广能力和泛化能力。其实任何算法，都可以去使用L1和L2来提高模型的泛化能力，本质上就是减少模型的复杂度。所以以后未来碰到任何的算法，w在随机的过程当中，我们最好用期望为0的正态分布，来随机产生n+1个w。

第二步是求梯度，对于逻辑回归来说，如果用SGD求梯度，我们得用交叉熵的损失函数来得到它的导函数，然后才可以知道某一个值的时候它的梯度是多少。

第三步是 $w k+1=w k+\lambda *-\frac{\partial L(W k)}{\partial(w k)}$ ，它本质是一阶泰勒展开近似。

第四步是判断收敛，其实就是第二第三步循环往复来执行。

四步里面第二步求解交叉熵损失函数的导函数求得其梯度是最关键的。我们对其展开来说。我们再来看下我们的目标函数：

$J_{\log }(w)=\sum_{i=1}^{m}-y_{i} \log \left(p\left(x_{i} ; w\right)\right)-\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; w\right)\right)$

把负号提出来再加上1/m就是：

$J_{\log }(w)=-\sum_{i=1}^{m}y_{i} \log \left(p\left(x_{i} ; w\right)\right)+\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; w\right)\right)$

至于求导梯度时为什么要加-1/m，可以参考第六节梯度下降之从单元函数理解梯度下降过程(1)

我们要对损失函数里每个w求偏导，也就是对每一部分求偏导。w在pi里面，pi=1/（1+e-w^Tx），也可写成h(θ)x。上面可拆成左右两部分求导，先对左半部分yi*log pi求导，我们是对wj即(θj)求偏导，跟yi没关系，因为(lnx)'=1/x ，并且log pi是复合函数，需要对里外分别求导，即：

$y_{i} \left(\log p_{i}\right)^{\prime}=y_{i} \frac{1}{p_{i}} p_{i}^{\prime}=y_{i} \frac{1}{h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)$

后半部分同理复合函数求导，

即：

$(\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; w\right)\right))^{\prime}=\left(1-y_{i}\right) (\log \left(1-p\left(x_{i} ; w\right)\right))^{\prime}=$$\left(1-y_{i}\right)\frac{1}{\left(1-p\left(x_{i} ; w\right)\right))} \left(1-p\left(x_{i} ; w\right)\right)^{\prime}$

又因为 $\left(1-p\left(x_{i} ; w\right)\right)^{\prime}$ 求导结果为 $\left(1-p\left(x_{i} ; w\right)\right)^{\prime}=-p\left(x_{i} ; w\right)\right)^{\prime}$ 。而p(xi;w) 实际上就是关于θ的函数，可以写成h(θ)x。所以

$$$\left(1-y_{i}\right)\frac{1}{\left(1-p\left(x_{i} ; w\right)\right))} \left(1-p\left(x_{i} ; w\right)\right)^{\prime}=-\left(1-y_{i}\right) \frac{1}{1-h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)$

左右两部分求导结合起来后损失函数表示成：

$\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)-\left(1-y_{i}\right) \frac{1}{1-h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)\right)$

hθ(x)=1/（1+e-θ^Tx），是关于θ^Tx的Sigmoid函数.所以可以用g（θTx）表示，所以损失函数推导部分又可以写成：

$\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) \frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$

又因为（1/x）'=-1/x2，（ex）'= ex，（-z）'=-1，所以 $\frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$ 实际上展开就是：

$\begin{aligned} \\ & \left(\frac{1}{1+e^{-z}}\right)^{\prime}\\ &=-\frac{1}{(1+e^{-z})^{2}}*(1+e^{-z})^{\prime} \\ &=-\frac{1}{(1+e^{-z})^{2}}*(e^{-z})^{\prime}\\ &=-\frac{1}{(1+e^{-z})^{2}}*(e^{-z})*(-z)^{\prime}\\ &=\frac{1}{(1+e^{-z})^{2}}*(e^{-z})*(z)^{\prime}\end{aligned}$

好吧看到这是不是很晕眩，实际上耐心下来，跟着我的思路去走，就会很好理解上面的公式。我们继续吧，很快就结束了，也快大功告成了。我们对 $\frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$ 上面展开后的公式继续展开，整理即：

$\begin{aligned} \\ & \frac{1}{(1+e^{-z})^{2}}*(e^{-z})*(z)^{\prime}\\ &=\frac{1}{1+e^{-z}}*\frac{e^{-z}}{1+e^{-z}}*(z)^{\prime} \\ &=\frac{1}{1+e^{-z}}*(\frac{1+e^{-z}}{1+ e^{-z}}-\frac{1}{1+e^{-z}})*(z)^{\prime}\end{aligned}$

因为z就是θTx,hθ(x)=1/（1+e-θ^Tx）是关于θ^Tx的Sigmoid函数.同样可以用g（θTx）表示。所以上面 $\frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$ 展开后的公式最后可以表示成：

$\begin{aligned} \\ &\frac{1}{1+e^{-z}}*(\frac{1+e^{-z}}{1+ e^{-z}}-\frac{1}{1+e^{-z}})*(z)^{\prime} \\ &\\ &=g\left(\theta^{T} x_{i}\right)\left(1-g\left(\theta^{T} x_{i}\right)\right) \frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}\end{aligned}$

所以损失函数可以推导成：

$\begin{aligned} &\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)-\left(1-y_{i}\right) \frac{1}{1-h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)\right)\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) \frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) g\left(\theta^{T} x_{i}\right)\left(1-g\left(\theta^{T} x_{i}\right)\right) \frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}\end{aligned}$

而θTx就是θ1x1+θ2x2+……+θjxj+……+θnxn，如果对θj求偏导，只剩xj。即 $\frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}=x_{i}^{j}$ 。

xij这种表达方式大家应该已经习惯了，因为i代表第i行，j代表第j列，因为损失函数前面有一个加和符号，所以它实际上还是每一行的事。接下来就是把损失函数式子拆开，正负相消即：

$\begin{aligned} &\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) g\left(\theta^{T} x_{i}\right)\left(1-g\left(\theta^{T} x_{i}\right)\right) \frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}\left(1-g\left(\theta^{T} x_{i}\right)\right)-\left(1-y_{i}\right) g\left(\theta^{T} x_{i}\right)\right) x_{i}^{j}\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-g\left(\theta^{T} x_{i}\right)\right) x_{i}^{j}\\ &\\ & \qquad \quad=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x_{i}\right)-y_{i}\right) ) x_{i}^{j}\end{aligned}$

最后一步是把前面的负号放进去得到的。到此我们推导成功，擦擦汗，真不容易!!!。它就是逻辑回归的导函数，你会发现它推导之后和mse的导函数是一样的，都是(hθ(x)-y)*xj这种形式。只不过在多元线性回归的时候，hθ(x)是wTx，在逻辑回归里面，hθ(x)是1/（1+e-θTx）。hθ(x)不一样，但是整体形式一样。所以这也是它叫逻辑回归的一个很大原因。

有了逻辑回归损失函数推出来的导函数，我们用梯度下降求解的时候，我们就可以把第三步中的 $-\frac{\partial L(W k)}{\partial(w k)}$ 这一部分算出来了。只要给我一组w，或者θ，w0一直到wn。有了θ，x，y，xj，我就可以把导数求出来。有了导数，继而求得梯度。然后就可以用梯度下降公式去求解了。

下一节中我们讲解逻辑回归的优化。

大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)相关推荐

大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5)
大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5) 上一节中,我们讲 ...
大白话5分钟带你走进人工智能-第二十八节集成学习之随机森林概念介绍(1)
第二十八节集成学习之随机森林概念介绍(1) 从本系列开始,我们讲解一个新的算法系列集成学习. ...
大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式，out of bag data及代码(2)
大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out of bag data及代码(2) 上一节中我们讲解了随机森林的基本概念,本节的话我们讲解随机森 ...
大白话5分钟带你走进人工智能-第二十六节决策树系列之Cart回归树及其参数(5)...
第二十六节决策树系列之Cart回归树及其参数(5) 上一节我们讲了不同的决策树对应的计算纯度的计算方法, ...
大白话5分钟带你走进人工智能-第十节梯度下降之归一化的各种方式和必要性(5)...
第十节梯度下降之归一化的各种方式和必要性(5) 上一节中我们讲解了梯度下降的函数最优化算法和梯度下降代码过程,了解了梯度下降的代码实现过程,本节的话我们讲解一个 ...
大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则
第十四节过拟合解决手段L1和L2正则第十三节中,我们讲解了过拟合的情 ...
大白话5分钟带你走进人工智能-第十九节逻辑回归之优化点(4)
第十九节逻辑回归之优化点(4 ...
大白话5分钟带你走进人工智能-第二十四节决策树系列之分裂流程和Gini系数评估(3)...
第二十四节决策树系列之分裂流程和Gini系数评估(3) 上一节中我们讲解了决策树的数学表达形式,本节的话我们讲解决策树的分裂流程以及分裂条件的评估.我们基于决策树的递归表达式上: ...
大白话5分钟带你走进人工智能-第十三节多项式回归之维度爆炸和过拟合
第十三节多项式回归之维度爆炸和过拟合接下来我们进入下一个问题,叫多项式回归,它其实一点都不复杂.假如对于非线性的数据点,我们如何用现有你已经知道的知识来拟合? 举个例子,人的年龄跟去医院的次数是一条 ...

大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)

大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)相关推荐

最新文章

热门文章