交叉熵代价函数(损失函数)及其求导推导

转自:http://blog.csdn.net/jasonzzj/article/details/52017438

前言
交叉熵损失函数
交叉熵损失函数的求导

前言

说明：本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。
首先，我们二话不说，先放出交叉熵的公式：

J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),

以及J(θ)对参数θ的偏导数（用于诸如梯度下降法等优化算法的参数更新），如下：

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j

但是在大多论文或数教程中，也就是直接给出了上面两个公式，而未给出推导过程，而且这一过程并不是一两步就可以得到的，这就给初学者造成了一定的困惑，所以我特意在此详细介绍了它的推导过程，跟大家分享。因水平有限，如有错误，欢迎指正。

交叉熵损失函数

我们一共有m组已知样本，(x(i),y(i))表示第i 组数据及其对应的类别标记。其中x(i)=(1,x(i)1,x(i)2,...,x(i)p)T为p+1维向量（考虑偏置项），y(i)则为表示类别的一个数：

logistic回归（是非问题）中，y(i)取0或者1；
softmax回归（多分类问题）中，y(i)取1,2…k中的一个表示类别标号的一个数（假设共有k类）。

这里，只讨论logistic回归，输入样本数据x(i)=(1,x(i)1,x(i)2,...,x(i)p)T，模型的参数为θ=(θ0,θ1,θ2,...,θp)T,因此有

θTx(i):=θ0+θ1x(i)1+⋯+θpx(i)p.

假设函数（hypothesis function）定义为：

hθ(x(i))=11+e−θTx(i)

.
因为Logistic回归问题就是0/1的二分类问题，可以有

P(y^(i)=1|x(i);θ)=hθ(x(i))

P(y^(i)=0|x(i);θ)=1−hθ(x(i))

现在，我们不考虑“熵”的概念，根据下面的说明，从简单直观角度理解，就可以得到我们想要的损失函数：我们将概率取对数，其单调性不变，有

logP(y^(i)=1|x(i);θ)=loghθ(x(i))=log11+e−θTx(i),

logP(y^(i)=0|x(i);θ)=log(1−hθ(x(i)))=loge−θTx(i)1+e−θTx(i).

那么对于第i组样本，假设函数表征正确的组合对数概率为：

I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1−y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

其中，I{y(i)=1}和I{y(i)=0}为示性函数（indicative function），简单理解为{ }内条件成立时，取1，否则取0，这里不赘言。
那么对于一共m组样本，我们就可以得到模型对于整体训练样本的表现能力：

∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

由以上表征正确的概率含义可知，我们希望其值越大，模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数（Loss function）或者代价函数（Cost function）的，而且我们希望损失函数越小越好。由这两个矛盾，那么我们不妨领代价函数为上述组合对数概率的相反数：

J(θ)=−∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明：如果熟悉“信息熵“的概念E[−logpi]=−∑mi=1pilogpi，那么可以有助理解叉熵损失函数）

交叉熵损失函数的求导

这步需要用到一些简单的对数运算公式，这里先以编号形式给出，下面推导过程中使用特意说明时都会在该步骤下脚标标出相应的公式编号，以保证推导的连贯性。
①  logab=loga−logb
②  loga+logb=log(ab)
③  a=logea
另外，值得一提的是在这里涉及的求导均为矩阵、向量的导数（矩阵微商），这里有一篇教程总结得精简又全面，非常棒，推荐给需要的同学。
下面开始推导：
交叉熵损失函数为：

J(θ)=−∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

其中，

loghθ(x(i))=log11+e−θTx(i)=−log(1+e−θTx(i)) ,log(1−hθ(x(i)))=log(1−11+e−θTx(i))=log(e−θTx(i)1+e−θTx(i))=log(e−θTx(i))−log(1+e−θTx(i))=−θTx(i)−log(1+e−θTx(i))①③ .

由此，得到

J(θ)=−1m∑i=1m[−y(i)(log(1+e−θTx(i)))+(1−y(i))(−θTx(i)−log(1+e−θTx(i)))]=−1m∑i=1m[y(i)θTx(i)−θTx(i)−log(1+e−θTx(i))]=−1m∑i=1m[y(i)θTx(i)−logeθTx(i)−log(1+e−θTx(i))]③=−1m∑i=1m[y(i)θTx(i)−(logeθTx(i)+log(1+e−θTx(i)))]②=−1m∑i=1m[y(i)θTx(i)−log(1+eθTx(i))]

这次再计算J(θ)对第j个参数分量θj求偏导:

∂∂θjJ(θ)=∂∂θj(1m∑i=1m[log(1+eθTx(i))−y(i)θTx(i)])=1m∑i=1m[∂∂θjlog(1+eθTx(i))−∂∂θj(y(i)θTx(i))]=1m∑i=1m⎛⎝x(i)jeθTx(i)1+eθTx(i)−y(i)x(i)j⎞⎠=1m∑i=1m(hθ(x(i))−y(i))x(i)j

这就是交叉熵对参数的导数：

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j

转载请注明出处：http://blog.csdn.net/jasonzzj/article/details/52017438