1. 转自:http://blog.csdn.net/jasonzzj/article/details/52017438
  1. 前言
  2. 交叉熵损失函数
  3. 交叉熵损失函数的求导

前言

说明:本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。
首先,我们二话不说,先放出交叉熵的公式:

J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),

以及J(θ)对参数θ的偏导数(用于诸如梯度下降法等优化算法的参数更新),如下:

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j

但是在大多论文或数教程中,也就是直接给出了上面两个公式,而未给出推导过程,而且这一过程并不是一两步就可以得到的,这就给初学者造成了一定的困惑,所以我特意在此详细介绍了它的推导过程,跟大家分享。因水平有限,如有错误,欢迎指正。

交叉熵损失函数

我们一共有m组已知样本,(x(i),y(i))表示第i 组数据及其对应的类别标记。其中x(i)=(1,x(i)1,x(i)2,...,x(i)p)T为p+1维向量(考虑偏置项),y(i)则为表示类别的一个数:

  • logistic回归(是非问题)中,y(i)取0或者1;
  • softmax回归(多分类问题)中,y(i)取1,2…k中的一个表示类别标号的一个数(假设共有k类)。

这里,只讨论logistic回归,输入样本数据x(i)=(1,x(i)1,x(i)2,...,x(i)p)T,模型的参数为θ=(θ0,θ1,θ2,...,θp)T,因此有

θTx(i):=θ0+θ1x(i)1+⋯+θpx(i)p.

假设函数(hypothesis function)定义为:

hθ(x(i))=11+e−θTx(i)

.
因为Logistic回归问题就是0/1的二分类问题,可以有

P(y^(i)=1|x(i);θ)=hθ(x(i))
P(y^(i)=0|x(i);θ)=1−hθ(x(i))

现在,我们不考虑“熵”的概念,根据下面的说明,从简单直观角度理解,就可以得到我们想要的损失函数:我们将概率取对数,其单调性不变,有

logP(y^(i)=1|x(i);θ)=loghθ(x(i))=log11+e−θTx(i),
logP(y^(i)=0|x(i);θ)=log(1−hθ(x(i)))=loge−θTx(i)1+e−θTx(i).

那么对于第i组样本,假设函数表征正确的组合对数概率为:

I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1−y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

其中,I{y(i)=1}和I{y(i)=0}为示性函数(indicative function),简单理解为{ }内条件成立时,取1,否则取0,这里不赘言。
那么对于一共m组样本,我们就可以得到模型对于整体训练样本的表现能力:

∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

由以上表征正确的概率含义可知,我们希望其值越大,模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数(Loss function)或者代价函数(Cost function)的,而且我们希望损失函数越小越好。由这两个矛盾,那么我们不妨领代价函数为上述组合对数概率的相反数:

J(θ)=−∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明:如果熟悉“信息熵“的概念E[−logpi]=−∑mi=1pilogpi,那么可以有助理解叉熵损失函数)

交叉熵损失函数的求导

这步需要用到一些简单的对数运算公式,这里先以编号形式给出,下面推导过程中使用特意说明时都会在该步骤下脚标标出相应的公式编号,以保证推导的连贯性。
①  logab=loga−logb
②  loga+logb=log(ab)
③  a=logea
另外,值得一提的是在这里涉及的求导均为矩阵、向量的导数(矩阵微商),这里有一篇教程总结得精简又全面,非常棒,推荐给需要的同学。
下面开始推导:
交叉熵损失函数为:

J(θ)=−∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

其中,

loghθ(x(i))=log11+e−θTx(i)=−log(1+e−θTx(i)) ,log(1−hθ(x(i)))=log(1−11+e−θTx(i))=log(e−θTx(i)1+e−θTx(i))=log(e−θTx(i))−log(1+e−θTx(i))=−θTx(i)−log(1+e−θTx(i))①③ .

由此,得到

J(θ)=−1m∑i=1m[−y(i)(log(1+e−θTx(i)))+(1−y(i))(−θTx(i)−log(1+e−θTx(i)))]=−1m∑i=1m[y(i)θTx(i)−θTx(i)−log(1+e−θTx(i))]=−1m∑i=1m[y(i)θTx(i)−logeθTx(i)−log(1+e−θTx(i))]③=−1m∑i=1m[y(i)θTx(i)−(logeθTx(i)+log(1+e−θTx(i)))]②=−1m∑i=1m[y(i)θTx(i)−log(1+eθTx(i))]

这次再计算J(θ)对第j个参数分量θj求偏导:

∂∂θjJ(θ)=∂∂θj(1m∑i=1m[log(1+eθTx(i))−y(i)θTx(i)])=1m∑i=1m[∂∂θjlog(1+eθTx(i))−∂∂θj(y(i)θTx(i))]=1m∑i=1m⎛⎝x(i)jeθTx(i)1+eθTx(i)−y(i)x(i)j⎞⎠=1m∑i=1m(hθ(x(i))−y(i))x(i)j

这就是交叉熵对参数的导数:

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j

转载请注明出处:http://blog.csdn.net/jasonzzj/article/details/52017438

交叉熵代价函数(损失函数)及其求导推导相关推荐

  1. 交叉熵代价函数(损失函数)及其求导推导 (Logistic Regression)

    目录 1. 前言 2. 交叉熵损失函数 3. 交叉熵损失函数的求导 前言 说明:本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似(Logistic回归和Softmax回归两者本 ...

  2. Softmax函数下的交叉熵损失含义与求导

    交叉熵损失函数(CrossEntropy Function)是分类任务中十分常用的损失函数,但若仅仅看它的形式,我们不容易直接靠直觉来感受它的正确性,因此我查阅资料写下本文,以求彻底搞懂. 1.Sof ...

  3. 为什么需要交叉熵代价函数

    为什么需要交叉熵代价函数 人类却能够根据明显的犯错快速地学习到正确的东西.相反,在我们的错误不是很好地定义的时候,学习的过程会变得更加缓慢.但神经网络却不一定如此,这种行为看起来和人类学习行为差异很大 ...

  4. sigmoid函数求导_交叉熵损失函数的求导(Logistic回归)

    目录 前言 交叉熵损失函数 交叉熵损失函数的求导 前言 最近有遇到些同学找我讨论sigmoid训练多标签或者用在目标检测中的问题,我想写一些他们的东西,想到以前的博客里躺着这篇文章(2015年读研时机 ...

  5. 反向传播算法推导(交叉熵代价函数-吴恩达机器学习)

    0. 前言 第一次看吴恩达老师机器学习视频时, 在9.29.29.2节卡住.看到评论区别人解答(Arch725 的解答)发现有一些疏漏,而且缺少一些铺垫,所以进行了一些修改补充. 本文的反向传播算法的 ...

  6. 机器学习基础(六)—— 交叉熵代价函数(cross-entropy error)

    交叉熵代价函数 1. 交叉熵理论 交叉熵与熵相对,如同协方差与方差. 熵考察的是单个的信息(分布)的期望: H(p)=−∑i=1np(xi)logp(xi) H(p)=-\sum_{i=1}^n p( ...

  7. softmax的log似然代价函数(公式求导)

    在人工神经网络(ANN)中,Softmax通常被用作输出层的激活函数.这不仅是因为它的效果好,而且因为它使得ANN的输出值更易于理解.同时,softmax配合log似然代价函数,其训练效果也要比采用二 ...

  8. 交叉熵代价函数cross-entropy

    交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式.与二次代价函数相比,它能更有效地促进ANN的训练.在介绍交叉熵代价函 ...

  9. 交叉熵代价函数(作用及公式推导

    交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式.与二次代价函数相比,它能更有效地促进ANN的训练.在介绍交叉熵代价函 ...

最新文章

  1. RHCSA7-NOTE(红帽管理员-题库详细笔记)
  2. android 多屏幕 设计翻译,android Supporting multiple screen翻译一
  3. VS Code 直接跳到下一行编辑快捷键
  4. KAFKA 集成 SpringBoot2 消息发送和消费消息(基础篇)
  5. Python使用pycuda在GPU上并行处理批量判断素数
  6. Mysql体系结构及sql执行过程总结
  7. 字符数组的定义与使用具体解析
  8. 使用Python的pip方法安装第三方包时,很慢或者失败的问题
  9. ajax分页效果、分类联动、搜索功能
  10. 使用python学习数学建模
  11. 一款使用RxJava+Retrofit+MVP的快播App开源啦!
  12. linux 在 vi 中设定一下行号 怎么做啊 求图片,linux中vi/vim显示行号设置
  13. 小程序:emoji等表情base64后乱码解决方案
  14. 计算机 无法进入睡眠模式,win10电脑无法进入睡眠模式怎么解决
  15. 自助提取公积金(北京)
  16. 宏碁E1-471G笔记本固态启动盘问题
  17. hdu 4544——消灭兔子
  18. JS的面向对象二(通过构造函数的方式)
  19. go语言channel学习与总结(一)channel的一些基本用法
  20. 最详细的苹果电脑Mac系统上运行Windows的教程解决方案

热门文章

  1. 转载--SQL还原数据库后孤立用户问题处理(SQL 数据库 拥有对象 无法删除)
  2. 【转】Android中APK安装过程及原理解析
  3. Writing and Mapping classes(Chapter 3 of NHibernate In Action)
  4. 选股方法-陶博士-月线反方法的思路来源
  5. 使用idea上传项目到gitHub
  6. bzoj2818: Gcd
  7. maven 配置环境变量
  8. java基础 6 基本类型与运算
  9. laravel 环境自编译过程
  10. Go -- 并发编程的两种限速方法