目录

交叉熵

相对熵


我们现已知的一个概念是,“熵”可以表示一个系统的混乱程度,从数学上来讲也是求期望的过程,是信息量与其对应概率相乘的结果。【关于熵具体的定义大家应该看了很多,这里我主要叙述交叉熵和相对熵】

在深度学习当中我们经常用交叉熵或者相对熵作为损失函数,用来衡量网络的输出结果和真实值的差距或者是概率分布上的相似性。这里将更进一步了解这一过程是怎么做到的。

交叉熵

先写出交叉熵公式

已知两个概率分布P与Q,可以将P视为我们真实值概率分布,Q为网络预测的概率分布(这里的概率都是经过softmax的soft label,不是hard label) 。在神经网络中,m是输入图片的数量,就是输入的(真实值,也是一个概率值),这个概率值就是要么是狗,要么就不是狗,输出的预测值就是判断有多像狗。再对上式基础上,我们还可以拓展一下【可以想成一个二分类】:

公式的中x是输入的图像,真实值,y是网络预测值。公式前半部分就是判断这张图中目标是狗的熵是多少,后半部分为不是狗的熵。

相对熵

也叫KL散度,对于两个概率系统P与Q,定义为:

以P为基准,去考虑P与Q相差多少。对于某个事件,系统Q的信息量fq减去它对应到P中的信息量fp,差值求整体的期望。这个差值直观理解就是Q如果想和P一样,应该补充多少差值;

对上式继续展开:

其中前半部分就是交叉熵H(P,Q)。从上式可以看出,是将P的熵分成了两个部分,前面是交叉熵,后面是自己的熵值【我的理解就是也可以类比成前面预测值,后面真实值,然后两者的差值,或者说两者的举例】

交叉熵和相对熵都是度量两个概率分布的相似性,所以可以用来做损失函数,和以单纯的以欧氏距离或者去计算真实值和预测值的差值考虑的更全。

还有一点就是,我们通常认为熵应该越小越好,这个其实应该看应用于什么场景,我们在对话通信方面,希望的是熵,信息量越小越好。但在深度学习中熵应该是越大越好,熵越大,系统程度混乱,说明了两个样本(猫和狗)的概率分布越大,相似性越小,概率分布越独立【个人理解】。

交叉熵以及相对熵的理解相关推荐

  1. 【知识建设】信息熵、条件熵、互信息、交叉熵及相对熵(KL散度)

    一.信息熵 1. 定义 衡量一个随机变量 X X X的信息量,用 H H H表示 根据这个定义,这应该是个不确定的值(随机变量是变化的),而数学上使用期望来将这种不确定性量化: H = ∑ x ∈ X ...

  2. 熵,信息熵,香农熵,微分熵,交叉熵,相对熵

    2019-07-13 https://blog.csdn.net/landstream/article/details/82383503 https://blog.csdn.net/pipisorry ...

  3. 熵、联和熵与条件熵、交叉熵与相对熵是什么呢?来这里有详细解读!

    熵是一个很常见的名词,在物理上有重要的评估意义,自然语言处理的预备知识中,熵作为信息论的基本和重点知识,在这里我来记录一下学习的总结,并以此与大家分享. 信息论基本知识 1.熵 2.联和熵与条件熵 3 ...

  4. 信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵

    文章目录 1.1 信息和信息的测量 1.1.1 什么是信息 1.1.1 信息怎么表示 1.2 信息熵 1.3 条件熵和联合熵 The Chain Rule (Relationship between ...

  5. 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

    目录: 信息量 熵 相对熵(KL散度) 交叉熵 JS散度 推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述 信息量: 任何事件都会承载着一定的信息量,包括已经发 ...

  6. 交叉熵损失函数原理深层理解

    说起交叉熵损失函数「Cross Entropy Loss」,相信大家都非常熟悉,但是要深入理解交叉熵损失函数的原理和作用,还得溯本追源才能对其有一个真实的理解与认知. 交叉熵 交叉熵是用来度量两个概率 ...

  7. 《信息熵,联合熵,条件熵,交叉熵,相对熵》

    一:自信息 二:信息熵 三:联合熵 四:条件熵 五:交叉熵 六:相对熵(KL散度) 七:总结

  8. 通俗的解释交叉熵与相对熵

    一.交叉熵 (1):离散表示: (2):连续表示: 两项中 H(p)是 p的信息熵,后者是p和q的相对熵: 二.相对熵 (1):离散表示: (2):连续表示: 三.二者关系 转载于:https://w ...

  9. 熵、KL散度、交叉熵公式及通俗理解

    熵 根据香农信息论中对于熵的定义,给定一个字符集,假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码(哈夫曼编码)平均需要的比特数等于这个字符集的熵. 如果字符集中字符概率越趋于平均, ...

  10. 【交叉熵损失函数】关于交叉熵损失函数的一些理解

    目录 0. 前言 1.损失函数(Loss Function) 1.1 损失项 1.2 正则化项 2. 交叉熵损失函数 2.1 softmax 2.2 交叉熵 0. 前言 有段时间没写博客了,前段时间主 ...

最新文章

  1. 膝盖中了一箭之康复篇-第五个月
  2. 详解ADO.NET操作数据库合力创享
  3. 管理处理器的亲和性(affinity)
  4. 第一章 | 使用python机器学习
  5. 猴子摘桃python代码_阿尔法python练习(4-6答案)
  6. 二分答案——跳石头(洛谷 P2678)
  7. bellman ford优先队列优化简介模板
  8. Python自动化课之Day3篇
  9. 1985-2020年全国各省一二三产业就业人数/各省分产业就业人数数据(无缺失)
  10. Pr零基础入门指南笔记二
  11. Linux基础-磁盘阵列RAID
  12. the little schemer 笔记(6)
  13. php实现简单的留言板
  14. 用计算机sp画笑脸,用AI技术给名画P上笑脸,看上去整幅画的画风都不好了……...
  15. 概率论与数理统计---随机变量的分布
  16. 【OV7670】基于FPGA的OV7670摄像头介绍和使用
  17. Elasticsearch分词器介绍
  18. matlab seawater下载,海洋要素计算工具箱seawater
  19. Goroutine并发调度模型深度解析之手撸一个协程池
  20. CentOS 7.2 安装 Oracle 11g 报错:Error in invoking targ

热门文章

  1. SEAIR传染病模型及其开源代码
  2. C# 将Big5繁体转换简体GB2312的代码
  3. 搞一下SOA | 11 SOA 系统建模
  4. 利用HTML完成登陆界面设计
  5. kindle索引_Kindle太费电?卡索引解决办法
  6. Java毕业设计-资产管理系统
  7. 【AI】人工智能之深度学习(1)—— 入门
  8. MATLAB数字信号处理系统GUI实现
  9. Mac环境下安装、配置liteide
  10. python xlwt_python中使用 xlwt 操作excel的常见方法与问题