熵

我们现已知的一个概念是，“熵”可以表示一个系统的混乱程度，从数学上来讲也是求期望的过程，是信息量与其对应概率相乘的结果。【关于熵具体的定义大家应该看了很多，这里我主要叙述交叉熵和相对熵】

$-Plog_{2}P$

在深度学习当中我们经常用交叉熵或者相对熵作为损失函数，用来衡量网络的输出结果和真实值的差距或者是概率分布上的相似性。这里将更进一步了解这一过程是怎么做到的。

交叉熵

先写出交叉熵公式

$H(P,Q)=\sum_{i=1}^{m}P_{i}(-log_{2}Q_{i})$

已知两个概率分布P与Q，可以将P视为我们真实值概率分布，Q为网络预测的概率分布(这里的概率都是经过softmax的soft label，不是hard label) 。在神经网络中，m是输入图片的数量， $P_{i}$ 就是输入的 $x_{i}$ (真实值，也是一个概率值)，这个概率值就是要么是狗，要么就不是狗，输出的预测值 $y_{i}$ 就是判断有多像狗。再对上式基础上，我们还可以拓展一下【可以想成一个二分类】：

$=-\sum_{i=1}^{m}(x_{i}log_{2}y_{i}+(1-x_{i})\cdot log_{2}(1-y_{i}))$

公式的中x是输入的图像，真实值，y是网络预测值。公式前半部分就是判断这张图中目标是狗的熵是多少，后半部分为不是狗的熵。

相对熵

也叫KL散度，对于两个概率系统P与Q，定义为：

$D_{KL}(P|Q)=\sum_{i=1}^{m}p_{i}\cdot (f_{q}(q_{i})-f_{p}(p_{i}))$

以P为基准，去考虑P与Q相差多少。对于某个事件，系统Q的信息量fq减去它对应到P中的信息量fp，差值求整体的期望。这个差值直观理解就是Q如果想和P一样，应该补充多少差值；

对上式继续展开：

$=\sum_{i=1}^{m}p_{i}(-log_{2}q_{i})-p_{i}(-log_{2}p_{i})$

其中前半部分就是交叉熵H(P,Q)。从上式可以看出，是将P的熵分成了两个部分，前面是交叉熵，后面是自己的熵值【我的理解就是也可以类比成前面预测值，后面真实值，然后两者的差值，或者说两者的举例】

交叉熵和相对熵都是度量两个概率分布的相似性，所以可以用来做损失函数，和以单纯的以欧氏距离或者去计算真实值和预测值的差值考虑的更全。

还有一点就是，我们通常认为熵应该越小越好，这个其实应该看应用于什么场景，我们在对话通信方面，希望的是熵，信息量越小越好。但在深度学习中，熵应该是越大越好，熵越大，系统程度混乱，说明了两个样本(猫和狗)的概率分布越大，相似性越小，概率分布越独立【个人理解】。

交叉熵以及相对熵的理解相关推荐

【知识建设】信息熵、条件熵、互信息、交叉熵及相对熵（KL散度）
一.信息熵 1. 定义衡量一个随机变量 X X X的信息量,用 H H H表示根据这个定义,这应该是个不确定的值(随机变量是变化的),而数学上使用期望来将这种不确定性量化: H = ∑ x ∈ X ...
熵，信息熵，香农熵，微分熵，交叉熵，相对熵
2019-07-13 https://blog.csdn.net/landstream/article/details/82383503 https://blog.csdn.net/pipisorry ...
熵、联和熵与条件熵、交叉熵与相对熵是什么呢？来这里有详细解读！
熵是一个很常见的名词,在物理上有重要的评估意义,自然语言处理的预备知识中,熵作为信息论的基本和重点知识,在这里我来记录一下学习的总结,并以此与大家分享. 信息论基本知识 1.熵 2.联和熵与条件熵 3 ...
信息论复习笔记（1）：信息熵、条件熵，联合熵，互信息、交叉熵，相对熵
文章目录 1.1 信息和信息的测量 1.1.1 什么是信息 1.1.1 信息怎么表示 1.2 信息熵 1.3 条件熵和联合熵 The Chain Rule (Relationship between ...
交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离（推土机距离）
目录: 信息量熵相对熵(KL散度) 交叉熵 JS散度推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述信息量: 任何事件都会承载着一定的信息量,包括已经发 ...
交叉熵损失函数原理深层理解
说起交叉熵损失函数「Cross Entropy Loss」,相信大家都非常熟悉,但是要深入理解交叉熵损失函数的原理和作用,还得溯本追源才能对其有一个真实的理解与认知. 交叉熵交叉熵是用来度量两个概率 ...
《信息熵，联合熵，条件熵，交叉熵，相对熵》
一:自信息二:信息熵三:联合熵四:条件熵五:交叉熵六:相对熵(KL散度) 七:总结
通俗的解释交叉熵与相对熵
一.交叉熵 (1):离散表示: (2):连续表示: 两项中 H(p)是 p的信息熵,后者是p和q的相对熵: 二.相对熵 (1):离散表示: (2):连续表示: 三.二者关系转载于:https://w ...
熵、KL散度、交叉熵公式及通俗理解
熵根据香农信息论中对于熵的定义,给定一个字符集,假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码(哈夫曼编码)平均需要的比特数等于这个字符集的熵. 如果字符集中字符概率越趋于平均, ...
【交叉熵损失函数】关于交叉熵损失函数的一些理解
目录 0. 前言 1.损失函数(Loss Function) 1.1 损失项 1.2 正则化项 2. 交叉熵损失函数 2.1 softmax 2.2 交叉熵 0. 前言有段时间没写博客了,前段时间主 ...

交叉熵以及相对熵的理解

熵

交叉熵

相对熵

交叉熵以及相对熵的理解相关推荐

最新文章

热门文章