一文读懂交叉熵（Cross-Entropy）和相对熵（Relative-Entropy）

提到机器学习，就不得不提损失函数，提到损失函数，就不得不提交叉熵。
本文章将对这个概念进行详细的分析。

1、信息量

信息量是对事件发生概率的度量，一个事件发生的概率越低，则这个事件包含的信息量越大，这跟我们直观上的认知也是吻合的，越稀奇新闻包含的信息量越大，因为这种新闻出现的概率低。

举个例子，大家都知道猪会跑，但是猪会不会飞就不一定了，毕竟猪在风口上，也能飞上天（手动滑稽）。为了便于理解，我们分别用随机变量 X X X和 Y Y Y来表示猪会不会跑和会不会飞，下标 0 0 0 代表不会， 1 1 1 代表会，且认为 p ( x 1 ) = 0.9 p(x_1)=0.9 p(x1)=0.9， p ( y 1 ) = 0.4 p(y_1)=0.4 p(y1)=0.4，则：

猪会跑： p ( x 1 ) = 0.9 p(x_1)=0.9 p(x1)=0.9，信息量 I ( x 1 ) = − l o g ( 0.9 ) = 0.15 I(x_1)=-log(0.9)=0.15 I(x1)=−log(0.9)=0.15
猪会飞： p ( y 1 ) = 0.4 p(y_1)=0.4 p(y1)=0.4，信息量 I ( y 1 ) = − l o g ( 0.4 ) = 1.32 I(y_1)=-log(0.4)=1.32 I(y1)=−log(0.4)=1.32

显然，猪会飞更稀奇，带给我们的信息量越大。

对于随机变量 X X X，事件 X = x 0 X=x_0 X=x0 的信息量定义为：
I ( x 0 ) = l o g ( 1 p ( x 0 ) ) = − l o g ( p ( x 0 ) ) I(x_0)=log(\frac{1}{p(x_0)})=-log(p(x_0)) I(x0)=log(p(x0)1)=−log(p(x0))
其中p(x_0)为事件 X=x_0发生的概率。

2、熵

熵是一种对不确定性的方法，对于存在不确定性的系统，熵越大表示该系统的不确定性越大，熵为0表示没有任何不确定性。

同样以猪会不会跑，会不会飞为例，刚出生的小猪，以后会不会跑是存在一定不确定性（万一从小自闭，就不会跑了），如何度量这个不确定度，求期望，我们对所有可能结果带来的信息量求期望，其结果就能够衡量出此问题的不确定度了：
H ( X ) = − ( p ( x 0 ) l o g ( p ( x 0 ) ) + ( p ( x 1 ) ) l o g ( p ( x 1 ) ) ) = − ( 0.1 l o g ( 0.1 ) + 0.9 l o g ( 0.9 ) ) = 0.47 H ( Y ) = − ( p ( y 0 ) l o g ( p ( y 0 ) ) + ( p ( y 1 ) ) l o g ( p ( y 1 ) ) ) = − ( 0.6 l o g ( 0.6 ) + 0.4 l o g ( 0.4 ) ) = 0.97 \begin{aligned} H(X)&=−(p(x_0)log(p(x_0))+(p(x_1))log(p(x_1))) \\ &=-(0.1log(0.1)+0.9log(0.9) ) \\ &=0.47 \\ H(Y)&=−(p(y_0)log(p(y_0))+(p(y_1))log(p(y_1))) \\ &=-(0.6log(0.6)+0.4log(0.4) ) \\ &=0.97 \end{aligned} H(X)H(Y)=−(p(x0)log(p(x0))+(p(x1))log(p(x1)))=−(0.1log(0.1)+0.9log(0.9))=0.47=−(p(y0)log(p(y0))+(p(y1))log(p(y1)))=−(0.6log(0.6)+0.4log(0.4))=0.97
可见，猪会不会跑的不确定性较低，会不会飞的不确定性较高。
对于一个离散随机变量 X X X，它的所有可能取值的信息量的期望 E ( I ( x ) ) E(I(x)) E(I(x)) 就称为熵
H ( X ) = E ( I ( x ) ) = ∑ x ∈ X p ( x ) I ( x ) = ∑ x ∈ X p ( x ) ( − l o g ( p ( x ) ) ) = − ∑ x ∈ X p ( x ) l o g ( p ( x ) ) \begin{aligned} H(X)=E(I(x)) &=∑_{x∈X}p(x)I(x) \\ &=∑_{x∈X}p(x)(-log(p(x)))\\ & =−∑_{x∈X}p(x)log(p(x)) \end{aligned} H(X)=E(I(x))=x∈X∑p(x)I(x)=x∈X∑p(x)(−log(p(x)))=−x∈X∑p(x)log(p(x))
同理连续随机变量为：
H ( X ) = E ( I ( x ) ) = ∫ x ∈ X p ( x ) I ( x ) d x = ∫ x ∈ X p ( x ) ( − l o g ( p ( x ) ) ) d x = − ∫ x ∈ X p ( x ) l o g ( p ( x ) ) d x \begin{aligned} H(X)=E(I(x)) &=∫_{x∈X}p(x)I(x)dx \\ &=∫_{x∈X}p(x)(-log(p(x)))dx\\ & =−∫_{x∈X}p(x)log(p(x))dx \end{aligned} H(X)=E(I(x))=∫x∈Xp(x)I(x)dx=∫x∈Xp(x)(−log(p(x)))dx=−∫x∈Xp(x)log(p(x))dx

3、交叉熵

在机器学习中，每个训练集都存在一个真实的概率分布，也叫真实分布，我们的机器学习算法就是要拟合出一个概率分布，这个分布越接近真实分布越好。而根据真实分布，我们能够找到一个最优策略，以最小的代价消除系统的不确定性，而这个代价大小就是信息熵，需要注意的是，熵衡量了系统的不确定性，而我们要消除这个不确定性，所要付出的【最小努力】（猜题次数、编码长度等）的大小就是信息熵。
对于真是分布 P P P和预测分布 Q Q Q，它们的交叉熵定义如下：
C E H ( p , q ) = ∑ x ∈ X p ( x ) l o g 1 q ( x ) = − ∑ x ∈ X p ( x ) l o g q ( x ) CEH(p,q) =∑_{x∈X}p(x)log\frac{1}{q(x)}=−∑_{x∈X}p(x)logq(x) CEH(p,q)=x∈X∑p(x)logq(x)1=−x∈X∑p(x)logq(x)
即，在分布 P P P 的概率曲线下， Q Q Q 携带的信息量，且这个信息量要大于 P P P 的熵 H ( P ) H(P) H(P)，这是因为，P为真是分布，在真实情况下，P是最可能发生的，即，在 p ( x ) p(x) p(x)下， I ( q ( x ) ) > = I ( p ( x ) ) I(q(x))>=I(p(x)) I(q(x))>=I(p(x))。
因此，交叉熵越低越好，最低的交叉熵也就是使用了真实分布所计算出来的信息熵，因为此时 p x p_x px = q x q_x qx，交叉熵 = 信息熵。
特别的，当P和Q服从两点分布时，也就是二分类问题下：
C E H ( p , q ) = − ∑ x ∈ X p ( x ) l o g q ( x ) = − ( P p ( x = 1 ) l o g P q ( x = 1 ) + P p ( x = 0 ) l o g P q ( x = 0 ) ) = − [ p l o g q + ( 1 − p ) l o g ( 1 − q ) ] \begin{aligned} CEH(p,q) &=−∑_{x∈X}p(x)logq(x) \\ &=−(P_p(x=1)logP_q(x=1)+P_p(x=0)logP_q(x=0))\\ &=−[plogq+(1−p)log(1−q)] \end{aligned} CEH(p,q)=−x∈X∑p(x)logq(x)=−(Pp(x=1)logPq(x=1)+Pp(x=0)logPq(x=0))=−[plogq+(1−p)log(1−q)]
将 p p p替换成 y y y， q q q替换成 y ^ \hat{y} y^
L = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] L=−[ylog \hat{y}+(1−y)log (1−\hat{y})] L=−[ylogy^+(1−y)log(1−y^)]
是不是很眼熟？

4、相对熵

相对熵与交叉熵容易搞混，二者联系紧密，但又有所区别。
相对熵（relative entropy）又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息增益（information gain）。
KL散度是两个概率分布P和Q差别的非对称性的度量。简单来说，相对熵用来衡量两个取值为正的函数或概率分布之间的差异，即
K L ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) ∗ log ⁡ p ( x ) q ( x ) = ∑ x ∈ X ( p ( x ) l o g p ( x ) − p ( x ) l o g q ( x ) ) = − ∑ x ∈ X p ( x ) l o g q ( x ) − ( − ∑ x ∈ X p ( x ) l o g p ( x ) ) = C E H ( p , q ) − H ( p ) \begin{aligned} KL(p||q) &= \sum_{ x \in X} p(x) * \log \frac{p(x)}{q(x)} \\ &=∑_{x∈X}(p(x)logp(x)−p(x)logq(x)) \\ &=−∑_{x∈X}p(x)logq(x) - (-∑_{x∈X}p(x)logp(x))\\ &= CEH(p, q) - H(p) \end{aligned} KL(p∣∣q)=x∈X∑p(x)∗logq(x)p(x)=x∈X∑(p(x)logp(x)−p(x)logq(x))=−x∈X∑p(x)logq(x)−(−x∈X∑p(x)logp(x))=CEH(p,q)−H(p)
相对熵和交叉熵区别在于，交叉熵中P、Q是有真实分布和预测分布的说法的，相对熵没有，且交叉熵代表的是由Q到P的最优策略。
假设我们想知道某个策略和最优策略之间的差异，我们就可以用相对熵来衡量这两者之间的差异。即，相对熵 = 某个策略的交叉熵 - 信息熵（根据系统真实分布计算而得的信息熵，为最优策略)。

参考链接

https://www.zhihu.com/question/41252833
https://www.jianshu.com/p/92220ab37ea3
https://blog.csdn.net/rtygbwwwerr/article/details/50778098
https://en.wikipedia.org/wiki/Kraft–McMillan_inequality