为什么交叉熵可以用来当损失？与MMD的区别？

为什么交叉熵可以用来当损失

主要写一下思路，不做具体的详解。
1. 信息量-log(p)---->信息熵-plog(p) （信息量的期望）
此时只有一个分布
2. 进一步引入KL散度，此时是两个分布了，此时用p表示真实分布，q表示预测的分布
plog(p/q)

KL散度又称为相对熵，或者信息增益，两个概率分布P和q差别的非对称性的度量

3. 在机器学习和深度学习中，我们所希望的就是模型学习到的分布Pmodel尽可能的接近于数据真实的分布Preal。

那么根据KL散度，我们最小化 Pmodel和Ptraining的KL散度即可。

然后我们对KL散度做一个变化如下，公式中p就表示Ptraining，q就表示模型学习导的分布Pmodel。

在机器（深度）学习中，训练数据的分布p(x)已经固定下来，那么 $H(p)$ 是一个定值，因此我们最小化KL散度，就近似等于最小化交叉熵 $H(p,q)$ 。

优化交叉熵损失，等价于优化KL散度，表示的是用预测的分布q来表示真实分布p所带来的信息量的损失，是从信息熵的角度来进行衡量的。

如果预测分布越接近于真实的分布，那么这个信息量的损失就应该尽可能小，当这个信息量的损失最小的时候，我们就可以认为预测的分布是近似于实际的分布的。

与MMD的区别

首先先介绍一下MMD距离

1.我们可以用随机变量的矩来描述一个随机变量，比如一阶中心矩是均值，二阶中心矩是方差等等。如果两个分布的均值和方差都相同的话，它们应该很相似，比如同样均值和方差的高斯分布和拉普拉斯分布。但是很明显，均值和方差并不能完全代表一个分布，这时候我们就需要更高阶的矩来描述一个分布。

2.MMD的基本思想就是，如果两个随机变量的任意阶都相同的话，那么两个分布就是一致的。而当两个分布不相同的话，那么使得两个分布之间差距最大的那个矩应该被用来作为度量两个分布的标准。

3.进一步地，就是通过一个核函数，将两个随机变量映射到同一个域，并且使这两个随机变在这个域的均值距离最大，然后这个距离就可以用来衡量两个随机变量分布的距离。

一句话总结MMD的大致过程：求两堆数据在高维空间（找到一个映射到高维的核函数f）中的均值的距离，不过这个高维空间必须最能体现出两个分布均值的差异(即最大均值差异) ，是一种核学习方法

介绍了KL散度和MMD，那么两者的区别就比较容易理解了：