交叉熵函数cross_entropy与归一化指数函数softmax

交叉熵

交叉熵主要是用来判定实际的输出与期望的输出的接近程度，其数学公式如下：
$H\left ( p,q \right )=-\sum_{x}\left ( p\left ( x \right ) log^{q\left ( x \right )}+\left ( 1-p\left ( x \right ) \right )log^{\left ( 1-q\left ( x \right ) \right )}\right )$
但Pytorch中的交叉熵采用了另一种方式，其公式如下：

$H\left ( p,q \right )=-\sum_{x}p\left ( x \right ) log^{q\left ( x \right )}$
交叉熵描述了概率分布q对概率分布p估计的准确程度，所以在使用交叉熵损失函数时，通常会设定p代表正确答案，q代表预测的结果值。损失需要一步一步被减小，才能使得预测的答案越来越接近真实的答案。深度学习所涉及到的分类问题常使用交叉熵损失函数。

Softmax

需要注意的是，交叉熵刻画的是两个概率分布（或是概率分布向量）之间的距离，这就要求神经网络的输出要是一个概率分布。那么如何在分类问题中将神经网络前向传播得到的结果变成概率分布提供给交叉熵损失函数进行计算呢？softmax回归就是一种很常用的方法。其公式如下：

$softmax\left ( y \right )=\frac{e^{y_{i}}}{\sum_{j=1}^{n}e^{y_{i}}}$

pytorch中softmax函数使用如下：

F.softmax(input,dim=0) # 按列SoftMax,列和为1F.softmax(input,dim=1) # 按行SoftMax,行和为1

cross_entropy

Pytorch中cross_entropy()函数就是将softmax（）、log（）、nll_loss（）三个函数合并到一块得到的结果。

1、Softmax后的数值都在0~1之间，所以ln之后值域是负无穷到0。

2、将Softmax之后的结果取log，将乘法改成加法减少计算量，同时保障函数的单调性。注意：在不加说明的情况下，log表示数学中的自然对数函数ln（以e为底的log函数）。

3、nll_loss（negative log likelihood loss）的结果就是把上面的输出与Label对应的那个值拿出来，去掉负号，再求均值。

举例说明计算过程：

import torch
import torch.nn.functional as F#设置标签，假设是二分类，一共有4个样本，因此标签维度为1*4
label = torch.Tensor([0,1,1,0]).long()#创建一个形状为4*2（代表一共4个样本，2个类别）的tensor，模拟分类神经网络的输出
#分别进行softmax与log计算，并打印输出结果
a = torch.Tensor([[0.7654,0.0308],[0.7829,0.0386],[0.7779,0.0331],[0.7781,0.0326]])
b = F.softmax(a,dim=1)
c = torch.log(b)print(a)
print(b)
print(c)a= tensor([[0.7654, 0.0308],[0.7829, 0.0386],[0.7779, 0.0331],[0.7781, 0.0326]])b= tensor([[0.6758, 0.3242],[0.6779, 0.3221],[0.6780, 0.3220],[0.6782, 0.3218]])c= tensor([[-0.3918, -1.1264],[-0.3887, -1.1330],[-0.3885, -1.1333],[-0.3883, -1.1338]])#根据上述的标签值，我们选择张量c中对应位置的数值，进行计算
loss = -(-0.3918-1.1330-1.1333-0.3883)/4 = 0.7616

参考文章：https://www.cnblogs.com/marsggbo/p/10401215.html

https://www.jianshu.com/p/6049dbc1b73f

《Tensorflow深度学习算法原理与编程实践》书籍