二元函数图像生成器_常见的损失函数（loss function）

本文主要讲一下机器学习/深度学习里面比较常见的损失函数。

分类损失

hinge loss

其中y是标签，要么为1（正样本），要么为-1（负样本）。hinge loss被使用在SVM当中。对于正确分类的f(x)预测值，并且|f(x)|>=1，那么不会被计算到损失函数当中。只有那些错误分类，或者分类置信度不够（|f(x)|<1），才会计入损失，所以SVM对正确分类的离群点不敏感，不会鼓励分类器过分自信，更关注错误分类的那些样本。

指数损失

指数损失被用到adaboost算法当中，对错误分类的离群点比较敏感。

cross entropy

交叉熵是深度学习中最常见的分类损失函数，对数损失本质上也是交叉熵损失，可以通过定义推导出来：推导过程。

二分类交叉熵损失函数：

f(x)指模型预测类别为y的概率。

多分类交叉熵损失函数：

sigmoid的损失函数一般使用交叉熵而不是平方损失，理由是交叉熵可以在误差大时有较大梯度，收敛快。在误差小时梯度小，能够得到一个比较好的最优解。具体推导需要从权重参数更新的公式来考虑（推导过程），其中平方损失的权重更新公式包含了sigmoid的导数项，而交叉熵损失则不会出现这种情况。

focal loss

facal loss是加权的二分类交叉熵损失。用来解决样本不均衡和困难样本学习的问题。

记：

那么focal loss的表达式为：

其中，

越大，越关注难样本。某个类别

越大，越关注该类别。

在原论文中正样本的

, 其实是为了缓和

增加正样本的权重，所以给正样本一个较小的值。

对比损失

对比损失（constrastive loss）最初被使用在孪生网络里面，也是用来鼓励类间距离要足够大和类内距离要比较小。

其中

是样本对，y是类别判断函数，当x1和x2来自一个类别，则y(x1,x2)=1，否则为0；d是距离函数，margin使我们所想要的类间距离至少要大于阈值。

triplet loss

在人脸识别、行人识别里面，最重要的两个任务是特征提取和距离度量。好的特征一般是类内差距小，类间距离大的。所以就有了三元组损失，又叫做triplet loss：

triplet有三元组(a,p,n)，a表示anchor，是关注的样本；然后p表示positive sample，是跟anchor同类别的样本，n表示negative sample，是跟anchor不同类别的样本。triple loss希望anchor的embedding跟positive接近，跟negative 距离比较远。其公式为：

其中，d是距离函数。当d(a,p)+margin > d(a,n)时，这时a是easy sample，不需要优化，所以损失为0。当d(a,p)+margin < d(a,n)时，a是hard sample。当d(a,p)<d(a,n)<d(a,p)+margin时，semi hard sample。实现时一般采用online方式，即每个batch里面去构建triplet。

回归损失

L1 loss（绝对值损失）

L2 loss (MSE、平方差损失)

huber loss(smoothed-L1 loss)

为了解决L1 loss在0点处不能求导以及L2 loss对离群点比较敏感的问题，提出了huber loss融合了L1、L2 loss的优点：

BCE loss

BCE loss是二元交叉熵损失，其实是二分类交叉熵损失，可以用在前背景分割、语义分割的网络训练当中。

dice loss

dice loss一般用在医学图像分割中。

原始版本：

为了避免除0的情况，加了平滑：

total variance loss

total valiance loss 一般是衡量图像平滑性的，定义为像素点与邻域像素点的灰度值的差的平方：

L =

一般说来，噪声图片的灰度值突兀的像素点比较多，引起的total variance比较大。

perceptual loss

感知损失，就是把预训练好的特征提取器相当于人的眼睛，要求生成的图像和真实图像经过预训练好的模型提取得到的特征尽可能相似。在图像生成里面，感知损失可以让图片生成地更加逼真一些：

其中

是预训练好的特征提取网络，比如VGG。

分布损失

KL散度损失

记事件X熵为H(X),则

，它衡量的是不确定的概率，熵越大，信息量越大，这个就越不确定。

其中P是真实样本分布，Q是模型预测分布。

对公式进行变形还可以得到：

为什么分类任务使用交叉熵不使用KL？

因为KL损失=事件熵+交叉熵，在分类任务里面，事件熵一般不会变化为常数，故直接使用交叉熵。

JS散度

为了解决KL损失不对称（P,Q交换得到的距离不一样）的问题，提出了JS损失。

vanilla GAN Loss

原始的GAN loss其实是在最小化JS散度。

辨别器loss:

生成器loss:

两种形式：

第二种形式在train GAN的开始时候梯度会好一点，实际上是通过label flipping（反转G生成样本的类别标签实现的）。

least square GAN loss

辨别器

生成器