Effective Number论文摘记

常识：

Cost-Sensitive Learning和Re-Weightng是一回事
Sigmoid Cross-Entropy Loss（ Sigmoid 交叉熵损失）

在多分类任务中，Sigmoid 函数将每个类别视为独立的二分类任务，而不像 Softmax 函数那样将类别视为互斥的。

Sigmoid 交叉熵损失的主要优点有两个：Sigmoid 函数不假设类别之间是互斥的，这使得它在处理现实世界中类别之间可能存在相似性的数据集时表现良好，尤其是在处理大量细粒度类别的情况下。由于每个类别都被视为独立的，因此 Sigmoid 函数可以将单标签分类问题与多标签预测问题统一起来。这是一个很好的特性，因为现实世界的数据通常具有多个语义标签。
Focal Loss （焦点损失）

Focal Loss 是Kaiming He 在 2018 年的论文 “Focal Loss for Dense Object Detection[27]” 中提出的。该损失函数主要用于解决目标检测任务中的类别不平衡问题，尤其是在密集目标检测场景下。Focal Loss 是对 Sigmoid 交叉熵损失的扩展，它通过引入一个调节因子γ（一般取0.5或1或2）来关注难以分类的样本，从而使模型更关注在训练过程中被错误分类的样本。

聚焦的问题：

数据越多越好。然而，根据”边际效益“理论，由于数据之间存在信息重叠，随着样本数量的增加，模型从新添加的数据中获得的好处变少。

“边际效益”反映了随着数据量增加，模型性能提升的速度可能会变慢。这是因为随着数据量的增加，其中的重复信息也会增加，模型从这些重复信息中获取的额外知识变得有限。换句话说，随着样本数量的增加，每个新添加的样本对模型性能的贡献逐渐减小。

贡献：

我们提出了一个新颖的理论框架来描述数据重叠并以模型和损失无关的方式计算有效样本数量（effective number就是从各类别样本中找到具有代表性且互不重叠的类原型），核心思想是将每个样本与一个小邻域相关联，而不是只把它们看成一个个单独的点。effective number可以通过一个简单的公式 (1−β^n)/(1−β) 来计算，其中 n 是样本数量，β ∈ [0, 1) 是一个人为给定的超参数，但其实β这个超参数是取决于N的值，因为β= (N − 1)/N ，或者说β背后的N才是真正的超参数，一般取0.9或0.99或0.999或0.9999（在CI FAR-10上一致最佳β值为0.9999，但在CI FAR-100上不是越大越好，0.9999不如0.99好）；N是对某一类中有代表性且互不重叠的类原型个数的期望值，换句话说，N其实表示的是假设该类有无穷多个样本时，真正有效的样本数量是多少，但真实情况中不可能有哪个类别有无穷多个样本，因此样本数越多，代入effective number公式算出的该类的有效样本数越逼近N
将一个与有效样本数量成反比的类平衡重新加权项添加到损失函数中。
因为我们不对数据分布做任何假设，这使得我们的损失广泛地适用于现有模型和损失函数（如现有的softmax交叉熵损失、sigmoid交叉熵损失和focal loss中）

具体来说，

Class-Balanced Softmax Cross-Entropy Loss如下：

Class-Balanced Sigmoid Cross-Entropy Loss如下：

Class-Balanced Focal Loss如下：

4.传统的深度网络训练方案将最后的线性分类层初始化为偏置 b = 0。正如 Lin 等人 [27] 所指出的，当使用 Sigmoid 函数获取类概率时，这可能导致训练不稳定。这是因为在最后一层使用 b = 0 的 Sigmoid 函数会在训练开始时产生巨大的损失，因为每个类别的输出概率接近于 0.5。因此，对于使用 Sigmoid 交叉熵损失和 Focal 损失进行训练，我们假设每个类别的先验概率为 π = 1/C，其中 C 为类别数量，并将最后一层的偏置初始化为 b = - log ((1 - π) / π)。此外，我们还移除了最后一层偏置 b 的 ℓ2 正则化（权重衰减）。

不成熟的想法：

现在的这个effective number公式未对数据分布做任何假设，能否设计一种因数据集类别分布而异的各类别effective number的计算方式？
这篇论文的作者表示，按照论文5.2节的训练策略，sigmoid交叉熵和焦点损失在大多数情况下都能优于softmax交叉熵。可后续的研究似乎并没有跟进这一点，在cifar10、cifar100这种图像分类数据集上，仍然在用softmax交叉熵损失。在图像分类问题中focal loss、Sigmoid Cross-Entropy Loss和传统的softmax交叉熵损失到底用哪个效果好？

参考文献：

[27] Tsung-Yi Lin, Priyal Goyal, Ross Girshick, Kaiming He, and Piotr Doll ́ ar. Focal loss for dense object detection. PAMI, 2018. 2, 5, 6