Effective Number论文摘记
Effective Number论文摘记
常识:
Cost-Sensitive Learning和Re-Weightng是一回事
Sigmoid Cross-Entropy Loss( Sigmoid 交叉熵损失)
在多分类任务中,Sigmoid 函数将每个类别视为独立的二分类任务,而不像 Softmax 函数那样将类别视为互斥的。
Sigmoid 交叉熵损失的主要优点有两个:Sigmoid 函数不假设类别之间是互斥的,这使得它在处理现实世界中类别之间可能存在相似性的数据集时表现良好,尤其是在处理大量细粒度类别的情况下。由于每个类别都被视为独立的,因此 Sigmoid 函数可以将单标签分类问题与多标签预测问题统一起来。这是一个很好的特性,因为现实世界的数据通常具有多个语义标签。
Focal Loss (焦点损失)
Focal Loss 是Kaiming He 在 2018 年的论文 “Focal Loss for Dense Object Detection[27]” 中提出的。该损失函数主要用于解决目标检测任务中的类别不平衡问题,尤其是在密集目标检测场景下。Focal Loss 是对 Sigmoid 交叉熵损失的扩展,它通过引入一个调节因子γ(一般取0.5或1或2)来关注难以分类的样本,从而使模型更关注在训练过程中被错误分类的样本。
聚焦的问题:
数据越多越好。然而,根据”边际效益“理论,由于数据之间存在信息重叠,随着样本数量的增加,模型从新添加的数据中获得的好处变少。
“边际效益”反映了随着数据量增加,模型性能提升的速度可能会变慢。这是因为随着数据量的增加,其中的重复信息也会增加,模型从这些重复信息中获取的额外知识变得有限。换句话说,随着样本数量的增加,每个新添加的样本对模型性能的贡献逐渐减小。
贡献:
我们提出了一个新颖的理论框架来描述数据重叠并以模型和损失无关的方式计算有效样本数量(effective number就是从各类别样本中找到具有代表性且互不重叠的类原型),核心思想是将每个样本与一个小邻域相关联,而不是只把它们看成一个个单独的点。effective number可以通过一个简单的公式 (1−β^n)/(1−β) 来计算,其中 n 是样本数量,β ∈ [0, 1) 是一个人为给定的超参数,但其实β这个超参数是取决于N的值,因为β= (N − 1)/N ,或者说β背后的N才是真正的超参数,一般取0.9或0.99或0.999或0.9999(在CI FAR-10上一致最佳β值为0.9999,但在CI FAR-100上不是越大越好,0.9999不如0.99好);N是对某一类中有代表性且互不重叠的类原型个数的期望值,换句话说,N其实表示的是 假设该类有无穷多个样本时,真正有效的样本数量是多少,但真实情况中不可能有哪个类别有无穷多个样本,因此样本数越多,代入effective number公式算出的该类的有效样本数越逼近N
将一个与有效样本数量成反比的类平衡重新加权项添加到损失函数中。
因为我们不对数据分布做任何假设,这使得我们的损失广泛地适用于现有模型和损失函数(如现有的softmax交叉熵损失、sigmoid交叉熵损失和focal loss中)
具体来说,
Class-Balanced Softmax Cross-Entropy Loss如下:
Class-Balanced Sigmoid Cross-Entropy Loss如下:
Class-Balanced Focal Loss如下:
4.传统的深度网络训练方案将最后的线性分类层初始化为偏置 b = 0。正如 Lin 等人 [27] 所指出的,当使用 Sigmoid 函数获取类概率时,这可能导致训练不 稳定。这是因为在最后一层使用 b = 0 的 Sigmoid 函数会在训练开始时产生巨 大的损失,因为每个类别的输出概率接近于 0.5。因此,对于使用 Sigmoid 交 叉熵损失和 Focal 损失进行训练,我们假设每个类别的先验概率为 π = 1/C, 其中 C 为类别数量,并将最后一层的偏置初始化为 b = - log ((1 - π) / π)。 此外,我们还移除了最后一层偏置 b 的 ℓ2 正则化(权重衰减)。
不成熟的想法:
- 现在的这个effective number公式未对数据分布做任何假设,能否设计一种因数据集类别分布而异的各类别effective number的计算方式?
- 这篇论文的作者表示,按照论文5.2节的训练策略,sigmoid交叉熵和焦点损失在大多数情况下都能优于softmax交叉熵。可后续的研究似乎并没有跟进这一点,在cifar10、cifar100这种图像分类数据集上,仍然在用softmax交叉熵损失。在图像分类问题中focal loss、Sigmoid Cross-Entropy Loss和传统的softmax交叉熵损失到底用哪个效果好?
参考文献:
[27] Tsung-Yi Lin, Priyal Goyal, Ross Girshick, Kaiming He, and Piotr Doll ́ ar. Focal loss for dense object detection. PAMI, 2018. 2, 5, 6
Effective Number论文摘记相关推荐
- Class-Balanced Loss Based on Effective Number of Samples - 1 - 论文学习
https://arxiv.org/pdf/1901.05555.pdf skewed 倾斜的,歪斜的 heuristic 启发式的 interpolated插值 focal 焦点的 compleme ...
- OSDI’21 GNN 相关论文摘记
OSDI'21 GNN 相关论文摘记 Dorylus: Affordable, Scalable, and Accurate GNN Training with Distributed CPU Ser ...
- RKGE Recurrent Knowledge Graph Embedding for Effective Recommendation 论文
Paper-RKGE [ Recurrent Knowledge Graph Embedding for Effective Recommendation ] Abstract 关于KG应用于推荐,现 ...
- FixMatch论文摘记
FixMatch(ReMixMatch的大大简化版本) 对于无标签样本前人的做法 基于一致性正则化 最小化交叉熵损失或均方误差损失,使得模型对于同一样本的两种不同数据增强的预测结果尽可能地接近. 基于 ...
- RKGE:Recurrent Knowledge Graph Embedding for Effective Recommendation 论文
emm-图片复制过来显示不了(因为我太懒了0.0),要看图的话可以去我的博客瞅瞅,嘿嘿嘿 对了,有些英文短句假如翻译成中文,阅读的时候就太搞脑子了,所以我干脆就不翻译了 这篇论文的模型跟我上一篇发布的 ...
- 机器学习基石 5.3 Effective Number of Hypotheses
文章目录 1. Dichotomies: Mini-hypotheses 2. Growth Function 3. Growth Function for Positive Rays 4. Grow ...
- Beyond Homophily in Graph Neural Networks: Current Limitations and Effective Designs 论文理解
还是有点懒,直接粘贴PDF图片了.
- 论文摘记_《雷达有源干扰技术研究》
文章目录 雷达干扰的难点 压制干扰 && 欺骗干扰 两类干扰方式的优缺点 压制干扰 噪声调制干扰使用原因 噪声调幅 噪声调频 噪声调相 小结 欺骗干扰 多普勒闪烁 速度拖引 时域频域调 ...
- 【CVPR2019】论文完整列表一
CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...
最新文章
- sys.argv[]学习
- 【PS】WBS结算到建工程问题
- rtthread 串口dma接收_RT-Thread 串口DMA使用笔记--STM32F207
- Magicodes.IE之快速导出Excel
- 《计算机网络自顶向下》知识体系完全梳理
- 洛谷.3121.审查(AC自动机 链表)
- AltiumDesigner 的 PcbDoc文件转 pads 的 PCB文件
- visio画图-去掉visio中多余的连接点
- OpenRefine数据清洗实战
- 使用Unicode字符集出现的错误总结
- word向下箭头符替换和打印,去掉多余换行
- 分销零售企业售后服务管理软件的业务分析
- 3月股权激励团队管理内容回顾
- #Paper Reading# Stochastic Optimization of Sorting Networks via Continuous Relaxations
- 叶檀:别上了美国人的当 加息会给中国致命一击
- JS数字区间比较大小的写法
- java操作文件之文件重命名
- [小o地图-数据] - 下载行政区范围内的POI数据
- mysql日期时间类型
- module 'gensim' has no attribute 'corpora'