点击我爱计算机视觉标星,更快获取CVML新技术


本文转载自知乎,已获作者同意转载,请勿二次转载

(原文地址:https://zhuanlan.zhihu.com/p/100052168)

背景

《Is Sampling Heuristics Necessary in Training Deep Object Detectors?》是2019 挂在arXiv上的论文,作者来自于中科大,也是之前ResObj的作者(张凯:2019 ResObj(样本不平衡问题,学习方法)目标检测论文阅读笔记)。并且该论文代码也开源了。

论文地址:

http://arxiv.org/abs/1909.04868

代码地址:

https://github.com/ChenJoya/sampling-free

一、研究动机

该论文关注还是样本不平衡问题,但是解决的思路不同于之前的基于soft-sampling的方法(RetinaNet、GHM、IoU-balanced sampling),这类方法都会比较依赖于超参的调整。

作者的另一篇论文ResObj是通过引入obj分支来处理样本不平衡问题,额外增加了计算量和带宽。该论文则是提出了sample-free的机制,主要包含三种策略:

1)偏置初始化;

2)引导损失函数权重;

3)类别分数阈值自适应。

二、具体方法

1)focal loss的分析

首先是将RetinaNet中的focal loss去掉,直接改成CE,作者发现loss会直接爆炸,这个时候将分类loss的权重设为五千分之一,才可以训练,但是最后的性能只有6.9。这是因为严重的样本不平衡导致。

为了解决该问题,类似于RetinaNet(仔细读RetinaNet论文,确实也有介绍),引入bias initialization,发现设置为0.01,权重设为五百分之一,性能有17.9%;再将设置更小(  ),性能可以达到35.6,和采用focal loss相差就不大。具体如下图所示:

进一步地,由于采用bias initialization,类别的分数普遍降低,所以将阈值降低,性能还能进一步提升,达到36.2,比较接近focal loss的性能。

2)sample-free机制

1 Optimal Bias Initialization

作者重写了CE-loss:

其中,N代表总的样本数,  代表正样本数,C代表类别数。

不同取值对应的loss如下图所示:

并且为了求得L的最小值,简单利用其导数可以求得

得到:

实际上,该方法是将样本不平衡中对负样本的抑制放在初始化中。

在RetinaNet中,正样本比值约为千分之一,C约为80,所以最优的  约为  .

2)Guided loss

由于回归loss是只有正样本的,不存在正负样本不平衡问题,所以作者希望通过回归loss的大小来引导分类的loss:

其中,r为:

这里cls的权重是超参,需要进行调整。

3)Class-Adaptive Threshold

这里把之前上一节的分析进一步的拓展,每一类别的分数都自适应改变,其阈值如下:

三、实验结果

总体,实验结果还是比较完整的,one-stage的YOLOv3,RetinaNet,two-stage的Faster RCNN,Cascade RCNN,anchor-free的FoveaBox,均能取得类似或者更好的结果。

另外,作者还对比分析了GHM:

在公平对比GHMR的情况下,两者性能也是较为接近的,但是该方法速度上会有优势,因为GHM要先计算一次梯度,再做统计。

四、总结分析

作者通过三种简单的技巧(主要是利用初始化来抑制样本不平衡)有效地提升了目标检测的性能,其结果在各个检测器上相比soft-sampling的方法其性能相似或者更好,但是超参的调整更少,并且也没有增加计算量。该论文的发现和结论还是蛮有意思的。

另一方面,该论文实际关注的还是正负样本不平衡,显式意义上并不能涵盖难易样本不平衡,不同IoU的样本不平衡这类同样重要的问题,目前这些问题主要还是通过soft-sampling的方法来解决的。


http://www.taodudu.cc/news/show-1228026.html

相关文章:

  • 完美替代Mask RCNN!BlendMask:实例分割新标杆
  • 浅析图卷积神经网络
  • 强化学习常用算法+实际应用
  • 多人种人脸识别
  • 开源/免费数学书大合集:微积分、线代、数分、抽代…数学教授分类整理,精心推荐...
  • FaceShifter:北大微软新方法让换脸更惊艳
  • 60页论文综述深度学习优化方法,出自UIUC
  • EfficientDet 目标检测开源实现
  • Det3D - 首个通用 3D 目标检测框架
  • 谷歌 NAS + 目标检测 新作:SpineNet
  • 深度学习之PyTorch物体检测实战——新书赠送活动
  • Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型
  • 150秒内诊断脑瘤!最新医学影像AI在《Nature Medicine》发表
  • 亚马逊开源模型设计神器:AutoGluon,三行代码自动生成SOTA模型!
  • DeOccNet:国防科大提出阵列相机去除前景遮挡成像新方法
  • TensorFlow2.1正式版发布!最后一次支持Python2,进一步支持TPU
  • 谷歌 AI 的2019:日均2篇论文,纵横16大方向,一文汇集重要开源算法
  • 2020年最前沿的 8 本AI技术图书—文末留言赠8本
  • 第四届 AI City 挑战赛 @ CVPR 2020 开始啦!
  • 基于图像查询的视频检索,代码已开源!
  • 数十亿次数学运算只消耗几毫瓦电力,谷歌开源Pixel 4背后的视觉模型
  • 首个实时单目3D目标检测算法:RTM3D,代码将开源
  • 深度学习行人重识别ReID最新综述与展望
  • 胶囊网络与计算机视觉教程 @CVPR 2019
  • 平均每个员工2000万!苹果为啥买下这家刚成立3年的AI创业公司?
  • PyTorch 1.4 最新版放出:支持Python2的最后一版,支持分布式模型并行、Java程序、移动端等多项新功能...
  • 合成视频以假乱真新高度!商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统...
  • 斯坦福用普通相机和激光笔实现“穿墙透视”,连你的证件都能看清
  • 包云岗:伯克利科研模式的启发
  • 性能提升120倍!滴滴东北大学提出自动结构化剪枝压缩算法框架

2019 sample-free(样本不平衡)目标检测论文阅读笔记相关推荐

  1. 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar

    毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...

  2. 【目标检测论文阅读笔记】QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

    Abstract 虽然深度学习的通用目标检测在过去几年取得了巨大成功,但检测小目标的性能和效率却远不尽如人意.促进小目标检测的最常见和有效的方法是使用高分辨率图像或特征图.然而,这两种方法都会导致昂贵 ...

  3. 【目标检测论文阅读笔记】Feature-Enhanced CenterNet for Small Object Detection in Remote Sensing Images

    Abstract: 与 anchor-based基于锚点的检测器相比,anchor-free无锚点检测器 具有灵活性和较低计算复杂度的优点.然而,在复杂的遥感场景中,受限的几何尺寸.目标的弱特征 以及 ...

  4. 【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice

    1.1 论文信息 标题 Optimizing Video Object Detection via a Scale-Time Lattice 会议 CVPR 2018 原文链接 Optimizing ...

  5. 目标检测论文阅读:GHM(anchor based)

    目标检测论文阅读:GHM(anchor based) 论文链接:https://arxiv.org/abs/1811.05181 代码链接:https://github.com/libuyu/GHM_ ...

  6. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  7. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  8. 目标检测论文阅读:DeFCN(POTO+3DMF)算法笔记

    标题:End-to-End Object Detection with Fully Convolutional Network 会议:CVPR2021 论文地址:https://ieeexplore. ...

  9. 目标检测论文阅读:GFL算法笔记

    标题:Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detect ...

最新文章

  1. stm32之通用定时器
  2. javaweb使用 数据库连接池 DBCP,实现对数据库驱动使用优化,多个 action共用一个数据库连接
  3. [Jarvis OJ - PWN]——Test Your Memory
  4. c#中关于协变性和逆变性(又叫抗变)帮助理解
  5. mysql 定期备份策略,MySQL--3--mysqldump备份策略
  6. 人工智能TensorFlow工作笔记009---认识TensorFlow中的会话
  7. Ecology 查询某人所有流程待办事项
  8. C++ 中的volatile关键字解析
  9. hashmap删除指定key_Java集合:HashMap底层实现和原理(源码解析)
  10. Windows 上如何制作简谱
  11. 【编程知识】常用参考表对照表
  12. 新拓三维测量仪器助力土木工程与高端制造迈向数字化
  13. c语言多功能日历菜单,C语言课程设计日历显示
  14. 《百词斩背单词》四级词汇(3486个)-1
  15. 使用itext实现pdf图片签章
  16. 记模拟器出现横竖屏切换闪屏问题
  17. python编程从入门到实战16章x轴刻度与书不一样,2020-10-05 Python编程从入门到实践 第16章 下载数据 动手试...
  18. 为什么未来是全栈工程师的世界?
  19. 游戏程序员的2013年终总结
  20. 文本分割之垂直投影法基于OpenCV(python)的实现

热门文章

  1. Android Studio 安装 NDK(Mac OX)
  2. 读《程序员修炼之道——从小工到专家》(The Pragmatic Programmer: From Journeyman to Master)
  3. G - A Bug‘s Life(并查集) acm寒假集训日记22/1/2
  4. CodeForces - 1485B(找规律+求和) acm寒假集训日记21/12/31or22/1/1
  5. 线性代数【15】复合线性变换-矩阵乘法 和 三维变换
  6. java反射基础_Java反射基础(一)--Class对象获取
  7. 张鑫 css,元素有高度 但是css设置背景色不显示
  8. vnc 字体设置_Xterm字体大小的设置
  9. php memcache 类库,php操作Memcache的一个类库的方法(代码)
  10. 字典排序什么意思_列表及字典的排序