YOLOV4各个创新功能模块技术分析(二)

四.数据增强相关-GridMask
Data Augmentation

论文名称:GridMask Data
Augmentation

论文地址:https://arxiv.org/abs/2001.04086v2

论文摘要

本文提出了一种新的数据增强方法GridMask。它利用信息去除来实现各种计算机视觉任务的最新结果。分析了信息丢弃的需求。在此基础上,指出了现有信息丢弃算法的局限性,提出了一种简单有效的结构化方法。它基于输入图像区域的删除。大量实验表明,本方法优于最新的AutoAugment,这是由于使用强化学习来寻找最佳策略而导致的计算代价更高。在用于识别的ImageNet数据集、COCO2017对象检测和用于语义分割的Cityscapes数据集上,本方法都显著提高了性能。大量的实验证明了新方法的有效性和通用性。

本文可以认为是前面3篇文章的改进版本。本文的出发点是:删除信息和保留信息之间要做一个平衡,而随机擦除、cutout和hide-seek方法都可能会出现可判别区域全部删除或者全部保留,引入噪声,可能不好。如下所示:

要实现上述平衡,作者发现非常简单,只需要结构化drop操作,例如均匀分布似的删除正方形区域即可。并且可以通过密度和size参数控制,达到平衡。如下所示:

其包括4个超参,如下所示:

首先定义k,即图像信息的保留比例,其中H和W分别是原图的高和宽,M是保留下来的像素数,保留比例k如下,该参数k和上述的4个参数无直接关系,但是该参数间接定义了r:

d决定了一个dropped
square的大小, 参数 x和 y的取值有一定随机性.


其实看起来,就是两个参数: r和d,r通过k计算而来,用于计算保留比例(核心参数),d用了控制每个块的大小。d越大,每个黑色块面积就越大,黑色块的个数就越少,d越小,黑色块越小,个数就越多。xy仅仅用于控制第一个黑色块的偏移而已。

对于应用概率的选择,可以采用固定值或者线性增加操作,作者表示线性增加会更好,例如首先选择r = 0.6,然后随着训练epoch的增加,概率从0增加到0.8,达到240th epoch后固定,这种操作也是非常make sense,为了模拟更多场景,在应用于图片前,还可以对mask进行旋转。这种策略当然也可以应用于前3种数据增强策略上。

五.数据增强相关-object
Region Mining with Adversarial Erasin

论文地址:https://arxiv.org/pdf/1703.08448.pdf

论文摘要

研究了一种利用分类网络逐步挖掘目标区域的方法来解决弱监督语义分割问题。分类网络只对来自感兴趣对象的小而稀疏的区分区域做出响应,这偏离了分割任务的要求,分割任务需要对密集、内部和整体区域进行本地化,以便进行像素级推理。为了缩小这一差距,提出了一种新的对抗性擦除方法来逐步定位和扩展目标区域。从单个小目标区域开始,提出的方法通过以对抗的方式擦除当前的挖掘区域,驱动分类网络顺序地发现新的和补充的目标区域。这些局部区域最终构成一个稠密完整的学习语义分割的对象区域。为了通过对抗性擦除进一步提高发现区域的质量,开发了一种在线禁止性分段学习方法,通过提供由更可靠的分类分数调节的辅助分段监督,与对抗性擦除协作。尽管该方法明显简单,但在帕斯卡VOC 2012 val和测试集(这是最新的技术状态)上,其平均交集(mIoU)得分分别达到55.0%和55.7%。

本文在yolov4中仅仅是提了一下,不是重点,但是觉得思想不错,所以还是写一下。本文要解决的问题是使用分类做法来做分割任务(弱监督分割),思想比较有趣。如下所示:

通过迭代训练的方式不断挖掘不同的可判别区域,最终组合得到完整的分割结果。第t次训练迭代(一次迭代就是指的一次完整的训练过程),对于每张图片都可以得到cam图(类别激活图),将cam图二值化然后盖在原图上,进行下一次迭代训练,每次迭代都是学习一个不同的可判别区域,迭代结束条件就是分类性能不行了,因为可判别区域全部被盖住了(由于该参数其实很难设置,故实验直接取3)。最后的分割结果就是多次迭代的cam图叠加起来即可。本文是cvpr2017的论文,放在现在来看,做法其实超级麻烦,现在而言肯定直接采用细粒度方法,采用特征擦除技术,端到端训练,学习出所有可判别区域。应该不会比这种做法效果差,但是在当时还是不错的思想。但是其也提供了一种思路:是否可以采用分类预测出来的cam,结合弱监督做法,把cam的输出也引入某种监督,在提升分类性能的同时,提升可判别学习能力。

六.数据增强相关-mixup

论文名称:mixup: BEYOND
EMPIRICAL RISK MINIMIZATION

论文地址:https://arxiv.org/abs/1710.09412

论文摘要

大型深层神经网络功能强大,但表现出不受欢迎的行为,如记忆和对敌对例子的敏感性。在这项工作中,提出了mixup,一个简单的学习原则来缓解这些问题。从本质上讲,mixup训练一个神经网络,这是关于一对例子及其标签的凸组合的。通过这样做,mixup使神经网络正则化,以利于训练实例之间的简单线性行为。在ImageNet-2012、CIFAR-10、CIFAR-100、Google命令和UCI数据集上的实验表明,mixup改进了最先进的神经网络体系结构的通用性。本文还发现,混合减少了对腐败标签的记忆,提高了对抗性例子的鲁棒性,并稳定了生成性对抗性网络的训练。

mixup由于非常有名,想大家都应该知道,而且网上各种解答非常多,故这里就不重点说了。

其核心操作是:两张图片采用比例混合,label也需要混合。


论文中提到的一些关键的Insight:

1 也考虑过三个或者三个以上的标签做混合,但是效果几乎和两个一样,而且增加了mixup过程的时间。2 当前的mixup使用了一个单一的loader获取minibatch,对其随机打乱后,mixup对同一个minibatch内的数据做混合。这样的策略和在整个数据集随机打乱效果是一样的,而且还减少了IO的开销。3 在同种标签的数据中使用mixup不会造成结果的显著增强

七.数据增强相关-cutmix和Mosaic

论文名称:CutMix:
Regularization Strategy to Train Strong Classifiers with Localizable Features

论文地址:https://arxiv.org/abs/1905.04899

开源地址:https://github.com/clovaai/CutMix-PyTorch

论文摘要

为了提高卷积神经网络分类器的性能,提出了区域退学策略。事实证明,它们可以有效地引导模型关注对象中不易区分的部分(例如,腿而不是人头),从而使网络更好地进行泛化,并具有更好的对象定位能力。另一方面,当前的区域性丢失方法通过叠加一块黑色像素或随机噪声来去除训练图像上的信息像素。这种删除是不可取的,因为它会导致信息丢失和训练效率低下。提出了CutMix增强策略:在训练图像中剪切和粘贴面片,其中地面真值标签也与面片的面积成比例地混合。通过有效利用训练像素和保持区域回归的正则化效果,CutMix在CIFAR和ImageNet分类任务以及ImageNet弱监督定位任务中始终优于最新的增强策略。此外,与以前的增强方法不同,CutMix训练的ImageNet分类器在用作预训练模型时,在Pascal检测和MS-COCO图像字幕基准方面获得了一致的性能增益。证明了CutMix提高了模型对输入腐败的鲁棒性及其分布外检测性能。

简单来说cutmix相当于cutout+mixup的结合,可以应用于各种任务中。

mixup相当于是全图融合,cutout仅仅对图片进行增强,不改变label,而cutmix则是采用了cutout的局部融合思想,并且采用了mixup的混合label策略,看起来比较make sense。cutmix和mixup的区别是,其混合位置是采用hard 0-1掩码,而不是soft操作,相当于新合成的两张图是来自两张图片的hard结合,而不是Mixup的线性组合。但是其label还是和mixup一样是线性组合。作者认为mixup的缺点是:Mixup samples suffer from the fact that they are locally ambiguous

and unnatural, and therefore confuses the model, especially for localization。

M是和原图大小一样的矩阵,只有0-1值,用于控制线性混合度,通过参数可以控制裁剪矩形大小,

伪代码如下:

而Mosaic增强是本文提出的,属于cutmix的扩展,cutmix是两张图混合,而马赛克增强是4张图混合,好处非常明显是一张图相当于4张图,等价于batch增加了,可以显著减少训练需要的batch size大小。

YOLOV4各个创新功能模块技术分析(二)相关推荐

  1. YOLOV4各个创新功能模块技术分析(一)

    YOLOV4各个创新功能模块技术分析(一) 简 介 yolov4论文:YOLOv4: Optimal Speed and Accuracy of Object Detection arxiv:http ...

  2. YOLOV4各个创新功能模块技术分析(三)

    YOLOV4各个创新功能模块技术分析(三) 八.数据增强相关-Stylized-ImageNet 论文名称:ImageNet-trained cnns are biased towards textu ...

  3. 有声小说书屋阅读软件 功能及技术分析

    目录 一.有声小说书屋软件功能 1.界面介绍 2.听书功能 1)点击上册工具栏的  喇叭,可实现听书功能, 2)生成网页,借助 edge浏览器的听书功能 3. 扩展书屋 二.所用技术介绍 1.导入小说 ...

  4. AIBlockChain:“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之二、会中智能

    AI&BlockChain:"知名博主独家讲授"人工智能创新应用竞赛[精选实战作品]之<基于计算机视觉.自然语言处理.区块链和爬虫技术的智能会议系统>软件系统案 ...

  5. RTSP安防网络摄像头/海康大华硬盘录像机网页无插件直播方案EasyNVR之主要功能模块及相关技术特点与性能指标分析

    EasyNVR安防流媒体服务解决方案,支持RTSP稳定拉流接入,支持Onvif协议接入,支持RTSP/RTMP/HLS/HTTP-FLV分发,将传统安防监控设备互联化,无插件直播等. 功能模块 1.设 ...

  6. BetaFlight模块设计之二十九:滤波模块分析

    BetaFlight模块设计之二十九:滤波模块分析 滤波模块 滤波类型 1. slewFilter 2. simpleLowpassFilter 3. laggedMovingAverage 4. p ...

  7. 信息组织与检索【知识点整理】| 信息检索技术与方法 信息检索系统结构和功能模块 信息描述 信息标引 信息存储

    目录 1 简单的定义 (一)广义的信息检索(信息组织+信息检索) (二)狭义的信息检索 2 信息检索技术与方法 (一)文本信息检索 (二)多媒体信息检索 3 信息检索系统结构和功能模块 (一)信息检索 ...

  8. 觉SLAM的主要功能模块分析

    视觉SLAM的主要功能模块分析 一.基本概念 SLAM (simultaneous localization and mapping),也称为CML (Concurrent Mapping and L ...

  9. 字节码技术在模块依赖分析中的应用

    背景 近年来,随着手机业务的快速发展,为满足手机端用户诉求和业务功能的迅速增长,移动端的技术架构也从单一的大工程应用,逐步向模块化.组件化方向发展.以高德地图为例,Android 端的代码已突破百万行 ...

最新文章

  1. 云平台屡次停摆,核心系统事故频发?您的运维系统该升级了!
  2. jquery书写左右两个多选下拉列表交换移除功能
  3. python内置函数有哪些_Python集合有哪些内置函数可以使用,这些内置函数有什么功能...
  4. 皮一皮:傻傻分不清,这究竟是教室还是...
  5. Double 与 Float 的值的比較结果
  6. 安卓入门系列-02创建一个项目
  7. python 线性回归 技术方案亮点_基于Python的线性回归实战
  8. /etc/sysconfig/i18n文件详解
  9. 前端学习(1293):系统模块path路径操作
  10. 你见过工资高的程序员炫富 来7拍一下
  11. 把握初期企业的发展战略规划
  12. python从零学——scrapy初体验
  13. Android通讯录程序设计报告,Android个人通讯录课程设计报告.doc
  14. 机械秒表的使用方法_秒表的使用方法?
  15. PyQt环境的搭建:安装python+pyqt+eric
  16. krohne流量计接线图_电磁流量计如何接线_电磁流量计接线实物图
  17. CV之IE之Inception:基于TF框架利用Inception模型+GD算法的某层网络图像生成不同尺寸和质量的Deep Dream幻觉梦境图片(特征可视化实现图像可解释性)—五个架构设计思维导图
  18. 社交媒体中有哪些有趣的数据?能挖掘出哪些价值?
  19. 机器学习:Python实现聚类算法(二)之AP算法
  20. python爬取虎扑评论_python爬取网站数据

热门文章

  1. Docker入门六部曲——基本引导
  2. 2022-2028年中国丁二烯橡胶行业市场规模研究及前瞻分析报告
  3. 浅显易懂 Makefile 入门 (02)— 普通变量和自动变量定义、使用($@、$^、$< 作用)、变量覆盖 override、变量的来源 origin
  4. 力所能及的做些自己喜欢和有趣的事
  5. 数组的拼接合并 numpy
  6. 【图论】有向无环图的拓扑排序
  7. 谷粒商城学习笔记——第一期:项目简介
  8. 循环IRNNv2Layer实现
  9. 目标检测中特征融合技术(YOLO v4)(下)
  10. Android webview 加载的html 无法显示弹框