202203Self-Supervised Pretraining and Controlled Augmentation Improve RareWildlife Recognition inUAV

一、key-word

1.1 Pretext task

1.2 MoCo

1.3 CLD

二、SSL(self- supervised learning) framework

2.1 Augmentation

2.2 Kuzikus Wildlife Dataset Pre-training (KWD-Pre)

2.3 Kuzikus Wildlife Dataset Long-Tail distributed (KWD-LT)

一、key-word

self-supervised pretraining(Pretext task)、MoCo、CLD

1.1 Pretext task

是一种为达到特定训练任务而设计的间接任务。比如训练一个网络来对ImageNet分类，可以表达为 f θ ( x ) : x → y ，目的是获得具有语义特征提取/推理能力的 θ。假设有另外一个任务（也就是pretext），它可以近似获得这样的[公式]，比如，Auto-encoder（AE），表示为： g θ ( x ) : x → x 。为什么AE可以近似 θ 呢？因为AE要重建 x就必须学习 x中的内在关系，而这种内在关系的学习又是有利于我们学习 [公式]的。这种方式也叫做预训练，为了在目标任务上获得更好的泛化能力，一般还需要进行fine-tuning（微调）等操作。

因此，Pretext task的好处就是简化了原任务的求解，在深度学习里就是避免了人工标记样本，实现无监督的语义提取，下面进一步解释。

Pretext任务可以进一步理解为：对目标任务有帮助的辅助任务。而这种任务目前更多的用于所谓的Self-Supervised learning，即一种更加宽泛的无监督学习。这里面涉及到一个很强的动机：训练深度学习需要大量的人工标注的样本，这是费时耗力的。而自监督的提出就是为了打破这种人工标注样本的限制，目的是在没有人工标注的条件下也能高效的训练网络，自监督的核心问题是如何产生伪标签（Pseudo label），而这种伪标签的产生是不涉及人工的，比如上述的AE的伪标签就是 [公式] 自身。举几个在视觉任务里常用的pretext task伪标签的产生方式：
·Rotation（图片旋转）

[1] S. Gidaris, P. Singh, and N. Komodakis, “Unsupervised representation learning by predicting image rotations,” ICLR, 2018.·Colorization（图片上色）

·Colorization（图片上色）

[2] R. Zhang, P. Isola, and A. A. Efros, “Colorful Image Colorization,” in ECCV, Cham, 2016, pp. 649-666.

·Inpainting（图片补全）

[3] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros, “Context Encoders: Feature Learning by Inpainting,” CVPR, 2016.

·Jigsaw Puzzle/Context Prediction（关系预测/上下文预测）

[4] C. Doersch, A. Gupta, and A. A. Efros, “Unsupervised Visual Representation Learning by Context Prediction,” ICCV, 2015.

参考：Self-Supervised Learning 自监督学习中Pretext task的理解_AngryCai的专栏-CSDN博客_pretext task

1.2 MoCo

受NLP任务的启发，MOCO将图片数据分别编码成查询向量和键向量，即，查询 q 与键队列 k ，队列包含单个正样本和多个负样本。通过对比损失来学习特征表示。

主线依旧是不变的：在训练过程中尽量提高每个查询向量与自己相对应的键向量的相似度，同时降低与其他图片的键向量的相似度。

MOCO使用两个神经网络对数据进行编码：encoder和momentum encoder。encoder负责编码当前实例的抽象表示。momentum encoder负责编码多个实例(包括当前实例)的抽象表示。对于当前实例，最大化其encoder与momentum encoder中自身的编码结果，同时最小化与momentum encoder中其他实例的编码结果。

参考：对比学习（Contrastive Learning）综述 - 知乎

1.3 CLD

其核心思想为：首先对instances进行聚类，从而使相似instances被聚类为相同的group，之后进行contrastive learning，从而缓解了对高相似度instance进行错误排斥的情况。

参考：【源头活水】CVPR 2021 | CLD: 通过挖掘实例与聚类间关系进行无监督特征学习 - 云+社区 - 腾讯云

二、SSL(self- supervised learning) framework

模型建立在MoCo[13,5]和跨水平实例群识别（CLD）的工作基础上：

•提出了一种图像级野生动物识别方法，通过自我监督预训练减少标注数量。

•证明了在下游识别任务中，用自监督预训练比监督ImageNet预训练表现更好。

并且发现当将受控增强应用于自监督预训练，并微调具有少量标签的预训练模型，将优于使用所有可用训练标签微调的ImageNet预训练。自我监督预训练比监督预训练更有效地学习自然野生动物场景的表现。

2.1 Augmentation

对同一输入图像应用多个增强[39]。我们对一个特定的增广变换保持不变。例如，I1、I+总是通过相同的颜色但不同的旋转增强来增强，而I2、I+总是通过相同的旋转但不同的颜色增强来增强.

2.2 Kuzikus Wildlife Dataset Pre-training (KWD-Pre)

for pre-training

为每幅原始4000×3000的图像随机裁剪了15块补丁。每个补丁的大小为256×256像素，以节省内存并具有更大的批量大小。如果一张图像包含动物，我们会随机裁剪15个额外的补丁。以这种方式修剪会增加提取包含动物的斑块用于训练的机会。

2.3 Kuzikus Wildlife Dataset Long-Tail distributed (KWD-LT)

for fine-tuning/downstream task

背景类，原始图像随机裁剪程序（512）并验证每个补丁以确保其不包含任何动物。前景（野生动物）类，在地面真实边界框周围随机裁剪（224），确保每个片包含一个完整的动物body。选择了三种不同的随机种子，即训练、测试和验证集，以确保位置不同。

202203Self-Supervised Pretraining and Controlled Augmentation Improve RareWildlife Recognition inUAV相关推荐

Self-Supervised Pre-Training for Transformer-BasedPerson Re-Identification 论文阅读与翻译
摘要基于transformer的监督前训练在reid方面获得了很好的表现.但是,由于ImageNet与ReID数据集之间的域差异,通常需要更大的训练前的数据集(例如ImageNet-21K),因为t ...
ECCV2022论文列表（中英对照）
Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...
CVPR2022最新106篇论文整理｜包含目标检测、动作识别、图像处理等32个方向
转自:极市平台分类目录: 检测类 2D目标检测 3D目标检测伪装目标检测显著性目标检测边缘检测消失点检测分割类图像分割语义分割视频目标分割人脸人脸生成人脸检测图像处理图像复 ...
CVPR‘22 最新106篇论文分方向整理｜包含目标检测、动作识别、图像处理等32个方向
CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...
Fully Convolutional Networks for Semantic Segmentation (FCN)论文翻译和理解
论文题目:Fully Convolutional Networks for Semantic Segmentation 论文来源:Fully Convolutional Networks for Se ...
2015-FCN论文翻译
文章原址文章目录 FCN论文翻译摘要 1. 介绍 2. 相关工作 3. 全卷积网络 3.1 适用分类器用于dense prediction 3.2 Shift-and stitch是滤波稀疏 3. ...
R-CNN论文精读（论文翻译）
文章目录摘要 1.介绍 2.目标检测与R-CNN 3.可视化,融合和模型的错误 4. ILSVRC2013检测数据集 5.语义分割(略) 6.结论附录摘要 Object detection pe ...
深度学习论文阅读目标检测篇（一）：R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
深度学习论文阅读目标检测篇(一):R-CNN<Rich feature hierarchies for accurate object detection and semantic segmen ...
【RCNN】论文翻译-用于精确物体定位和语义分割的丰富特征层次结构
目录 Abstract 1. Introduction 2. Object detection with R-CNN 2. R-CNN进行物体检测 2.1. Module design 2.1. 模块 ...
CVPR 2022 最新106篇论文分方向整理｜包含目标检测、动作识别、图像处理等32个方向
CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

202203Self-Supervised Pretraining and Controlled Augmentation Improve RareWildlife Recognition inUAV