202203Self-Supervised Pretraining and Controlled Augmentation Improve RareWildlife Recognition inUAV
目录
一、key-word
1.1 Pretext task
1.2 MoCo
1.3 CLD
二、SSL(self- supervised learning) framework
2.1 Augmentation
2.2 Kuzikus Wildlife Dataset Pre-training (KWD-Pre)
2.3 Kuzikus Wildlife Dataset Long-Tail distributed (KWD-LT)
一、key-word
self-supervised pretraining(Pretext task)、MoCo、CLD
1.1 Pretext task
是一种为达到特定训练任务而设计的间接任务。比如训练一个网络来对ImageNet分类,可以表达为 f θ ( x ) : x → y ,目的是获得具有语义特征提取/推理能力的 θ。假设有另外一个任务(也就是pretext),它可以近似获得这样的[公式],比如,Auto-encoder(AE),表示为: g θ ( x ) : x → x 。为什么AE可以近似 θ 呢?因为AE要重建 x就必须学习 x中的内在关系,而这种内在关系的学习又是有利于我们学习 [公式]的。这种方式也叫做预训练,为了在目标任务上获得更好的泛化能力,一般还需要进行fine-tuning(微调)等操作。
因此,Pretext task的好处就是简化了原任务的求解,在深度学习里就是避免了人工标记样本,实现无监督的语义提取,下面进一步解释。
Pretext任务可以进一步理解为:对目标任务有帮助的辅助任务。而这种任务目前更多的用于所谓的Self-Supervised learning,即一种更加宽泛的无监督学习。这里面涉及到一个很强的动机:训练深度学习需要大量的人工标注的样本,这是费时耗力的。而自监督的提出就是为了打破这种人工标注样本的限制,目的是在没有人工标注的条件下也能高效的训练网络,自监督的核心问题是如何产生伪标签(Pseudo label),而这种伪标签的产生是不涉及人工的,比如上述的AE的伪标签就是 [公式] 自身。举几个在视觉任务里常用的pretext task伪标签的产生方式:
·Rotation(图片旋转)
[1] S. Gidaris, P. Singh, and N. Komodakis, “Unsupervised representation learning by predicting image rotations,” ICLR, 2018.·Colorization(图片上色)
·Colorization(图片上色)
[2] R. Zhang, P. Isola, and A. A. Efros, “Colorful Image Colorization,” in ECCV, Cham, 2016, pp. 649-666.
·Inpainting(图片补全)
[3] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros, “Context Encoders: Feature Learning by Inpainting,” CVPR, 2016.
·Jigsaw Puzzle/Context Prediction(关系预测/上下文预测)
[4] C. Doersch, A. Gupta, and A. A. Efros, “Unsupervised Visual Representation Learning by Context Prediction,” ICCV, 2015.
参考:Self-Supervised Learning 自监督学习中Pretext task的理解_AngryCai的专栏-CSDN博客_pretext task
1.2 MoCo
受NLP任务的启发,MOCO将图片数据分别编码成查询向量和键向量,即,查询 q 与键队列 k ,队列包含单个正样本和多个负样本。通过 对比损失来学习特征表示。
主线依旧是不变的:在训练过程中尽量提高每个查询向量与自己相对应的键向量的相似度,同时降低与其他图片的键向量的相似度。
MOCO使用两个神经网络对数据进行编码:encoder和momentum encoder。encoder负责编码当前实例的抽象表示。momentum encoder负责编码多个实例(包括当前实例)的抽象表示。对于当前实例,最大化其encoder与momentum encoder中自身的编码结果,同时最小化与momentum encoder中其他实例的编码结果。
参考:对比学习(Contrastive Learning)综述 - 知乎
1.3 CLD
其核心思想为:首先对instances进行聚类,从而使相似instances被聚类为相同的group,之后进行contrastive learning,从而缓解了对高相似度instance进行错误排斥的情况。
参考:【源头活水】CVPR 2021 | CLD: 通过挖掘实例与聚类间关系进行无监督特征学习 - 云+社区 - 腾讯云
二、SSL(self- supervised learning) framework
模型建立在MoCo[13,5]和跨水平实例群识别(CLD)的工作基础上:
•提出了一种图像级野生动物识别方法,通过自我监督预训练减少标注数量。
•证明了在下游识别任务中,用自监督预训练比监督ImageNet预训练表现更好。
并且发现当将受控增强应用于自监督预训练,并微调具有少量标签的预训练模型,将优于使用所有可用训练标签微调的ImageNet预训练。自我监督预训练比监督预训练更有效地学习自然野生动物场景的表现。
2.1 Augmentation
对同一输入图像应用多个增强[39]。我们对一个特定的增广变换保持不变。例如,I1、I+总是通过相同的颜色但不同的旋转增强来增强,而I2、I+总是通过相同的旋转但不同的颜色增强来增强.
2.2 Kuzikus Wildlife Dataset Pre-training (KWD-Pre)
for pre-training
为每幅原始4000×3000的图像随机裁剪了15块补丁。每个补丁的大小为256×256像素,以节省内存并具有更大的批量大小。如果一张图像包含动物,我们会随机裁剪15个额外的补丁。以这种方式修剪会增加提取包含动物的斑块用于训练的机会。
2.3 Kuzikus Wildlife Dataset Long-Tail distributed (KWD-LT)
for fine-tuning/downstream task
背景类,原始图像随机裁剪程序(512)并验证每个补丁以确保其不包含任何动物。前景(野生动物)类,在地面真实边界框周围随机裁剪(224),确保每个片包含一个完整的动物body。选择了三种不同的随机种子,即训练、测试和验证集,以确保位置不同。
202203Self-Supervised Pretraining and Controlled Augmentation Improve RareWildlife Recognition inUAV相关推荐
- Self-Supervised Pre-Training for Transformer-BasedPerson Re-Identification 论文阅读与翻译
摘要 基于transformer的监督前训练在reid方面获得了很好的表现.但是,由于ImageNet与ReID数据集之间的域差异,通常需要更大的训练前的数据集(例如ImageNet-21K),因为t ...
- ECCV2022论文列表(中英对照)
Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...
- CVPR2022最新106篇论文整理|包含目标检测、动作识别、图像处理等32个方向
转自:极市平台 分类目录: 检测类 2D目标检测 3D目标检测 伪装目标检测 显著性目标检测 边缘检测 消失点检测 分割类 图像分割 语义分割 视频目标分割 人脸 人脸生成 人脸检测 图像处理 图像复 ...
- CVPR‘22 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向
CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...
- Fully Convolutional Networks for Semantic Segmentation (FCN)论文翻译和理解
论文题目:Fully Convolutional Networks for Semantic Segmentation 论文来源:Fully Convolutional Networks for Se ...
- 2015-FCN论文翻译
文章原址 文章目录 FCN论文翻译 摘要 1. 介绍 2. 相关工作 3. 全卷积网络 3.1 适用分类器用于dense prediction 3.2 Shift-and stitch是滤波稀疏 3. ...
- R-CNN论文精读(论文翻译)
文章目录 摘要 1.介绍 2.目标检测与R-CNN 3.可视化,融合和模型的错误 4. ILSVRC2013检测数据集 5.语义分割(略) 6.结论 附录 摘要 Object detection pe ...
- 深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
深度学习论文阅读目标检测篇(一):R-CNN<Rich feature hierarchies for accurate object detection and semantic segmen ...
- 【RCNN】论文翻译-用于精确物体定位和语义分割的丰富特征层次结构
目录 Abstract 1. Introduction 2. Object detection with R-CNN 2. R-CNN进行物体检测 2.1. Module design 2.1. 模块 ...
- CVPR 2022 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向
CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...
最新文章
- 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...
- mysql可视化_可视化图形工具-grafana直接显示mysql数据(BI展现)
- NLP深度学习:近期趋势概述
- 进程池的同步方法 pool.apply
- mac下快速搭建php开发环境,鸟枪换大炮,Mac下快速搭建PHP开发环境mamp的使用
- c++ sendmessage 鼠标 坐标是相对自身吗_【科普】你真的足够了解五轴加工吗?看完豁然开朗!...
- reactor p java_Java反应式框架Reactor中的Mono和Flux
- createjs入门
- cocos2dx 3.10 网狐土豪金版PC+手机端棋牌平台搭建
- 构建一个完整的中文智能问答系统
- 坑爹系列:sizeof运算符
- JAVA语言程序设计课后习题----第八单元解析(仅供参考)
- spPaint3d插件maya安装和介绍教程
- Python 生成UUID
- apktool+dex2jar+xjad反编译APK文件
- 智慧校园物联网管理平台建设方案2.0
- 《微信小程序-进阶篇》Lin-ui组件库源码分析-Icon组件
- Mac SpotLight无法搜索
- Docker Compose搭建TDengine集群
- 风控策略中如何制定差异化利率定价方案
热门文章
- 微信Python自动回复代码
- 深入理解Redis跳跃表的基本实现和特性
- NDO - 快速入门
- 目标识别与跟踪算法matlab_极市直播| 朱政:基于孪生网络结构的SiamRPN系列目标跟踪算法...
- 快速了解idm+油猴插件配合,极速下载(适用于全网)
- 51单片机入门(3)点灯的进阶——跑马灯(通过阻塞延时实现)
- 德州大学达拉斯分校计算机科学,德克萨斯大学达拉斯分校排名
- android 实现进度条的画面加载
- 读《华为“打工皇帝”徐家骏的十年感悟》的心志提升
- android 多张图片渐变切换控件