论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
1.瓶颈问题:
小尺度目标,受限于缺乏足够的目标特征信息,使之很难从背景中区分出来,且小尺度目标一般都是低分辨率、模糊不清的,因此检测性能一般
CNN-based目标检测算法都需要使用到下采样操作,导致小尺度目标不仅损失了空间位置信息,且本来很少的目标特征几乎被背景上的特征给淹没了
2.本文贡献:
提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络(MTGAN),可以与任何现有的检测器结合使用
在MTGAN中,生成器网络生成超分辨率图像,并引入多任务判别器网络,以同时区分真实的高分辨率图像与伪造图像,预测对象类别和细化边界框。 更重要的是,分类和回归损失被反向传播,以进一步指导生成器网络产生超分辨率图像,以便更容易分类和更好的定位。
最后,证明了MTGAN在目标检测的有效性,其中检测性能比几个最先进的检测器(主要用于小物体)提高了很多
3.解决方案:
(A) 整体网络输入图像
(B) 检测器将输入图像中的目标和背景分离(裁剪方式,相当于RPN提取ROI),之后将其用于训练生成器和判别器,或者是测试时提取ROI
(C) 检测器生成的正样本和负样本
(D) 生成器是一个超分辨率网络,将低分辨率图像生成超分辨率
(E) 判别器是一个多任务网络,其输入来自生成器生成的超分辨率图像,判断图像真假,图像分类,图像回归(相当于在原始判别器上加了分类和回归的分支,引入检测任务)
判别器是一个多任务网络,其梯度反传给生成器,让生成器生成的图像朝着以下方向生成(高分辨率,易于分类和回归)
判别器三个分支(检测图像真假分支最后用sigmoid输出,分类分支最后用softmax输出,回归分支最后输出为 (x,y,w,h))
生成器和判别器网络结构:(x5表示含有五层卷积的残差块)
总体设计目标函数:(这个只是大概的函数,后面会具体的拆分)
I^{LR}表示低分辨率图像
I^{HR}表示高分辨率图像
u 表示类别标签值
v 表示检测框回归标签值
θ 表示判别器网络参数
w 表示生成器参数
目标函数细节:
(1) MSE-LOSS 最小化使其接近真实图像,但缺点是比较模糊
(2) Adversarial Loss 加入对抗损失提高细节重建能力,骗过判别器
(3) Classification Loss 分类损失
和 分别代表生成的图像属于u类别的概率,真实图像输入u类别的概率。
(4)Regression Loss 回归损失,SR表示生成的超分,ui=0时是背景类无回归值
smmoth L1 loss
总体目标函数:其中 α、β 和 γ 是权衡不同项的权重(α = 0.001, β = γ = 0.01)
4.实验:
在COCO数据集上进行实验
初期GAN不太稳定,为了避免局部最优,首先训练一个基于MSE的SR网络来初始化生成器网络。
COCO minival subset
第一列:真实低分辨率图像
第二列:真实高分辨率图像
第三列:生成高分辨率图像
消融实验:
对比SOTA检测模型:
红色:模型预测
绿色:真实标签
作者结尾说还有不少改进的空间...
论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network相关推荐
- 论文解读 Receptive Field Block Net for Accurate and Fast Object Detection
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 PDF全 ...
- 三维目标检测---BtcDet论文解读 Behind the Curtain: Learning Occluded Shapes for 3D Object Detection
个人博客 代码链接 paper链接 提出的问题 作者首先指出LiDAR帧其实不是严格意义上的3D结构,而是一个2.5D的结构.因为LiDAR通常只能获得目标靠近传感器那部分的结构特征,远离传感器部分的 ...
- bsp模型适用于图计算_【论文解读】目标检测之RFBnet模型
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...
- 阿里AAAI2018论文解读:轻量网络训练框架、GAN中文命名实体识别、英俄翻译等...
1. 火箭发射:一种有效的轻量网络训练框架<Rocket Launching: A Universal and Efficient Framework for Training Well-per ...
- GAN网络学习入门之:A Beginner's Guide to Generative Adversarial Networks (GANs)-翻译
译自:https://wiki.pathmind.com/generative-adversarial-network-gan 你可能认为编码者不是艺术家,但是编程是一个极具创意的职业.它是基于逻辑的 ...
- 【深度学习】Generative Adversarial Network 生成式对抗网络(GAN)
文章目录 一.神经网络作为生成器 1.1 什么是生成器? 1.2 为什么需要输出一个分布? 1.3 什么时候需要生成器? 二.Generative Adversarial Network 生成式对抗网 ...
- 生成对抗网络(GAN,Generative Adversarial Network)介绍
生成对抗网络(GAN,Generative Adversarial Network)介绍 flyfish 在无监督学习中,最近的突破有哪些? 看一个GAN的应用 第一张图是用GAN将一副古代女子的画像 ...
- 云检测2020:用于高分辨率遥感图像中云检测的自注意力生成对抗网络Self-Attentive Generative Adversarial Network for Cloud Detection
用于高分辨率遥感图像中云检测的自注意力生成对抗网络Self-Attentive Generative Adversarial Network for Cloud Detection in High R ...
- 生成对抗网络(Generative Adversarial Network,GAN)
生成对抗网络(Generative Adversarial Network,GAN) Generative:生成式模型 Adversarial:采取对抗的策略 Networks:网络(不一定是深度学习 ...
最新文章
- Task03:青少年软件编程(Scratch)等级考试模拟卷(一级)
- 机器学习-斯坦福:学习笔记6-朴素贝叶斯
- Proj.4 升级新版本5.x和6.x
- 077_访问者的信息
- 可能大家都能跑通的ignite的HelloWorld
- mysql新增列并同时增加数据_图解MySQL | [原理解析] MySQL 为表添加列 是怎么quot;立刻quot;完成的...
- Java的主要特性有哪些?
- C# 操作Sqlite
- Linux : 文件处理命令
- DL应用:query生成和query推荐
- 【Tool】 深度学习常用工具
- Localtunnel(Node.js 版) 使用教程
- 绘制永磁同步电机定子绕组示意图——Visio制图总结【电控类】(一)
- java安装后在哪里打开_java安装后怎么打开教程
- 解决vscode中文乱码的问题
- 综合评价指标权重方法汇总
- 基于皮尔森相关系数的协同过滤算法
- 原来在Android中请求权限也可以有这么棒的用户体验(转自郭霖)
- iPhone手机 app加密和换图标
- 自媒体娱乐热点素材怎么找?-即时热榜