Learning Center Probability Map for Detecting Objects in Aerial Images 论文学习笔记
论文基本信息
- 标题:Learning Center Probability Map for Detecting Objects in Aerial Images
- 作者:Jinwang Wang , Wen Yang , Senior Member, IEEE, Heng-Chao Li ,Haijian Zhang , and Gui-Song Xia, Senior Member, IEEE
- 机构:School of Electronic Information, Wuhan University, Wuhan
- 来源:T-GRS
- 时间:2020
- 论文地址:https://ieeexplore.ieee.org/abstract/document/9151222
- code:https://github.com/jwwangchn/aidet
论文概要
解决问题
已有方法
regression-based
直接回归OBBs。所有的改类别的方法,都是依赖于对OBB的精确的表示。
方法 | 简述 |
---|---|
[42] | 提出了RoI polling 来检侧旋转的船只 |
[15]FR-O | 回归OBB与HBB的偏移量 |
[17]ICN | 加入了图片级联,和FPN来提取语义信息,同样还是来回归偏移量 |
[43]RRPN | 提出了旋转RPN来产生一些有优先级的带有角度信息的proposals,然后再回归偏移量 |
[21]R-DFON | 应用RRPN,提出了密集特征金字塔网络来解决传播宽度窄的问题 |
[18]ROI | 设计了RoI learner 通过有监督的方法,变换垂直RoI 为 旋转ROI |
segmentation-based
这种方法是通过获得目标的像素级的分类,然后通过后处理由mask图获得对应的OBBs。这种基于分割的方法在文本检测中较多,在遥感目标检测领域并不是很多。
方法 | 简述 |
---|---|
[44]RBMDeepNet | 提出一种混合方法,结合了CNN和RBM 用于检测遥感图像中的汽车 |
[46] | 提出了一种 segment-before-detect 的框架来检测遥感图像中的汽车 |
[47] | 提出了一种 文本分割网络,可以同时检测和分割文本实例 |
[48] | 加入mask分支 |
[22]mask obb | 用二进制分割图来表示旋转目标 |
本文就是基于分割的方法来检测遥感图像中的目标。是基于实例分割框架Mask R-CNN的。
创新点
- 提出了CenterMap OBB来更好的表示OBB,减少了背景像素的影响。
- 分析了基于回归和分割的方法的优缺点。
- 设计了WPSGA-Net来学习全局的上下文信息。
效果
数据集 | HBB map | OBB map |
---|---|---|
DOTA | 77.33 | 76.03 |
HRSC2016 | X | 92.8 |
UCAS-AOD | X | 96.26 |
论文细节
Representations for Oriented Bounding Box
(a-c)展示的是基于回归的表示方法,d e 是基于分割的表示方法。
其中每种表示方法的优劣性具体见论文原文。
- 基于回归的表示方法即便能解决一些歧义问题,但是在某些极端的情况下,目标仅仅变了一点点,但是表示方法会改变很多,这就对收敛造成了非常不好的影响,因此本文采用的是基于分割的表示方法。
CenterMap OBB
- mask obb是对目标进行像素级分割,对目标区域设为1,背景区域设为0,但是有一些目标周围的背景像素(比如飞机),这会影响分割网络的收敛性,影响分割的效果。本文作者还统计了目标框内包含背景像素的数据信息,如下表:
所以,要想办法消除这些背景像素的影响,所以作者提出了 CenterMap OBB来更好的表达旋转目标。 - 不同于mask obb的只有0 1 像素, CenterMap OBB是在目标区域从中心点到四周衰变的一个像素分布。生成这种分布的方式有很多,比如高斯分布。
- 为了让中心区域接近1,边缘区域接近0,并以了(x,y)点的p(x,y)。l,r,r,b分别表示(x,y)到obb四个边界线的距离。k是调整obb形状的一个超参数。
- 如果一个像素落入多个obb,我们选择面积最小的一个。
- 这个地方没太看懂。。。
整体框架
与Mask OBB的mask obb的基本框架基本类似,就是修改了OBB的表达形式和WPSGA-Net。
- 图片先进入backbone提取深度特征,然后通过RPN生成proposals。
- 通过RoI Align从proposals提取固定大小的特征向量。
- 将特征向量输入全卷积输出类别,HBB,和OBB分支。
WPSGA-Net
为了进一步从杂乱的背景中提取感兴趣的目标区域,本文作者提出了WPSGA-Net。 semantic feature generation (SFG)是其核心。
- 对backbone FPN的后4层进行特征融合,第5、4、3层分别进行上采样至和第二层的特征图一样大小,然后将每层的输出进行特征融合为F,F经过全局平均池化层,1*1卷积,归一化,再经过sigmoid后得到F‘。F和F‘进行×的融合然后输出O。
- SFG后得到的O经过11卷积得到标签图L和分割图S。
L是用来算WPSGA-Net的算是的。gt map是由OBB groud truth产生的。
S是用来和HBB分支和OBB分支的特征图融合。从S中通过RoI Align提取77的和14*14的特征图分别用于HBB和OBB分支。
Loss function
- L RPN 是RPN 网络的loss 。
- L Head 是网路头部的损失。包括分类损失,HBB和OBB损失按照一定比例融合的损失。 L hbb是 smooth L1 loss。LOBB是MSE loss,
- L Seg是分割网络的损失
实验
超参设置的影响
主要的超参就是loss得分配比例和k。
不同OBB表示方法的比较
分析了五种不同的OBB表示方法对准确率的影响。可以看出在同样的backbone的情况下,Center Map的表示方式有更高的map,并且在OBB和HBB之间的gap更小。
这个图是对不同obb表示方法的可视化效果,明显e更好一些。
下面这个表示比较 mask obb和CenterMAP OBB表现方式在那些背景像素干扰的目标类上的识别能力。
baseline是mask obb,下表是与baseline 的比较
与当前的SOTA比较的表
新手小白,如有不对,欢迎批评指正!
Learning Center Probability Map for Detecting Objects in Aerial Images 论文学习笔记相关推荐
- Learning From Documents in the Wild to Improve Document Unwarping论文学习笔记
1 广告 论文2022年发表在SIGGRAPH顶会上. 预训练出来的模型有139M. 对文档的去扭曲变形效果在我们调研的深度学习模型里面算是最好的. 2 摘要 文档图像去扭曲是文档数字化和分析的重要内 ...
- CornerNet: Detecting Objects as Paired Keypoints 论文笔记
CornerNet: Detecting Objects as Paired Keypoints 论文链接: https://arxiv.org/abs/1808.01244 一. Problem S ...
- 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...
- 论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning
论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning NDSS 2021录用文章 目录 论文学习笔记 POSEID ...
- 论文学习笔记: Learning Multi-Scale Photo Exposure Correction(含pytorch代码复现)
论文学习笔记: Learning Multi-Scale Photo Exposure Correction--含pytorch代码复现 本章工作: 论文摘要 训练数据集 网络设计原理 补充知识:拉普 ...
- 《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network》论文学习笔记
<Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network>–<基于 ...
- Learning from Synthetic Data for Crowd Counting in the Wild 论文阅读笔记
Learning from Synthetic Data for Crowd Counting in the Wild 论文阅读笔记 发表:CVPR 2019 人群计数任务在多变的环境,大范围的人群中 ...
- 论文学习笔记02(Learning phrase representations using rnn encoder-decoder for statistical machine translat)
论文学习笔记 Learning phrase representations using rnn encoder-decoder for statistical machine translation ...
- 自动驾驶——CenterNet(Objects as Points)的学习笔记
1 前言 CenterNet的代码还是有点难懂,不过还是要感谢各位同学分享的资料- 2 CenterNet代码的学习笔记 2.1 数据读取--COCO类 COCO类是用来进行数据读取的,读取之后获得的 ...
- 【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》
基于深度学习的语音合成综述论文学习 文章目录 基于深度学习的语音合成综述论文学习 1 简介 2 语音合成概述 2.1 语音合成概念 2.2 语音合成发展历史 2.3 传统语音合成技术 2.3.1 拼接 ...
最新文章
- RTB中的cookie mapping理解
- java开发编程周末班_今天,Java编程周末提高班(第一期)正式结束
- 订单分类和评分--vue.js学习笔记2
- excel怎么更改坐标轴刻度_如何用excel制作帕累托图
- Shell脚本基本规则
- 郭明錤:华为可能在10月开始出货鸿蒙手机
- (计算机显示器主屏幕区域)桌面造句,部编版《语文园地四》教学反思模板(11页)-原创力文档...
- 【纪中集训】2019.08.13【省选组】模拟3
- java label 加图片吗_UILabel里面加图片
- day01初步接触python和环境的安装
- [转]关于管理的经典故事(员工激励)
- 痛与快乐有一个代码是什么_痛与快乐有一个代码是什么_痛苦与快乐
- android锁屏时钟,桌面锁屏时钟
- 基于51单片机GPS定位系统GSM短信上报设计方案原理图
- [运放滤波器]1_理想运放_虚短虚断
- 个人作业——关于K米的产品案例分析
- go操作excel单元格合并
- 【IT之路】Docker拉取镜像查看版本
- 云计算--VMware私有云平台搭建
- Centos7安装教程2022.2