Learning RoI Transformer for Detecting Oriented Objects in Aerial Images

文章目录

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
- 参考
- Introduction
- RoI Transformer
- - RRoI Learner
  - RRoI Warping

参考

RoI Transformer 精读
遥感检测——RoI Transformer（CVPR2019）

Introduction

对于任意方向目标的检测，HRoI已经不能满足要求，因此出现了RRoI，此前的RRoI是通过多增加不同角度的anchor来实现不同方向的目标检测，但是这种方式会因为anchor的增加而产生大量的计算量。
RoI Transformer 是一个三阶段检测模型，主要由RRoI Leaner(学习从HRoI到RRoI的转换)和RRoI Wraping(从RRoI中提取旋转不变的特征，用于后续的分类和回归子任务。)两部分组成，核心思想是把RPN输出的水平锚框HRoI转换为旋转锚框RRoI。此策略无需增加锚点的数量且可以获得精确的RRoI。
为了进一步提高效率，作者为所有的RoI-wise operations采用了light head structure。roi-wise operation一直是二阶检测器的效率瓶颈，因为它们之间的计算不共享。Light-head R-CNN提出使用分离卷积来获得thin feature以解决这个问题，它还使用PS RoI Align来进一步削减特征图的通道数，本文方法的baseline就是Light-head R-CNN。

RoI Transformer

- RoI Transformer检测模型结构如图所示，主要由RRoI Leaner和RRoI Wraping两部分组成。对于RPN生成的每个水平锚框HRoI,都会作为输入传递给RRoI Leaner, RRoI Leaner结构是由PS RoI Align（PS RoI Align减少特征图的维数，将单个全连接层合并到10个通道，显著提高了计算速度）、尺寸为5的全连接层（在全连接层使Rotated Ground Truths(RGTs)相对于HRoI的偏移量回归）以及解码器（解码器将HRoI和偏移量作为输入并输出解码后的RRoI）构成。将特征图和解码后的RRoI传入RRoI Wrapping进行深度特征提取。最后，利用RRoI Transformer输出的特征进行分类和回归。

RRoI Learner

RRoI Leaner主要负责从水平特征图HRoIs中学习RRoIs。假设我们得到了n个由（x,y,w,h）表示的HRoI,x,y表示HRoI中心点的位置，w表示宽度，h表示高度。理想情况下每个HRoI都是RRoI的外接矩形。利用全连接层从每个HRoI推测RRoI的几何形状。对于一般情况下RRoI的偏移量回归目标如下
- 上图中的标柱参考系是指文中原图的x1oy1，即使用预测框的坐标系，我特地推了一下上述公式中的offset：tx∗t_x^*tx∗和ty∗t_y^*ty∗，如下所示
- 我们对中心点画直角三角形，得到x∗−xrx^*-x_rx∗−xr和y∗−yry^*-y_ry∗−yr两组参数，那么由基础几何得到，(x∗−xr)cos⁡θr(x^*-x_r)\cos{\theta_r}(x∗−xr)cosθr和(y∗−yr)sin⁡θr(y^*-y_r)\sin{\theta_r}(y∗−yr)sinθr以及(y∗−yr)cos⁡θr(y^*-y_r)\cos{\theta_r}(y∗−yr)cosθr和(x∗−xr)sin⁡θr(x^*-x_r)\sin{\theta_r}(x∗−xr)sinθr的几何表示如上面右下角的图表示。可以看到上面的公式不过是用预测框的斜着的坐标系算以gt框为基准的坐标系的$\delta x 和和和 \delta y的大小，而公式中的的大小，而公式中的的大小，而公式中的t^*_w$和$th以及以及以及t^_\theta$的值就是两者的比值再取对数（角度不取）
再回到模型的结构中来，作者使用FC-5实现这个效果，G代表全链接层，F代表HRoI的feature map，θ\thetaθ 代表G的权重参数。
- t=G(F;Θ)(2)t = G(F; Θ) \qquad (2) t=G(F;Θ)(2)
- 也就是说模型训练时，将输入的HRoI和OBB（GroundTruth）进行匹配。匹配后通过等式（1）得到t∗t^*t∗ ，然后从中解码出RRoI的参数。使用Smooth L1 loss作为回归损失进行梯度下降。

RRoI Warping

RRoI Warping通过RRoI的参数提取旋转不变的深度特征（其实就是用Rotated Position Sensitive RoI pooling实现旋转版的池化）。
通过RPS RoI pooling将输入的大小为HxWxC的RRoI的Feature map分成KxKxC的feature map（由双线性插值实现）
- yc(i,j)=∑(x,y)∈bin(i,j)Di,j,c(Tθ(x,y))/nij(3)y_c(i,j) = \sum_{(x,y) \in bin(i,j)} D_{i,j,c}(T_\theta (x,y))/n_{ij} \qquad (3) yc(i,j)=(x,y)∈bin(i,j)∑Di,j,c(Tθ(x,y))/nij(3)
  - D是输入的feature map（RRoI），
  - yyy是输出的feature map，
  - bin 是池化的一小块，其中 (i,j)∈(0,K)(i, j) \in (0,K)(i,j)∈(0,K) ,
  - c是输出channel，c∈(0,C)c \in (0,C)c∈(0,C)，
  - nijn_{ij}nij是每一块bin的样本参数量
- TθT_\thetaTθ的转换的式子为：
  - (x′y′)=(cos⁡θ−sin⁡θsin⁡θcos⁡θ)(x−ωr2y−hr2)+(xy)\left( \begin{array}{cc} x^{'} \\ y^{'} \end{array} \right) = \left( \begin{array}{cc} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{array} \right)\left( \begin{array}{cc} \frac{x-\omega_r}{2} \\ \frac{y-h_r}{2} \end{array} \right)+\left( \begin{array}{cc} x \\ y \end{array} \right) (x′y′)=(cosθsinθ−sinθcosθ)(2x−ωr2y−hr)+(xy)

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images相关推荐

【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images
RoI Transformer: 将空间转换应用在RoIs上,并通过标注旋转框,监督学习得到转换参数. RoI Transformer是轻量级的. 一.Introduction (1) 水平框检测会造 ...
【CVPR 2020】Learning RoI Transformer for Oriented Object Detection in Aerial Images
介绍这篇文章是针对旋转框任务的: 摘要由于鸟瞰视角.高度复杂的背景和多变的物体外观,航拍图像中的目标检测是计算机视觉中一项活跃但具有挑战性的任务.许多检测方法依赖于通用目标检测中的水平候选框,而这 ...
Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)
A normalized Wasserstein distance and a new benchmark(论文导读) 论文链接文章目录 A normalized Wasserstein dista ...
详解经典旋转目标检测算法RoI Transformer
一.引言 1.旋转目标检测检测旋转目标检测检测就是将具有旋转方向的目标检测出来,也就是需要检测目标的中心点.长宽.角度.在俯视图的目标检测中比较常见,如遥感图像目标检测.航拍图像目标检测等.(见下图 ...
论文阅读（XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments）...
XiangBai--[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录作者和相关链接方法概括方法细节 ...
【图像超分辨率】Learning Texture Transformer Network for Image Super-Resolution
论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Learning_Texture_Transformer_Network ...
（TTSR）Learning Texture Transformer Network for Image Super-Resolution
中心提取: 1.该模型中提取Q.K.V的过程值得学习一下,他们使用的是:V自然就是参考图(Ref),用于辅助得到更好的纹理结果,Q是LR上采样图的特征(LR↑),K是参考图先下采样再上采样的特征(Re ...
[CVPR2020-best](unsup3d)Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Image
标题:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild 链接:http ...
RoI Transformer 精读
背景旋转框检测模型RRPN是通过生成大量的旋转锚框来实现多角度目标检测,后续提出的旋转框检测模型主要是在此基础上进行细节方面的改进.这种通过生成大量旋转框的方法最主要的缺点是冗余计算导致检测速度很慢 ...
SegLink（Detecting Oriented Text in Natural Images by Linking Segments）算法详解
<Detecting Oriented Text in Natural Images by Linking Segments>是和EAST同年的一篇发表在CVPR2017的OCR论文.代码 ...

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images

文章目录

参考

Introduction

RoI Transformer

RRoI Learner

RRoI Warping

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images相关推荐

最新文章

热门文章