Learning RoI Transformer for Detecting Oriented Objects in Aerial Images

文章目录

  • Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
    • 参考
    • Introduction
    • RoI Transformer
      • RRoI Learner
      • RRoI Warping
参考
  • RoI Transformer 精读

  • 遥感检测——RoI Transformer(CVPR2019)

Introduction
  • 对于任意方向目标的检测,HRoI已经不能满足要求,因此出现了RRoI,此前的RRoI是通过多增加不同角度的anchor来实现不同方向的目标检测,但是这种方式会因为anchor的增加而产生大量的计算量。
  • RoI Transformer 是一个三阶段检测模型,主要由RRoI Leaner(学习从HRoI到RRoI的转换)和RRoI Wraping(从RRoI中提取旋转不变的特征,用于后续的分类和回归子任务。)两部分组成,核心思想是把RPN输出的水平锚框HRoI转换为旋转锚框RRoI。此策略无需增加锚点的数量且可以获得精确的RRoI。
  • 为了进一步提高效率,作者为所有的RoI-wise operations采用了light head structure。roi-wise operation一直是二阶检测器的效率瓶颈,因为它们之间的计算不共享。Light-head R-CNN提出使用分离卷积来获得thin feature以解决这个问题,它还使用PS RoI Align来进一步削减特征图的通道数,本文方法的baseline就是Light-head R-CNN。
RoI Transformer
    • RoI Transformer检测模型结构如图所示,主要由RRoI Leaner和RRoI Wraping两部分组成。对于RPN生成的每个水平锚框HRoI,都会作为输入传递给RRoI Leaner, RRoI Leaner结构是由PS RoI Align(PS RoI Align减少特征图的维数,将单个全连接层合并到10个通道,显著提高了计算速度)、尺寸为5的全连接层(在全连接层使Rotated Ground Truths(RGTs)相对于HRoI的偏移量回归)以及解码器(解码器将HRoI和偏移量作为输入并输出解码后的RRoI)构成。将特征图和解码后的RRoI传入RRoI Wrapping进行深度特征提取。最后,利用RRoI Transformer输出的特征进行分类和回归。
RRoI Learner
  • RRoI Leaner主要负责从水平特征图HRoIs中学习RRoIs。假设我们得到了n个由(x,y,w,h)表示的HRoI,x,y表示HRoI中心点的位置,w表示宽度,h表示高度。理想情况下每个HRoI都是RRoI的外接矩形。利用全连接层从每个HRoI推测RRoI的几何形状。对于一般情况下RRoI的偏移量回归目标如下

    • 上图中的标柱参考系是指文中原图的x1oy1,即使用预测框的坐标系,我特地推了一下上述公式中的offset:tx∗t_x^*tx∗​和ty∗t_y^*ty∗​,如下所示
    • 我们对中心点画直角三角形,得到x∗−xrx^*-x_rx∗−xr​和y∗−yry^*-y_ry∗−yr​两组参数,那么由基础几何得到,(x∗−xr)cos⁡θr(x^*-x_r)\cos{\theta_r}(x∗−xr​)cosθr​和(y∗−yr)sin⁡θr(y^*-y_r)\sin{\theta_r}(y∗−yr​)sinθr​以及(y∗−yr)cos⁡θr(y^*-y_r)\cos{\theta_r}(y∗−yr​)cosθr​和(x∗−xr)sin⁡θr(x^*-x_r)\sin{\theta_r}(x∗−xr​)sinθr​的几何表示如上面右下角的图表示。可以看到上面的公式不过是用预测框的斜着的坐标系算以gt框为基准的坐标系的$\delta x 和和和 \delta y的大小,而公式中的的大小,而公式中的的大小,而公式中的t*_w$和$th以及以及以及t^_\theta$的值就是两者的比值再取对数(角度不取)
  • 再回到模型的结构中来,作者使用FC-5实现这个效果,G代表全链接层,F代表HRoI的feature map,θ\thetaθ 代表G的权重参数。

    • t=G(F;Θ)(2)t = G(F; Θ) \qquad (2) t=G(F;Θ)(2)

    • 也就是说模型训练时,将输入的HRoI和OBB(GroundTruth)进行匹配。匹配后通过等式(1)得到t∗t^*t∗ ,然后从中解码出RRoI的参数。使用Smooth L1 loss作为回归损失进行梯度下降。

RRoI Warping
  • RRoI Warping通过RRoI的参数提取旋转不变的深度特征(其实就是用Rotated Position Sensitive RoI pooling实现旋转版的池化)。

  • 通过RPS RoI pooling将输入的大小为HxWxC的RRoI的Feature map分成KxKxC的feature map(由双线性插值实现)

    • yc(i,j)=∑(x,y)∈bin(i,j)Di,j,c(Tθ(x,y))/nij(3)y_c(i,j) = \sum_{(x,y) \in bin(i,j)} D_{i,j,c}(T_\theta (x,y))/n_{ij} \qquad (3) yc​(i,j)=(x,y)∈bin(i,j)∑​Di,j,c​(Tθ​(x,y))/nij​(3)

      • D是输入的feature map(RRoI),
      • yyy是输出的feature map,
      • bin 是池化的一小块,其中 (i,j)∈(0,K)(i, j) \in (0,K)(i,j)∈(0,K) ,
      • c是输出channel,c∈(0,C)c \in (0,C)c∈(0,C),
      • nijn_{ij}nij​是每一块bin的样本参数量
    • TθT_\thetaTθ​的转换的式子为:

      • (x′y′)=(cos⁡θ−sin⁡θsin⁡θcos⁡θ)(x−ωr2y−hr2)+(xy)\left( \begin{array}{cc} x^{'} \\ y^{'} \end{array} \right) = \left( \begin{array}{cc} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{array} \right)\left( \begin{array}{cc} \frac{x-\omega_r}{2} \\ \frac{y-h_r}{2} \end{array} \right)+\left( \begin{array}{cc} x \\ y \end{array} \right) (x′y′​)=(cosθsinθ​−sinθcosθ​)(2x−ωr​​2y−hr​​​)+(xy​)

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images相关推荐

  1. 【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images

    RoI Transformer: 将空间转换应用在RoIs上,并通过标注旋转框,监督学习得到转换参数. RoI Transformer是轻量级的. 一.Introduction (1) 水平框检测会造 ...

  2. 【CVPR 2020】Learning RoI Transformer for Oriented Object Detection in Aerial Images

    介绍 这篇文章是针对旋转框任务的: 摘要 由于鸟瞰视角.高度复杂的背景和多变的物体外观,航拍图像中的目标检测是计算机视觉中一项活跃但具有挑战性的任务.许多检测方法依赖于通用目标检测中的水平候选框,而这 ...

  3. Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)

    A normalized Wasserstein distance and a new benchmark(论文导读) 论文链接 文章目录 A normalized Wasserstein dista ...

  4. 详解经典旋转目标检测算法RoI Transformer

    一.引言 1.旋转目标检测检测 旋转目标检测检测就是将具有旋转方向的目标检测出来,也就是需要检测目标的中心点.长宽.角度.在俯视图的目标检测中比较常见,如遥感图像目标检测.航拍图像目标检测等.(见下图 ...

  5. 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)...

    XiangBai--[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录 作者和相关链接 方法概括 方法细节 ...

  6. 【图像超分辨率】Learning Texture Transformer Network for Image Super-Resolution

    论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Learning_Texture_Transformer_Network ...

  7. (TTSR)Learning Texture Transformer Network for Image Super-Resolution

    中心提取: 1.该模型中提取Q.K.V的过程值得学习一下,他们使用的是:V自然就是参考图(Ref),用于辅助得到更好的纹理结果,Q是LR上采样图的特征(LR↑),K是参考图先下采样再上采样的特征(Re ...

  8. [CVPR2020-best](unsup3d)Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Image

    标题:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild 链接:http ...

  9. RoI Transformer 精读

    背景 旋转框检测模型RRPN是通过生成大量的旋转锚框来实现多角度目标检测,后续提出的旋转框检测模型主要是在此基础上进行细节方面的改进.这种通过生成大量旋转框的方法最主要的缺点是冗余计算导致检测速度很慢 ...

  10. SegLink(Detecting Oriented Text in Natural Images by Linking Segments)算法详解

    <Detecting Oriented Text in Natural Images by Linking Segments>是和EAST同年的一篇发表在CVPR2017的OCR论文.代码 ...

最新文章

  1. R语言row.names函数为dataframe、matrix设置行名称实战
  2. Silverlight 2 学习笔记之事件的重复绑定问题
  3. PoweMock集成Spring-test 测试静态方法 禁用字节码验证 -noverify -XX:-UseSplitVerifier
  4. DOM(二)——XML DOM
  5. 那个学完这个小程序创业课程的小白现在月入17万
  6. vsan主机高级优化参数配置
  7. android访问服务器405,android – HTTP状态405 – 不允许的方法(jax-rs服务)
  8. H3C BGP基本配置
  9. 建筑业建筑业大数据行业现状_建筑—第4部分
  10. 《C语言》2022山西专升本C语言知识点
  11. Atomic的介绍和使用(原子变量)
  12. C++ 编写一个解释器
  13. linux 播放m4a 文件,M4A是什么文件?如何提取M4A音频?
  14. 分布式电商项目五:使用人人开源搭建前后分离的后台管理系统
  15. VIO中IMU选型与数据处理
  16. Prim 算法的实现
  17. 经济法基础——第三章第一节、支付结算概述
  18. gen阻抗 pcie_PCIe Gen3/Gen4接收端链路均衡测试(上篇:理论篇)
  19. PyQt5 常用窗口总结
  20. [Vs提示:不允许使用不完整类型]使用结构体常犯的错误

热门文章

  1. 无损连接和保持依赖性(有脑就行,尽量说人话版本)
  2. HTML Canvas 刮刮卡抽奖效果的实现
  3. 服务器怎么设置mqtt遗嘱消息,MQTT 遗嘱消息、Retained消息、QOS上线下线实现
  4. 服装吊牌如何在条码打印软件中制作?
  5. What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset
  6. 最大公约数用c语言表达,c语言求最大公约数(用c语言编写求最大公约数)
  7. 简单实用的电脑桌面待办清单应用
  8. LeetCode. 15 - 三数之和
  9. 解决:当笔记本连接WIFi,电脑可以打开QQ等,但是不能打开网页,显示DNS错误
  10. 仙武:开局神级召唤!(一)