点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

本文转自|计算机视觉联盟

1.RRPN(两阶段文字检测 华科白翔组)

时间:3 Mar 2017

题目:Arbitrary-Oriented Scene Text Detection via Rotation Proposals

链接:https://arxiv.org/abs/1703.01086

创新:

应该是第一个基于RPN架构引入旋转候选框实现任意方向的场景文本检测。基于旋转的anchor得到旋转ROI,然后提取相应特征,效果可以

pipeline

预定义anchor

2.EAST (单阶段文字检测器 旷世科技)

时间:11 Apr 2017

题目:EAST: An Efficient and Accurate Scene Text Detector

链接:https://arxiv.org/pdf/1704.03155.pdf

知乎解读:https://zhuanlan.zhihu.com/p/37504120

创新:

  • 提出单阶段的检测框架figure3。提出一种新的旋转目标定义方式(特征点到旋转框的四边距离以及角度信息),如下图c,图d,e分别预测四个距离和角度信息

  • 应该算是比较早的anchor-free方法检测旋转目标的尝试,将旋转的ground-truth box向内按比例缩小一个范围如下图左上角(a)中的绿色框,特征点落在这个绿色框内作为正样本。2019年的一篇 anchor-free 水平框目标检测器FoveaBox 和这个思路有点相似(arxiv.org/abs/1904.0379)

  • 提出一个Locality-Aware NMS,加速nms过程

3. R2CNN (两阶段文字检测 三星中国)

时间:29 Jun 2017

题目:R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

链接:https://arxiv.org/ftp/arxiv/papers/1706/1706.09579.pdf

知乎解读:https://zhuanlan.zhihu.com/p/41662351

创新:

  • 提出一种新的旋转目标定义方式(检测 顺时针顺序的四个角点中的 前两个角点x1 y1 x2 y2和矩形高)

  • 整体使用faster rcnn框架,考虑到某些文字框的宽高差距很大,在ROI pooling时 除了使用7x7的pooled size 还增加了3x11和11x3 两种pooled size。3x11可以更好地捕捉水平特征,这对于检测宽大于高的框比较有好处,而11x3可以更好地捕捉竖直特征,这对于检测高大于宽的框比较有好处。

4.RR-CNN(两阶段舰船检测 中科院自动化所)

时间:Sept. 2017

题目:ROTATED REGION BASED CNN FOR SHIP DETECTION

链接:https://ieeexplore.ieee.org/document/8296411

创新:

  • 提出RRoI pooling layer,提取旋转目标特征

  • 回归旋转目标模型

  • 传统NMS针对同类目标做,这篇文章针对多类别提出多任务NMS

roi pooling

多任务nms

5. DRBOX(两阶段目标检测 中科院电子所)

时间:26 Nov 2017

题目:Learning a Rotation Invariant Detector with Rotatable Bounding Box

链接:https://arxiv.org/pdf/1711.09405.pdf

创新:

  • 网络pipeline如下,论文时间比较早,没具体说使用了什么网络结构,参考其他论文说法,DRBOX类似RPN结构

  • 比较早的说明了用水平框检测旋转目标存在的问题

6. TextBoxes++(单阶段 华科白翔组)

时间:9 Jan 2018

题目:TextBoxes++: A Single-Shot Oriented Scene Text Detector

链接:https://arxiv.org/pdf/1801.02765.pdf

知乎解读:https://zhuanlan.zhihu.com/p/33723456

创新:

  • 在SSD基础上检测水平框和旋转框

  • 使用不规则卷积核:

    textboxes++中采用3x5的卷积核,以便更好的适应长宽比更大的文字

  • 使用OHEM策略

    训练过程采用OHEM策略,不同于传统的OHEM,训练分为两个stage,stage1的正负样本比为1:3,stage2的政府样本比为1:6

  • 多尺度训练

    由于Textboxes++采用了全卷积结构,因此可以适应不同尺度的输入。为了适应不同尺度目标,采用了多尺度训练。

  • 级联NMS

    由于计算倾斜文字的IOU较为耗时,因此作者采用级联NMS加速IOU计算,先计算所有所有框的最小外接矩形的IOU,做一次阈值为0.5的NMS,消除一部分框,然后再计算倾斜框的IOU的基础上做一次阈值为0.2的NMS。

7. Learning roi transformer for oriented object detection in aerial images(cvpr2019 武大夏桂松 两阶段)

时间 1 Dec 2018

题目:Learning roi transformer for oriented object detection in aerial images

论文链接:https://arxiv.org/abs/1812.00155

创新:

  • 基于水平anchor,在RPN阶段通过全连接学习得到旋转ROI(区别于RRPN设置很多旋转anchor,因为这篇文章是从水平anchor学习得到旋转ROI,减小了计算量),基于旋转ROI提取特征,然后进行定位和分类

  • Rotated Position Sensitive RoI Align

    基于旋转框提取roi特征

8. R2PN(两阶段)

时间:August 2018

题目:Toward arbitrary-oriented ship detection with rotated region proposal and discrimination networks

链接:https://www.researchgate.net/publication/327096241_Toward_Arbitrary-Oriented_Ship_Detection_With_Rotated_Region_Proposal_and_Discrimination_Networks

创新:

  • 感觉和RRPN比较像,基于旋转anchor,通过RPN得到旋转ROI,基于旋转ROI提取特征,然后进行定位和分类。和Learning roi transformer这篇文章区别 是前者是旋转anchor,后者是水平anchor,计算量更小。

9. R2CNN++(SCRDet) (两阶段 中科院电子所)

时间:17 Nov 2018

题目:SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

链接:https://arxiv.org/abs/1811.07126

添加特征融合和空间、通道注意力机制。基于水平anchor,通过RPN预测粗糙ROI, 然后检测头实现对目标的任意角的坐标预测(x,y,w,h,θ),pipeline如下:

pipline

创新:

  • SF-Net:把两个不同层的feature map进行定制化融合 有效检测小目标

SF-Net

  • MDA-Net: 使用通道注意力和像素级别的注意力机制检测密集目标和小目标

MDA-Net

  • 提出改进版的smooth L1loss 解决旋转目标在垂直时角度(从0°会突变到-90°) 存在变化不连续问题

10. CAD-Net (两阶段)

时间:3 Mar 2019

题目:CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery

链接:https://arxiv.org/pdf/1903.00857.pdf

创新:

  • 提出GCNet(Global Context Network),在进行目标检测时融入全局上下文信息

  • 提出PLCNet(pyramid local context network)引入空间注意力学习目标协同关系,

网络pipeline

PLCNet结构

空间注意力

11. R3Det (单阶段旋转目标检测 上交&南理&旷世)

时间 Aug 2019

题目:R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

论文链接:https://arxiv.org/abs/1908.05612

code:https://github.com/SJTU-Thinklab-Det/R3Det_Tensorflow

解读链接:https://ming71.github.io/R3Det

创新:

  • 旋转目标检测(水平目标检测也)可能存在某个anchor所在的特征点的感受野和目标位置、形状不匹配 (如下图左上角,绿色框是anchor,它所在的特征点只能看到这艘船的一部分,那么直接用这个点的特征去回归anchor 以拟合ground truth(红色框)不一定准确),所以这篇论文分两个stage:first stage 从anchor预测旋转框(橙色框),如下图红色数字1->2,这时候橙色框范围和真实目标就很接近了,然后根据橙色框提取特征(我理解为类似ROI pooling特征提取),通过这个特征回归到ground truth,如下图中红色数字2->3.

  • 网络结构沿用RetinaNet的结构,并引入了feature refinement 模块,并且可以叠加多次

网络backbone使用retinanet 结构

feature refinement 模块

END

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

干货 | 一文总结旋转目标检测全面综述:论文方法与代码相关推荐

  1. 一文总结旋转目标检测全面综述:论文方法与代码

    参考一文总结旋转目标检测全面综述:论文方法与代码 - 云+社区 - 腾讯云 首先放上DOTA数据集官网(http://captain.whu.edu.cn/DOTAweb/index.html),官网 ...

  2. 【单目3D目标检测】MonoFlex论文精读与代码解析

    文章目录 Preface Abstract Contributions Pipeline Problem Definition Decoupled Representations of Objects ...

  3. 【lidar】3D目标检测PointPillars:论文解读、代码解读、部署实现(2)

    PointPillars部署:TensorRT推理实现,下载地址:添加链接描述 PointPillars 高度优化的点云目标检测网络PointPillars.主要通过tensorrt对网络推理段进行了 ...

  4. 【lidar】3D目标检测PointPillars:论文解读、代码解读、部署实现(1)

    Abstract 点云中的目标检测是自动驾驶等机器人应用中的一个重要方面.在本文中,作者思考了将点云编码成适合下游检测pipeline的格式问题.最近的文献提出了两种类型的编码器:固定编码器往往更快, ...

  5. 收藏!目标检测优质综述论文总结!

    这几天在整理论文,发现了这几篇目标检测综述论文,总结出来推荐给大家! Object Detection in 20 Years: A Survey 文章回顾了400多篇关于目标检测的论文,涵盖目标检测 ...

  6. 【单目3D目标检测】MonoDLE论文精读与代码解析

    文章目录 Preface Abstract Contributions Diagnostic Experiments Pipeline Revisiting Center Detection Trai ...

  7. 目标检测:CenterNet论文解读及代码详解

    论文思想 当前anchor-based目标检测方法可分one-stage.two-stage两种.one-stage模型利用anchor机制得到大量的框,之后直接加入回归.分类分支对框进行分类与微调. ...

  8. 目标检测算法综述—— One-Stage方法

    目录 1.概述 2.目标检测算法 2.1.SSD 2.2.DSSD 2.3.YOLO V1 2.4.YOLO V2 2.5.YOLO V3 2.6.RetinaNet 研究背景 主要贡献 二分类的交叉 ...

  9. 【单目3D目标检测】SMOKE论文解析与代码复现

    文章目录 yacs Introduction Usage SMOKE Preface Abstract Contributions Pipeline Backbone Head Branch Orie ...

最新文章

  1. MATLAB中nargin 的用法
  2. C#开发微信门户及应用(21)-微信企业号的消息和事件的接收处理及解密
  3. BAPI_ACC_GL_POSTING_POST生成财务预制凭证
  4. Maven 强制导入jar包
  5. Head First设计模式读书笔记七 第八章 模板方法模式
  6. 智慧工厂平台整体结局方案
  7. python--笔记
  8. nginx 负载均衡集群解决方案 healthcheck_nginx_upstreams (一)
  9. 在ubuntu上安装Avant Window Navigator (AWN)
  10. python制作个人相册_这样精美的照片墙,其实python也能做
  11. opencv3.2.0实现视频抽帧,并保存成图片
  12. .net连接SqlServer数据库
  13. 论文降重从80%降到1%的方法
  14. 16*16点阵字库HZK16的使用
  15. 计算机学科a类排名,哈工大17个学科排名位列A类
  16. 入门深度学习?这里有5件你应该知道的事
  17. 走近澳洲------个人所得税篇
  18. 地磁传感器还可以用于室内定位?
  19. 谷歌和百度常见搜索技巧
  20. 戴尔5600服务器主板维修,戴尔至强5600双路刀片服务器横向导购

热门文章

  1. 干货 | OpenCV看这篇就够了,9段代码详解图像变换基本操作
  2. 公开课 | 腾讯云高级研发工程师:朋友圈爆款背后的计算机视觉技术与应用
  3. 技术详解 | 如何用GAN实现阴影检测和阴影去除?
  4. 颠覆认知了,公司 SRE 天天到底在干嘛?不会是重启工程师吧?
  5. 还在发愁写API文档?推荐一款阿里腾讯都在用的API管理神器!
  6. 神奇的 SQL,Group By 真扎心,原来是这样!
  7. 算法er的尽头会是To B吗?
  8. KDD Cup 2021城市大脑赛题解析!报名倒计时3天
  9. 最高10万奖励!不限选题!高通AI应用创新大赛应用赛道详解
  10. Python数据分析之Pandas读写外部数据文件