干货 | 一文总结旋转目标检测全面综述:论文方法与代码
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
本文转自|计算机视觉联盟
1.RRPN(两阶段文字检测 华科白翔组)
时间:3 Mar 2017
题目:Arbitrary-Oriented Scene Text Detection via Rotation Proposals
链接:https://arxiv.org/abs/1703.01086
创新:
应该是第一个基于RPN架构引入旋转候选框实现任意方向的场景文本检测。基于旋转的anchor得到旋转ROI,然后提取相应特征,效果可以
pipeline
预定义anchor
2.EAST (单阶段文字检测器 旷世科技)
时间:11 Apr 2017
题目:EAST: An Efficient and Accurate Scene Text Detector
链接:https://arxiv.org/pdf/1704.03155.pdf
知乎解读:https://zhuanlan.zhihu.com/p/37504120
创新:
提出单阶段的检测框架figure3。提出一种新的旋转目标定义方式(特征点到旋转框的四边距离以及角度信息),如下图c,图d,e分别预测四个距离和角度信息
应该算是比较早的anchor-free方法检测旋转目标的尝试,将旋转的ground-truth box向内按比例缩小一个范围如下图左上角(a)中的绿色框,特征点落在这个绿色框内作为正样本。2019年的一篇 anchor-free 水平框目标检测器FoveaBox 和这个思路有点相似(arxiv.org/abs/1904.0379)
提出一个Locality-Aware NMS,加速nms过程
3. R2CNN (两阶段文字检测 三星中国)
时间:29 Jun 2017
题目:R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection
链接:https://arxiv.org/ftp/arxiv/papers/1706/1706.09579.pdf
知乎解读:https://zhuanlan.zhihu.com/p/41662351
创新:
提出一种新的旋转目标定义方式(检测 顺时针顺序的四个角点中的 前两个角点x1 y1 x2 y2和矩形高)
整体使用faster rcnn框架,考虑到某些文字框的宽高差距很大,在ROI pooling时 除了使用7x7的pooled size 还增加了3x11和11x3 两种pooled size。3x11可以更好地捕捉水平特征,这对于检测宽大于高的框比较有好处,而11x3可以更好地捕捉竖直特征,这对于检测高大于宽的框比较有好处。
4.RR-CNN(两阶段舰船检测 中科院自动化所)
时间:Sept. 2017
题目:ROTATED REGION BASED CNN FOR SHIP DETECTION
链接:https://ieeexplore.ieee.org/document/8296411
创新:
提出RRoI pooling layer,提取旋转目标特征
回归旋转目标模型
传统NMS针对同类目标做,这篇文章针对多类别提出多任务NMS
roi pooling
多任务nms
5. DRBOX(两阶段目标检测 中科院电子所)
时间:26 Nov 2017
题目:Learning a Rotation Invariant Detector with Rotatable Bounding Box
链接:https://arxiv.org/pdf/1711.09405.pdf
创新:
网络pipeline如下,论文时间比较早,没具体说使用了什么网络结构,参考其他论文说法,DRBOX类似RPN结构
比较早的说明了用水平框检测旋转目标存在的问题
6. TextBoxes++(单阶段 华科白翔组)
时间:9 Jan 2018
题目:TextBoxes++: A Single-Shot Oriented Scene Text Detector
链接:https://arxiv.org/pdf/1801.02765.pdf
知乎解读:https://zhuanlan.zhihu.com/p/33723456
创新:
在SSD基础上检测水平框和旋转框
使用不规则卷积核:
textboxes++中采用3x5的卷积核,以便更好的适应长宽比更大的文字
使用OHEM策略
训练过程采用OHEM策略,不同于传统的OHEM,训练分为两个stage,stage1的正负样本比为1:3,stage2的政府样本比为1:6
多尺度训练
由于Textboxes++采用了全卷积结构,因此可以适应不同尺度的输入。为了适应不同尺度目标,采用了多尺度训练。
级联NMS
由于计算倾斜文字的IOU较为耗时,因此作者采用级联NMS加速IOU计算,先计算所有所有框的最小外接矩形的IOU,做一次阈值为0.5的NMS,消除一部分框,然后再计算倾斜框的IOU的基础上做一次阈值为0.2的NMS。
7. Learning roi transformer for oriented object detection in aerial images(cvpr2019 武大夏桂松 两阶段)
时间 1 Dec 2018
题目:Learning roi transformer for oriented object detection in aerial images
论文链接:https://arxiv.org/abs/1812.00155
创新:
基于水平anchor,在RPN阶段通过全连接学习得到旋转ROI(区别于RRPN设置很多旋转anchor,因为这篇文章是从水平anchor学习得到旋转ROI,减小了计算量),基于旋转ROI提取特征,然后进行定位和分类
Rotated Position Sensitive RoI Align
基于旋转框提取roi特征
8. R2PN(两阶段)
时间:August 2018
题目:Toward arbitrary-oriented ship detection with rotated region proposal and discrimination networks
链接:https://www.researchgate.net/publication/327096241_Toward_Arbitrary-Oriented_Ship_Detection_With_Rotated_Region_Proposal_and_Discrimination_Networks
创新:
感觉和RRPN比较像,基于旋转anchor,通过RPN得到旋转ROI,基于旋转ROI提取特征,然后进行定位和分类。和Learning roi transformer这篇文章区别 是前者是旋转anchor,后者是水平anchor,计算量更小。
9. R2CNN++(SCRDet) (两阶段 中科院电子所)
时间:17 Nov 2018
题目:SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects
链接:https://arxiv.org/abs/1811.07126
添加特征融合和空间、通道注意力机制。基于水平anchor,通过RPN预测粗糙ROI, 然后检测头实现对目标的任意角的坐标预测(x,y,w,h,θ),pipeline如下:
pipline
创新:
SF-Net:把两个不同层的feature map进行定制化融合 有效检测小目标
SF-Net
MDA-Net: 使用通道注意力和像素级别的注意力机制检测密集目标和小目标
MDA-Net
提出改进版的smooth L1loss 解决旋转目标在垂直时角度(从0°会突变到-90°) 存在变化不连续问题
10. CAD-Net (两阶段)
时间:3 Mar 2019
题目:CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery
链接:https://arxiv.org/pdf/1903.00857.pdf
创新:
提出GCNet(Global Context Network),在进行目标检测时融入全局上下文信息
提出PLCNet(pyramid local context network)引入空间注意力学习目标协同关系,
网络pipeline
PLCNet结构
空间注意力
11. R3Det (单阶段旋转目标检测 上交&南理&旷世)
时间 Aug 2019
题目:R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object
论文链接:https://arxiv.org/abs/1908.05612
code:https://github.com/SJTU-Thinklab-Det/R3Det_Tensorflow
解读链接:https://ming71.github.io/R3Det
创新:
旋转目标检测(水平目标检测也)可能存在某个anchor所在的特征点的感受野和目标位置、形状不匹配 (如下图左上角,绿色框是anchor,它所在的特征点只能看到这艘船的一部分,那么直接用这个点的特征去回归anchor 以拟合ground truth(红色框)不一定准确),所以这篇论文分两个stage:first stage 从anchor预测旋转框(橙色框),如下图红色数字1->2,这时候橙色框范围和真实目标就很接近了,然后根据橙色框提取特征(我理解为类似ROI pooling特征提取),通过这个特征回归到ground truth,如下图中红色数字2->3.
网络结构沿用RetinaNet的结构,并引入了feature refinement 模块,并且可以叠加多次
网络backbone使用retinanet 结构
feature refinement 模块
END
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
干货 | 一文总结旋转目标检测全面综述:论文方法与代码相关推荐
- 一文总结旋转目标检测全面综述:论文方法与代码
参考一文总结旋转目标检测全面综述:论文方法与代码 - 云+社区 - 腾讯云 首先放上DOTA数据集官网(http://captain.whu.edu.cn/DOTAweb/index.html),官网 ...
- 【单目3D目标检测】MonoFlex论文精读与代码解析
文章目录 Preface Abstract Contributions Pipeline Problem Definition Decoupled Representations of Objects ...
- 【lidar】3D目标检测PointPillars:论文解读、代码解读、部署实现(2)
PointPillars部署:TensorRT推理实现,下载地址:添加链接描述 PointPillars 高度优化的点云目标检测网络PointPillars.主要通过tensorrt对网络推理段进行了 ...
- 【lidar】3D目标检测PointPillars:论文解读、代码解读、部署实现(1)
Abstract 点云中的目标检测是自动驾驶等机器人应用中的一个重要方面.在本文中,作者思考了将点云编码成适合下游检测pipeline的格式问题.最近的文献提出了两种类型的编码器:固定编码器往往更快, ...
- 收藏!目标检测优质综述论文总结!
这几天在整理论文,发现了这几篇目标检测综述论文,总结出来推荐给大家! Object Detection in 20 Years: A Survey 文章回顾了400多篇关于目标检测的论文,涵盖目标检测 ...
- 【单目3D目标检测】MonoDLE论文精读与代码解析
文章目录 Preface Abstract Contributions Diagnostic Experiments Pipeline Revisiting Center Detection Trai ...
- 目标检测:CenterNet论文解读及代码详解
论文思想 当前anchor-based目标检测方法可分one-stage.two-stage两种.one-stage模型利用anchor机制得到大量的框,之后直接加入回归.分类分支对框进行分类与微调. ...
- 目标检测算法综述—— One-Stage方法
目录 1.概述 2.目标检测算法 2.1.SSD 2.2.DSSD 2.3.YOLO V1 2.4.YOLO V2 2.5.YOLO V3 2.6.RetinaNet 研究背景 主要贡献 二分类的交叉 ...
- 【单目3D目标检测】SMOKE论文解析与代码复现
文章目录 yacs Introduction Usage SMOKE Preface Abstract Contributions Pipeline Backbone Head Branch Orie ...
最新文章
- MATLAB中nargin 的用法
- C#开发微信门户及应用(21)-微信企业号的消息和事件的接收处理及解密
- BAPI_ACC_GL_POSTING_POST生成财务预制凭证
- Maven 强制导入jar包
- Head First设计模式读书笔记七 第八章 模板方法模式
- 智慧工厂平台整体结局方案
- python--笔记
- nginx 负载均衡集群解决方案 healthcheck_nginx_upstreams (一)
- 在ubuntu上安装Avant Window Navigator (AWN)
- python制作个人相册_这样精美的照片墙,其实python也能做
- opencv3.2.0实现视频抽帧,并保存成图片
- .net连接SqlServer数据库
- 论文降重从80%降到1%的方法
- 16*16点阵字库HZK16的使用
- 计算机学科a类排名,哈工大17个学科排名位列A类
- 入门深度学习?这里有5件你应该知道的事
- 走近澳洲------个人所得税篇
- 地磁传感器还可以用于室内定位?
- 谷歌和百度常见搜索技巧
- 戴尔5600服务器主板维修,戴尔至强5600双路刀片服务器横向导购
热门文章
- 干货 | OpenCV看这篇就够了,9段代码详解图像变换基本操作
- 公开课 | 腾讯云高级研发工程师:朋友圈爆款背后的计算机视觉技术与应用
- 技术详解 | 如何用GAN实现阴影检测和阴影去除?
- 颠覆认知了,公司 SRE 天天到底在干嘛?不会是重启工程师吧?
- 还在发愁写API文档?推荐一款阿里腾讯都在用的API管理神器!
- 神奇的 SQL,Group By 真扎心,原来是这样!
- 算法er的尽头会是To B吗?
- KDD Cup 2021城市大脑赛题解析!报名倒计时3天
- 最高10万奖励!不限选题!高通AI应用创新大赛应用赛道详解
- Python数据分析之Pandas读写外部数据文件