论文笔记——AlignDet
论文下载
https://arxiv.org/pdf/1908.01570.pdf
论文代码:
代码未开源
论文摘要:
在所有的单阶段检测器中都存在一个基本问题,即锚盒与卷积特征之间的不对齐,这严重影响了单阶段检测器的性能。在这项工作中,作者揭示了广泛使用的im2col运算符和RolAlign运算符之间的深层联系。在观察两者发挥的作用后,我们提出了一个RolConv算子,在单阶段检测中对齐特征及其相应的锚点。然后,作者设计了一个完全卷积的AlignDet体系结构,它结合了学习锚点的灵活性和对齐特征的精确性。
一阶段的不匹配问题:
(1)位置敏感的任务需要敏感位置敏感特征,这意味着输入特征应该随参考框而变化。
(2)将特征与其相应的标注框对齐是目标检测的核心。
(3)多个锚框共享特征违反了锚框与特征的一对一的对应关系,打破了目标检测中严格的位置敏感性。
(4)单阶段检测器使用较为密集的锚框回归成检测框,作者假设这些具有偏差的特征和过多的锚框会导致检测器性能退化。
单阶段检测器和二阶段检测器的一个显著区别:
单阶段检测器缺少RoIPooling和RoIAlign等RoI特征提取器。
RoI特征提取器可以为每个RoI提供对齐的特征。
对于单阶段检测器,所有锚框(二阶段探测器中RoI的单阶段特征)在相同的空间位置上都具有相同的特征。
作者用单阶段检测器和二阶段检测器进行FPN特征层减少的实验。实验表明,随着FPN特征层的减少,对单阶段检测器的影响更大。
FPN有助于缓解单阶段检测器缺乏对齐特征和相应的包围框的问题,因此FPN对单阶段检测器很重要。
但是FPN仅仅通过限制每个特征图的比例尺来缓解这种不对齐问题,并没有根本解决。
推导AlignConv:
因为imcol和RoIAlign的卷积过程和实现非常相似,所以作者用两者进行对比。
im2col是一种优化卷积的运算,把三维特征图变换成二维特征向量。im2col操作输入特征图上的一组固定的空间位置,而RoIAlign操作RoI定义的位置。im2col本质上是RoIAlign的一个特例。
im2col的公式:原特征图特征点坐标(X,Y)经过h×w大小的卷积核输出处理后的特征图的坐标,i和j分别运算区域(卷积区域)的的行和列:
RoIAlign的公式:原特征图的锚框坐标(x1,x2,y3,y4)经过h×w大小的ROI区域,步长S,输出处理后的特征图的特征点坐标,i和j分别是运算区域(ROI区域)的行和列:
作者将im2col和RoIAlign的公式等价化,也就是转变成同一种公式,得到如下公式,(x1,y1)为实际卷积的特征坐标,(x2,y2)为RoI后的特征坐标:
可以看到二者并不相等(不匹配),受可变形卷积DCN的启发,作者添加偏移量来解决不匹配问题。
作者通过RoIAlign 的坐标公式减去im2col的坐标公式得到偏移量公式:
O为(X,Y)的偏移量,和DCN的可学习的偏移量不一样,该偏移量直接可以计算得到。
因为偏移量实际就是anchor坐标与特征点坐标(X,Y)的线性组合,在代码中可用1×1的卷积和元素相加实现。
AlignDet整体架构:
分为DPM和ADM两部分,DPM会回归两次。
第一次通过H×W×4的anchor坐标特征在RoIConv得到偏移量,然后回归;
第二次根据偏移量在RoIConv中解决不匹配问题,然后回归。(下面的那条路径)
两次回归的正样本IoU阈值不一样。
AlignDet本质上就是带有RoIConv的RetinaNet。
实验结果:
不同的对齐特征的方法比较:
ROIConv的方法比其他三种方法提高精度更明显,说明更能有效解决特征与RoI预测框的不匹配问题:
FPN改为单层特征的RetinaNet加进入RoIConv提高5个点:
在COCO minival集合上比较AlignDet和RetinaNet:
在convs的隐式Rols和精细锚之间的loUs分布。从偏置点的外接矩形出发,得到了DeformConv的隐式Rol:
论文笔记——AlignDet相关推荐
- ORB-SLAM3 论文笔记
ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...
- 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...
- 最新图神经网络论文笔记汇总(附pdf下载)
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...
- [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)
Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
- 光流 速度_[论文笔记] FlowNet 光流估计
[论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...
- 论文笔记 《Maxout Networks》 《Network In Network》
原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...
- 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization
论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...
- 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
最新文章
- [转]避免误用 Redis
- java 方法 示例_带有示例的Java EnumSetSupplementOf()方法
- (转) 一步一步学习ASP.NET 5 (四)- ASP.NET MVC 6四大特性
- 一、Java Web——JDBC快速入门(详解)
- 生产环境遇到难题,你是如何解决的?
- 写一个类Army,代表一支军队,这个类有一个属性Weapon数组w(用来存储该军队所拥有的所有武器), 该类还提供一个构造方法,在构造方法里通过传一个int类型的参数来限定该类所能拥有
- Netty技术细节源码分析-MpscLinkedQueue队列原理分析
- 中国双面泡棉胶带市场趋势报告、技术动态创新及市场预测
- 树莓派4烧录系统后黑屏_原创试用 | 树莓派3B+测评(二)ubuntu系统烧录+彩虹屏问题解决...
- WM 仓库管理T-CODE
- node http创建正向代理_Node.JS实战20:用execFile执行外部程序
- 浅析MyBatis执行器原理
- 简单介绍Hadoop实操
- oracle数字进一函数,oracle常用函数一:数字函数
- 微信小程序使用正则过滤电话号码
- 2021年校招,最值得加入的互联网公司有哪些?
- 第6章 面向对象基本特征
- ITSM:免费开源与收费的究竟差别在哪里?
- mysql:Row size too large (> 8126)
- 音频格式(一)PCM和WAV