代码地址：暂无

1. 概述

导读：这篇文章提出的新的目标检测网络叫做Matrix Nets（该方法是基于关键点的检测算法），这篇文章比较有意思的一点是充分考虑了CNN特征size与aspect对目标检测带来的影响，因而扩大了特征空间使得检测网络的性能得以提升。该网络通过在网络结构的不同层中找到匹配目标的不同size与aspect ratio从而提升检测性能，而这些单独的网络层中size与aspect ratio是统一的，也就是检测网络会选择最适合目标的特征层来检测目标，这样就具有了很好的尺度与长宽比例鲁棒性。使用这个机制这篇文章的算法在MS COCO数据集上获得了47.8%的mAP，而且参数量自由一半，训练速度快了3倍。

这篇文章在FPN对尺度鲁棒（特征 size）的基础上使用MatrixNets增加对于长宽比例（特征 aspect ratio）的鲁棒，文章这样的网络结构能够迁移到其它的backbone网络结构上去，其性能与当前的一阶段检测算法相比见图1所示：

2. 方法设计

2.1 网络结构

这篇文章的算法其结构大致如图2中（b）图所示，对角线上的部分组成的是网络其结构就是FPN结构，在多角线的每个节点上回横向和纵向延伸（分别对应不同的宽高比例），从而构建了一了类似矩形的结构。

2.2 层的生成

在矩阵结构的网络层中，其在横向和纵向方向的延伸是通过一系列的 $3 * 3$ 的卷积实现的，横向与纵向不同的是其stride参数，一个是 $1 * 2$ 另外一个是 $2 * 1$ ，分别对应两个方向上，而且这些卷积参数在每次下采样的过程中是共享的，这样可能减少引入的参数量。

网络层的感受野：
矩阵型的网络结构中的每一层是有其固有的目标尺度映射范围的，这个范围是与层的感受野大小相关的。当层 $l_{1,1}$ 的范围被确定之后，后面的层就可以通过层之间的采样关系推算得到，比如 $l_{1,1}$ 层，其高度上的范围是 $H∈[24px,48px]H\in [24px,48px]$ ，宽度上的范围是 $W∈[24px,48px]W\in [24px,48px]$ ，则对应的层 $l_{1,2}$ 对应的表示范围是 $W∈[48px,96px]W\in [48px,96px]$ ， $H∈[24px,48px]H\in [24px,48px]$ 。

由于位于边界上的目标其目标大小会由于分配的层变化导致训练不稳定，这里通过给范围的上下限设置缩放，文章中将其设置为0.8与1.3。

2.3 使用xNets的目标检测网络设计

文章首先分析了一下CornerNet，CornerNet是无anchor机制的检测算法，省掉了很多anchor设计上的trick，但是也存在如下的一下缺点：

1）CornerNet使用单个输出层去检测多种大小和长宽的目标。这就会导致对于大的目标，网络是不能使用常规卷积操作获取目标角点位置的有效信息的，为了解决这个问题，CornerNet引入了corner pooling操作（也就是水平与垂直方向的最大池化操作），这样虽然是的网络得以稳定，但是却因为池化操作了丢失信息。文中指出其在两个目标的一个边界上重叠的时候，梯度只会考虑最大的那个，这就会带来检测问题（使用xNets）；
2）通过feature embedding完成左上与右下角点的匹配。在图片中目标较多的时候会使得计算量变大；由于embedding学习自身的原因使得检测大与具有相似外观的目标变得困难（取而预测中心解决）；
3）由于上面两点的原因使得网络训练过程缓慢且不稳定，且为了稳定收敛需要大的batch，这就使得占用的显存很大；

基于Matrix Nets的角点目标检测：
在图3中展示了文章提出的基于角点的目标检测算法结构。

在上图中使用上一节中介绍的xNet作为backbone，对于每个matrix层都使用相同的输出子网络预测目标的左上角与右下角的heatmap与corner offset，以及目标的中心预测。对于每一层的预测结果使用中心预测结果进行角点的匹配，最后所有层的结果经过soft nms过程之后生成最后的检测结果。

Corner Heatmaps：
使用xNets保证了目标所需的感受野都在该层的表示范围内，因而这就不需要corner pooling操作了，直接常规卷积预测角点的heatmap，与CornerNet相同这里也是使用focal loss去实现类别均衡。

Corner Regression：
这里对于角点的坐标回归是映射到原始图像的尺寸上进行的，是使用的损失函数是L1损失函数。

Center Regression：
由于目标的宽高在xNets层中已经匹配到了，则目标中心的范围变小，这就使得目标中心的回归变得相对容易。当中心获得之后，则角点借由回归中心之间的关系实现角点之间的匹配，这里使用的回归损失函数是Smooth L1损失。

3. 实验结果

《Matrix Nets：A New Deep Architecture for Object Detection》论文笔记相关推荐

论文笔记之Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...
《Understanding and Diagnosing Visual Tracking Systems》论文笔记
本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...
论文笔记Understanding and Diagnosing Visual Tracking Systems
最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...
目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
追踪系统分模块解析（Understanding and Diagnosing Visual Tracking Systems）
追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...
ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
目录写在前面文章大意一些benchmark 实验实验设置基本模型数据集实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...
Understanding and Diagnosing Visual Tracking Systems
文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...
CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...
ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...
CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

《Matrix Nets：A New Deep Architecture for Object Detection》论文笔记