检测的目标作为成对的关键点

摘要

我们设计了CornerNet，一个新的目标检测方法，我们将一个目标边界框检测为一对关键点，即左上角和右下角，用一个单层卷积神经网络。通过将检测的目标作为成对的关键点，我们除去了对普遍被用在以前单步检测的设计一组锚框的需求。此外对于我们的新方法，我们提出corner池，一中新的池化层能帮助网络更好的定位边角。实验显示CornerNet实现了42.2%的AP在MS COCO数据集上，优于所有现有的单步检测。

关键字目标检测

1 介绍

基于卷积神经网络的目标检测(ConvNets)已经实现了定义多个有挑战性的基准的最新结果。一部分最新的方法是各种尺寸的框和长宽比作为检测候选的锚框。另一些框被广泛用在能实现结果上与正变得更重要的两步检测一样竞争力度的单步检测。单步检测在一张图像上密集地定位锚框并且通过给锚框打分产生最终预测框同时通过回归提取它们的坐标。

但是使用锚框有两个缺点。首先，我们明显需要一个非常大的锚框，比DSSD大40k并且比RetinaNet大100k。这是因为检测器被训练用来分类是否每个锚框与人工标注的框充分重叠，并且需要大量的锚框来确保充分地与真实框重叠。结果是，仅仅很少部分的锚框将和真实框重叠；这在正面和反面锚框间创造了巨大的不平衡并且减缓了训练。

其次，锚框的使用引入了许多超参数和设计选择。这些包括框的数目、尺寸大小及长宽比的大小。这些选择已主要被经由特别的启发式生成，并且甚至能变得更复杂当和多尺度结构结合当一个单层网络对于多分辨率进行分开预测，每个尺度用不同的特征和它自己的一组锚框。

在这篇文章中我们采用CornerNet，一种新的单步方法对于去除了锚框的目标检测。我们检测一个目标的一对关键点——边界框的左上角和右下角。我们用一个单层卷积网络去预测一个heatmap对应于所有相同对象类别的实例的左上角，一个heatmap对应于所有的右下角和一个embedding vector(嵌入向量)对于每个被检测的角。embedding用来把属于相同对象的一对角进行分组——网络被训练用于预测相似embedding。我们的方法极大地简化了网络输出并且消除了对锚框设计的需要。我们的方法受Newell等人提出的组合embedding方法的启发，其检测并对关键点进行分组在2D人体姿态估计上。图1表明了我们方法的整个流程。

图1：我们检测了一个目标作为一对被一起分组的边界框。一个卷积网络输出一个heatmap为所有左上角，一个heatmap为所有右下角，和一个embdding vector为所有被检测的角。该网络被训练来预测相似的embedding对于属于相同对象的角。

CornerNet的另一个新组成部分是corner pooling,作为一种新的池化层，它帮助卷积网络更好的定位边界框。一个边界框的角通常在对象外部——考虑圆形和图2例子的情况。在这样的情况里一个角不能被基于原本的依据所定位。相反，为了确定这里是否是一个占据一个像素位置的左上角，我们需要去水平地向右朝着目标框的上边界看，并且垂直地向下朝着左边界框看。这推动了我们的corner pooling层：它让两个feature map(特征映射)进入；在每个像素位置上它最大池化所有的特征向量从第一个特征映射的右边，最大池化所有的特征向量直从第二个特征映射的正下方，然后将两个池的结果相加。一个例子如图3所示。

图2：通常没有原本根据来确定边框角的位置，我们通过提出一种新的池化层来解决这个问题

图3：Corner池：对于每个通道，我们取两个方向(红线)上的最大值(红点)，每个来自于分离的特征映射，并且将两个最大值加到一起(蓝点)

我们猜测有两个原因解释为什么检测角比边界框中心或其他方案的效果更好。首先，框的中心可能更难定位，因为它取决于对象的全部4条边，而定义一个角点取决于2条边，因此更容易定位，corner pooling(角点合并)更是如此,它将关于角点定义的显示先验知识进行编码。其次，角点提供了一种更有效的方法大量离散框的空间：我们只需要O(wh)角点来代表可能的锚点O(w2h2)。

我们证明了CornerNet对MS COCO数据集的有效性。CornerNet实现了42.2%的AP，优于所有现有的单步检测器。此外，通过ablation studies(控制变量研究)，我们发现corner pooliing对CornetNet的优越性能起至关重要的作用。

2 相关工作

2.1两步目标检测

R-CNN首次提出并推广了两步方法。两步检测器生成一片稀疏的中间区域(RoIs),并通过网络对它们进行分类。R-CNN使用低级视觉算法生成RoI(region of interest)。然后从图像中提取每个区域并交给ConvNet独立处理，产生了大量的冗余计算。后来，SPP和FastRCNN改进了R-CNN通过设计一个特殊的池化层，该层结合了来自feature map的每个区域。然而它们都仍然依赖于单独的建议(proposal)算法，不能进行端到端的训练。Faster-RCNN通过采用区域生成网络(Region Proposal Network，RPN)消除了低级建议算法，该网络从一组预先确定的通常称为锚框的候选框生成建议。这不仅使检测器更有效而且允许检测器进行端到端的训练。R-FCN通过用一个完全卷积的子检测网络替换完全连接的子检测网络，进一步提高了Faster-RCNN的效率。其他研究集中于合并子类信息，生成带有更多上下文信息的多尺度对象proposals，挑选出更好的特征，提高速度，串联过程和更好的训练过程

2.2单步目标检测

另一方面，YOLO和SSD已经推广了单步检测方法，该方法去除了RoI池部分并且在单个网络中检测目标。单步检测器通常比两步检测器的效率更高同时有着显著的表现在不同具有挑战性的基准上。

SSD将锚框集中打在多尺度的feature map上，直接对每个锚框进行分类和细化。YOLO直接从图像中预测边界框的坐标，然后在YOLO9000中通过切换到锚框实现进一步改进。DSSD和RON采用了与沙漏网络类(hourglass network)相似的网络，使它们能够通过跳跃连接将低级和高级特征结合起来从而更准确地预测边界框。然而，这些单步检测器直到引入RetinaNet才比两步检测器性能高。在…中，作者认为密集的锚框在训练过程中造成了正例和反例锚框的巨大不平衡。这种不平衡导致训练效率低下并且因此效果不理想。他们提出了一种新的损失函数，焦点损失函数，它可以动态地调整每个锚框的权重并且实验表明他们的单步检测器优于两步检测器。RefineDet提出过滤锚框来减少反例框的数目，并对锚框进行了粗略调整。

DeNet是一种两步检测器，它在不使用锚框的情况下产生ROI，它首先确定每个位置属于边界框的左上角、右上角、左下角或右下角的可能性。然后通过枚举所有可能的角点组合生成ROI，并按照标准的两步方法对每个ROI进行分类。我们的方法与DeNet截然不同。首先，DeNet不仅识别两个角点是否来自与同一个目标，而且还依赖子检测网络排除较差的ROI。相反，我们的方法是一种单步检测方法，使用单一的卷积网络进行检测和分组角点。其次，DeNet在相对于一个区域的人工确认的位置上选择特征进行分类，而我们的方法不需要任何特征选择的步骤。第三，我们引入corner pooling，一种新的增强角点检测的网络层。

点连接网络(PLN)是一种没有锚框的单步检测器。它首先预测四个角的位置和边界框的中心。然后，在每个角的位置，它预测图像中每个像素位置成为中心的可能性。类似地，在中心位置，它预测每个像素位置属于左上角、右下角、左下角或右下角的可能性。它将来自每个角点和中心对的预测结合产生一个边界框。最后，它将四个边界框合并为一个边界框。CornerNe和PLN有很大的不同。首先，CornetNet通过预测embedding vector对角点进行分组，而PLN通过预测像素位置对角点和中心点进行分组。其次，CornetNet使用corner pooling来更好地定位角点。

我们的方法受到了Newell等人关于多人姿态估计背景下的关联嵌入(embedding)的启发。Newell等人提出了一种在单个网络中检测分组人关节的方法。在他们的方法中，每个检测到的人关节都有一个嵌入向量。根据嵌入间的距离对关节进行分组。据我们所知，我们最先将目标检测作为通过嵌入来检测和分组角点的任务。我们的另一个创新点是corner pooling层，它能够帮助更好地定位角点。我们也对沙漏结构进行了重大修改并且添加了新的focal loss以帮助更好的训练网络。

3 CornerNet

3.1 概述

在CornerNet中，我们将目标检测为一对关键点——边界框的左上角和右下角。卷积网络预测了两个heatmap来表示不同类别目标的角点位置，一个代表左上角并且另一个代表右下角。该网络也预测了每个检测到角点的嵌入向量使得来自同一目标的两个角点间的嵌入距离很小。为了生成更紧密的边界框，网络也预测了偏移量来稍微调整角点的位置。利用预测到的heatmap、嵌入和偏移量，我们采用简单的后处理算法得到最终的边界框。

图4提供了CornerNet的概述。我们使用hourglass网络作为CornerNet的主干网络。在hourglass网络之后是两个预测模块。一个模块用于左上角而另一个模块用于右下角。每个模块都有自己的corner pooling模块用于结合来自hourglass网络中的特征在预测heatmap、embedding和offset之前。与许多其他目标检测不同，我们没有使用不同尺度的特征来检测不同尺寸的对象。我们只将这两个模块用于hourglass网络的输出。

图4 CornerNet概述。主干网之后是两个预测模块，一个用于左上角，另一个用于右下角。我们用两个模块的预测来定位和分组角点。

检测的角点

我们预测了两组heatmap，一组用于左上角，一组用于右下角。每组heatmap有C个通道，C是类别数，并且尺寸是H×W，没有隐藏通道。每个通道都是一个二进制掩码表示角点的位置。

对于每个角，都有一个gt为正的位置，所有其他位置都为负。在训练过程中，我们没有对负位置进行同等惩罚，而是在正位置的半径范围内减少对负位置的惩罚。这是因为一对假的角点检测，如果它们临近它们各自的gt为真位置，仍然可以产生与gt框充分重叠的框(图5)。我们通过确定一个目标的大小来确定半径，方法是确保半径内的一对点将生成一个边界框，其中至少有t个IoU用gt来注释(我们设置t值为0.3在所有实验中)。给定半径，罚减量由一个非标准化的二维高斯函数给出：
$e−x2+y2/2σ2e^{-x^2+y^2/2\sigma^2}$ 中心在正位置并且 $σ\sigma$ 是半径的1/3。

设pcij为预测heatmap中c类在位置(i,j)处的得分，ycij为非标准化高斯增强的“基本真实”heatmap。我们设计了一种焦点损失的变体：

其中N是图像中目标的数量，α和β是控制每个点贡献的超参数(在所有实验中我们将α设置为2，β设置为4).。对于用ycij编码的高斯突起，(1-ycij)项减少了gt位置周围的惩罚。

许多网络涉及下采样层以收集全局信息并减少内存使用。当它们被完全卷积地应用在一张图像中时，输出的尺寸通常小于图像。因此图像中的位置(x,y)被映射到heatmap中的位置上，下采样因子为n。当我们将heatmap中的位置重新映射到输入图像时，可能会丢失一些精度，这会极大地影响小边界框的IoU(交并比)和它们的gt。为了解决这个问题，我们预测位置的偏移用来在重新映射到输入resolution之前稍微调整角点位置。

其中ok是偏移量，xk和yk是角k的x轴、y轴坐标。特别指出，我们预测了所有类别左上角共用的偏移量以及右下角共用的偏移量。针对训练，我们在gt角的位置应用了平滑L1损失：

图5 用于训练的“gt”heatmap。角位于正位置(橙色圆)半径内的方框(绿色虚线矩形)仍然与gt注释(红色实线矩形)有较大重叠。

3.3分组角点

多个目标可能出现在一张图像中，因此可能检测到多个左上角和右下角。我们需要确定一对左上角和右下角是否来自于同一个边界框。我们的方法受到Newell等人在多人姿态估计任务中提出的关联嵌入方法的启发。Newell等人检测了所有人的关节并产生一个embedding为每个检测到的关节。它们根据embedding间的距离对关节进行分组。

关联嵌入的思想也适用于我们的任务。该网络为每个检测到的角点预测一个嵌入向量(embedding vector)，这样如果一个左上角和一个右下角属于同一个边界框，它们embedding间的距离应该很小。然后我们能够根据左上角和右下角的嵌入间距对角点进行分组。嵌入的实际值并不重要。嵌入间距仅仅用于对角点进行分组。

我们在Newell等人的基础上使用了1维嵌入。令etk作为目标k左上角的嵌入，ebk作为右下角的嵌入。正如Newell和Deng指出的，我们用pull损失来训练网络对角点分组并且用push损失来分离角点。

其中ek是etk和ebk的均值并且我们把Δ设为1在我们的所有实验中。与偏移损失类似，我们仅仅在gt角的位置上应用损失函数。

3.4角点池

如图2所示，通常没有局部视觉证据表明角点的存在。为了确定是否一个像素点是左上角，我们需要水平地向右看一个目标的上边界并且垂直地像下看一个目标的左边界。我们因此提出角点池以便更好地定位角点通过对明确的先验知识进行编码。

假设我们想要确认(i,j)位置的像素点是否是一个左上角。令ft和fl为输入左上角池层的feature map，令ftij和flij分别为ft和fl在(i,j)位置的向量。在H×W的feature map中，角池层首先最大结合ft中(i,j)和(i,H)间的所有特征向量得到tij，然后最大结合fl中(i,j)和(W，j)间的所有特征向量得到lij。最后，它把tij和lij加在一起。这步计算可以用下面的等式表示：

我们在这里应用了一种最大elementwise操作。tij和lij可以通过动态规划有效地计算，如图8所示。

图8 定性的例子展示了角点池帮助更好地定位角点

我们用类似地方式定义右下角池层。它最大结合(0,j)和(i,j)间的所有特征向量，以及(i,0)和(i,j)间的所有特征向量在加入池化结果之前。角池层被用在预测模块中预测heatmap、embedding和offset。

预测模块的结构如图7所示。模块的第一部分是残差(residual)块的修改版。在这个改进的残存块中，我们将第一个3×3卷积模块替换为一个角池模块，该模块首先用两个带着128个通道的3×3卷积模块处理来自骨干网的特征，然后应用在角池层上。根据残差块的设计，我们然后将合并后的特征反馈到一个有着256个通道的3×3的Conv-BN(Batch Normalization，规范化)层中，并加回快捷投影。修改后的残差块后面是一个有着256个通道的3×3的卷积模块和3个Conv-ReLU(Rectified Linear Unit,线性激活单元)-Conv层用来产生heatmap、embedding和offset。

图7 预测模块首先是一个改进的残差块，我们将第一个卷积模块替代为我们的角池模块。改进的残差块后面是一个卷积模块。我们用多个分支来预测heatmap、embedding和offset

3.5Hourglass(沙漏)网络

CornerNet使用了hourglass网络作为它的骨干网络。hourglass网络首先在人体姿态估计任务中被提出。它是一个完全卷积的神经网络，由一个或多个hourglass模块组成。一个hourglass模块首先通过一系列卷积和最大池化层对输入特征进行下采样。然后通过一系列上采样和卷积层将特征上采样回原始的分辨率。因为在最大池化层中丢失了细节，所以加入skip将细节带回上采样的特征。 hourglass模块在一个同一的结构中捕获全局和局部特征。当多个hourglass模块堆积在网络中时，它们能重新处理特征以捕获更高级的信息。这些特性也使得hourglass网络成为目标检测的理想选择。事实上，许多现在的检测器已经采用了类似hourglass网络的网络。

我们的hourglass网络由两个hourglass组成，我们还对hourglas模块的结构做了一些修改。没有使用最大池。

图6 左上角池化层能被非常有效地实施。我们从右到左扫描水平最大池，从下至上扫描垂直最大池，然后把两个最大池化后的特征图相加。

我们仅仅使用stride为2来降低特征分辨率。我们将分辨率降低了5倍并按照这种方式增加了特征通道的数量(256,384,384,384,512)当我们对特征进行上采样时，我们用两个残差模块，然后进行最近邻上采样。每个跳连接也由2个残差模块组成。在hourglass模块的中间有包含512个通道的4个残差模块。在hourglass模块之前，我们将图像分辨率降低了四倍通过使用一个7×7的带有跳2格平移(https://zhuanlan.zhihu.com/p/30701316)及128个通道的卷积模块和一个stride为2及256个通道的残差块。

接下来（Newell等人，2016），我们还在训练中加入了中间监督。但是，我们不会将中间的预测加回网络，因为我们发现这会影响网络的性能。在第一个hourglass模块的输入和输出中，我们采用了一个1×1Conv-BN(Batch Normalization)模块。然后，我们通过按元素加法合并它们，然后是一个ReLU和一个带有256个通道的残差块，然后将其用作第二个hourglass模块的输入。hourglass网络的深度是104。与许多其他最新的检测器不同，我们只使用整个网络最后一层的特征进行预测

4.实验

4.1训练细节

我们在PyTorch中实现了CornerNet（Paszke et al.，2017）。网络在默认设置PyTorch下随机初始化，没有任何外部数据集的预训练。当我们应用焦点损失时，我们遵循（Lin et al.，2017）设置预测拐角热图的卷积层中的偏差。在训练过程中，我们将网络的输入分辨率设置为511×511，输出分辨率为128×128。为了减少过拟合，我们采用了标准的数据增强技术，包括随机水平翻转、随机缩放、随机裁剪和随机颜色抖动，其中包括调整图像的亮度、饱和度和对比度。最后，我们将PCA（Krizhevsky et al.，2012）应用于输入图像。

我们使用Adam（Kingma和Ba，2014）来优化全局训练损失：

其中α，β和γ是pull，push和offset各自损失的权重。我们把α，β设置为0.1，γ设置为1.我们发现将α和β设置为1或更大值时会导致效果降低。我们用了49的batch size，在10个Titan X(PASCAL)的GPU上训练网络(主GPU上有4张图，其余的GPU各自有5张图)。为了节省GPU资源，在我们的控制变量实验中，我们以2.5×10-4的学习率进行250k次迭代训练网络。当我们将我们的结果和其他检测器进行比较时，我们对网络进行额外的250k次迭代训练，并将最后50k次迭代的学习率降低到2.5×10-5。

4.2测试细节

在测试过程中，我们使用了一个简单的后处理算法从热图(heatmap)、嵌入(embedding)和偏移(offset)中生成边界框。我们首先通过使用一个3×3大小的池化层在corner热图上来实现非极大抑制(NMS)。然后我们从热图中获取前100个左上角和前100个右下角。角点的位置通过相应的偏移进行调整。我们计算左上角和右下角嵌入间的L1距离。距离超过0.5或包含不同种类拐角的拐角对被拒绝。左上角和右下角的平均得分被用作检测得分。

没有将图像调整为固定的大小，我们保持了图像的原始分辨率并在将其送到CornerNet之前将其填充为0。原始图像和翻转图像都用于测试。我们将原始图像和翻转图像的检测结合，并应用软化nms来抑制冗余检测。只有前100个检测被报告。在Titan X GPU上，每个图像的平均推断时间为244ms。

4.3MS COCO

我们在非常挑战性的MS COCO数据集上评估CornerNet。MS COCO提供了80k的训练图像，40k的验证图像和20k的测试图像。训练集中的所有图像和验证集中的35k图像用于训练。验证集中剩余的5k图像用于超参数搜索和控制变量研究。测试集上的所有结果都将提交到外部服务器进行评估。为了提供与其他检测器的公平比较，我们在test-dev集合上公布了我们的主要结果。MS COCO使用不同IoU下的平均精度（APs）和不同目标大小的APs作为主要评估指标。

4.4控制变量研究

4.4.1 Corner Pooling

Corner Pooling是CornerNet的关键部分。为了弄清它对性能的贡献，我们训练了另一个没有corner pooling但相同数目参数的网络。

表1显示加入corner pooling有了显著的提高：2%对于AP，2.1%对于AP50及2.1%对于AP75。我们也看到corner pooling对于中等和大目标很有帮助，分别将它们的AP提高了2.4%和3.6%。这是意料之中的，因为中等和大目标的最顶部、最底部、最左侧和最右侧边界可能离拐角位置更远。图8显示了是否有corner pooling 的四个定性实例。

4.4.2更大区域上Corner Pooling的稳定性

Corner Pooling聚集在一张图像不同象限中的不同大小区域。例如，与右下象限相比，左上角的corner pooling聚集在图像左上象限中水平和垂直的更大区域。因此，角点的位置可能影响corner pooling的稳定性。

我们评估了我们的网络对图像不同象限的左上角和右下角的检测性能。检测角点可以看作为二分类任务，级角点的gt位置为正，角点小半径之外的任何位置都为负。我们使用MS验证集上所有类别的mAP度量性能。

表3显示了在没有corner pooling的情况下，左上和右下象限的左上角mAP分别为66.1%和60.8%。左上corner pooling使mAP分别提高了3.1%(到69.2%)和2.7%(到63.5)。同样，右下corner pooling将左上象限的右下角mAP提高了2.8%(从53.4%提高到56.2%)，右下象限的右下角mAP提高了2.6%(从65.0%提高到67.6%)。Corner pooling对于不同象限有类似的改进，表明corner pooling对于小和大的区域都是有效和稳定的。

4.4.3降低对负位置的惩罚

我们降低了对正位置周围的负位置的惩罚在以目标大小决定的半径范围内。为了明白这能够怎样帮助训练CornerNet，我们训练了一个没有降低惩罚的网络和另一个固定半径为2.5的网络。我们将它们与CornerNet进行比较在验证集上。表2显示一个固定的半径比基准线(baseline)提高2.7%的AP，1.5%的APm，5.3%的APl。目标依赖的半径更是提高了2.8%的AP，2.0%的APm，5.8%的APl。此外，我们看出降低惩罚尤其对中等和大目标有利。

表1 ：对corner pooling进行控制变量在MS COCO验证集上
表2：降低对临近正位置的负位置的惩罚有助于有效地提高网络的性能
表3：Corner Pooling持续地提高网络性能对于不同图像象限的角点检测，显示出corner pooling对于小或大的区域都是有效的和稳定的。

图8 定性的实例展示出corner pooling更好地帮助定位角点

4.4.4Hourglass网络

CornerNet使用Hourglass网络作为其主干网络。因为hourglass网络没有完全用于其他最新的检测器，我们做了一个实验来研究hourglass网络对CornerNet的作用。我们训练了一个CornerNet，用FPN替代hourglass网络，FPN更常用于最新的检测器。我们只用FPN最终的输出进行预测。同时，我们训练了一个锚框，它基于以hourglass网络为主干的探测器。每个hourglass模块通过在下采样阶段使用多个尺度的特征预测多个分辨率的锚框。我们按照RetinaNet中锚框的设计并且在训练中加入了中间监督。在这两个实验中，我们从头开始初始化网络并按照相同的训练步骤训练CornerNet。

表4表明用hourglass网络的CornerNet比用FPN的CornerNet性能上好8.2%的AP，比基于hourglass网络的锚框检测器好5.5%的AP。结果表明对于主干网的选择是关键，hourglass网络对CornerNet的性能至关重要。

表4：hourglass网络对CornerNet的性能至关重要

一个好的检测器应该预测出紧紧覆盖目标的高质量边界框。为了确认CornerNet预测边界框的质量，我们评估了CornerNet在多个IoU阈值下的性能，并将结果和其他最新的检测器进行比较，包括RetinaNet，Cascade R-CNN和IoU-Net。

表5表明了CornerNet在IoU为9的情况下实现了比其他检测器更高的AP，比Cascade R-CNN+IoU-Net好3.9%，比Cascade R-CNN好7.6%，比RetinaNet好7.3%。这表明与其他最新的检测器相比，CornerNet能产生更高质量的边界框。

表5： CornerNet比其他最新的检测器在高IoU条件下表现的更好

4.4.6误差分析

CornerNet同时输出heatmap，offset和embedding，这些都会影响检测性能。如果任何一个角点丢失，目标也将丢失；需要精确的偏移来生成紧密的边界框；错误的嵌入将导致许多错误的边界框。为了明白每个部分如何导致最终误差，我们通过用gt值代替预测的heatmap和offset并评估在验证集上的性能来执行误差分析。

表6显示单独使用gt角点的heatmap可以将AP从38.4%提高到73.1%。APs，APm和APl也分别增长了42.3%，40.7%和30.0%。如果我们用gt偏移量替换预测的偏移量，AP将进一步增加13.0%至86.1%。这表明尽管在检测和分组角点上仍然有充足(ample)的改进空间，主要的瓶颈是检测角点。图9显示了角点位置或嵌入不正确的一些定性例子、

表6：误差分析。我们用gt值替代预测的heatmap。单独使用改进gt的heatmap。AP从38.4%提高到73.1%，表明CornerNet的主要瓶颈是检测角点。

图9 定性的例子展示了预测角点和嵌入的误差。第一行图片展示了CornerNet错误地结合了来自不同目标的边界依据。第二行图片展示了CornerNet预测来自不同目标角点的相似嵌入。

4.5和最新的检测器进行比较

我们将CornerNet和其他最新的检测器在MS COCO test-dev数据集上进行了比较。通过多尺度评估，CornerNet的AP达到了42.2%，是现有单步方法的最新水平，可与两步方法相竞争。

5结论

我们提出了CornerNet一种新的目标检测方法，它将边界框检测为一对角点。我们在MS COCO数据集上对CornerNet进行了评估并且展示了对比结果。

CornerNet: Detecting Objects as Paried Keypoints 论文翻译相关推荐

CornerNet: Detecting Objects as Paired Keypoints 论文笔记
CornerNet: Detecting Objects as Paired Keypoints 论文链接: https://arxiv.org/abs/1808.01244 一. Problem S ...
CornerNet: Detecting Objects as Paired Keypoints论文笔记（详细）
看完Cornernet之后,不得不说这篇文章很复杂,可以扣的细节很多,而我自己也是反反复复读了好几遍才理清作者的思路,特此记录下来,以供之后回读. Cornernet作为one-stage目标检测器, ...
【目标检测】CornerNet: Detecting Objects as Paired Keypoints论文理解
文章目录摘要 1 引言 2 相关工作 2.1 两阶段检测器 2.2 单阶段检测器 2.3 anchor free的检测器 3 CornerNet 3.1 概述 3.2 检测角点 3.3 分组角点 3 ...
【论文笔记】：CornerNet: Detecting Objects as Paired Keypoints
&Title: CornerNet: Detecting Objects as Paired Keypoints CornerNet: Detecting Objects as Paired ...
CornerNet论文详解CornerNet: Detecting Objects as Paired Keypoints
一.论文相关信息 1.论文题目:CornerNet: Detecting Objects as Paired Keypoints 2.发表时间:2018 3.文献地址:https://op ...
ECCV2018 | 论文阅读CornerNet: Detecting Objects as Paired Keypoints
CornerNet论文阅读--CornerNet: Detecting Objects as Paired Keypoints 文章目录 CornerNet论文阅读--CornerNet: Detec ...
论文笔记：CornerNet—Detecting Objects as Paired Keypoints
CornerNet: Detecting Objects as Paired Keypoints 1.摘要 2.细节 2.1.概览 2.2.检测角点 2.3.角点分组 2.4.角点池化 2.5.Hou ...
论文阅读笔记五十：CornerNet: Detecting Objects as Paired Keypoints(ECCV2018)
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要本文提出了目 ...
目标检测经典文章翻译4：CornerNet:Detecting Objects as Paired Keypoints（CornerNet带读）
一.番外说明大家好,我是小P,今天和大家带来目标检测经典论文翻译的CornerNet,该模型是第一个在一阶段网络中不使用anchor机制又能取得不错效果的模型,其后续的CornerNet-Lite版 ...

CornerNet: Detecting Objects as Paried Keypoints 论文翻译

检测的目标作为成对的关键点

摘要

关键字目标检测

1 介绍

2 相关工作

2.1两步目标检测

2.2单步目标检测

3 CornerNet

3.1 概述

检测的角点

3.3分组角点

3.4角点池

3.5Hourglass(沙漏)网络

4.实验

4.1训练细节

4.2测试细节

4.3MS COCO

4.4控制变量研究

4.4.1 Corner Pooling

4.4.2更大区域上Corner Pooling的稳定性

4.4.3降低对负位置的惩罚

4.4.4Hourglass网络

4.4.6误差分析

4.5和最新的检测器进行比较

5结论

CornerNet: Detecting Objects as Paried Keypoints 论文翻译相关推荐

最新文章

热门文章

CornerNet: Detecting Objects as Paried Keypoints 论文翻译

检测的目标作为成对的关键点

摘要

关键字 目标检测

1 介绍

2 相关工作

2.1两步目标检测

2.2单步目标检测

3 CornerNet

3.1 概述

检测的角点

3.3分组角点

3.4角点池

3.5Hourglass(沙漏)网络

4.实验

4.1训练细节

4.2测试细节

4.3MS COCO

4.4控制变量研究

4.4.1 Corner Pooling

4.4.2更大区域上Corner Pooling的稳定性

4.4.3降低对负位置的惩罚

4.4.4Hourglass网络

4.4.6误差分析

4.5和最新的检测器进行比较

5结论

CornerNet: Detecting Objects as Paried Keypoints 论文翻译相关推荐

最新文章

热门文章

关键字目标检测