yolo-v2 翻译

Abstract

我们介绍了YOLO9000，一个最先进的实时目标检测系统,可以检测超过9000个对象类别。首先，我们提出了对YOLO检测方法的各种改进，包括新颖的和从以前的工作中的总结，对于标准的检测任务YOLOv2 是最先进，例如如PASCALVOC和COCO。使用一种新的、多尺度的训练方法，相同的YOLOv2模型可以在不同的大小下运行，在速度和精度之间提供了一个简单的权衡。YOLOv2在VOC2007 上可以到达67fps, 76.8mAP 。在40FPS时，YOLOv2获得78.6mAP，在运行速度显著加快的情况下，超过了最先进的方法，如 Faster-RCNN和ResNet和SSD。最后，我们提出了一种联合训练目标检测和分类的方法。使用该方法，我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合训练允许YOLO9000预测没有标记检测数据的对象类的检测。我们在图像网络检测任务上验证了我们的方法。尽管YOLO9000只有200个类中的44个类的检测数据，但在图像网络检测验证集上获得19.7mAP。在不在COCO的156 个类中，YOLO9000获得16.0mAP。但是YOLO可以检测超过200个类；它预测了9000多个不同对象类别的检测。它仍然实时运行。

1、Introduction

通用目标检测应快速，准确，并能识别多种目标，自神经网络引入以来，检测框架变得越来越快和准确。然而，大多数检测方法仍然被限制在一小数据集目标上。

与分类和标记等其他任务的数据集相比，当前的目标检测数据集受到限制。最常见的检测数据集包含数千到数十万张图像，带有几十到数百个标签[3][10][2]。分类数据集有数以百万计的图像，有数万或几十万个类别[20][2]。

我们希望检测扩展到目标分类的级别。然而，用于检测的标签图像远比用于分类的标签昂贵（标签通常是用户免费提供的）。因此，我们不太可能查看与分类数据集相同规模的检测数据集。我们提出了一种新的方法来利用我们已经拥有的大量分类数据，并利用它来扩大当前检测系统的范围。我们的方法使用对象分类的层次视图，允许我们将不同的数据集组合在一起。我们还提出了一种联合训练算法，允许我们在检测和分类数据上训练目标检测器。我们的方法利用标记检测图像来学习精确定位目标，同时使用分类图像来增加其词汇量和鲁棒性。

使用这种方法，我们训练 YOLO9OO0，它是一种实时的目标检测器，可以检测超过 9000 种不同的目标类别。首先，我们改进了基于YOLO 检测系统， YOLOv2这是一种最先进的实时检测器。然后，我们使用数据集组合方法和联合训练算法对来自Image Net的9000多个类以及来自COCO 的检测数据进行模型训练。

我们所有的代码和经过预先训练的模型都可以在
http://pjreddie.com/yolo9000/。获得

2. Better

与最先进的检测系统相比，YOLO 存在各种缺陷。与快速 R-CNN 相比，YOLO 的误差分析表明，YOLO 产生了大量的定位误差。此外，与基于区域建议框的方法相比，YOLO 的召回率相对较低。因此，我们主要集中在提高召回和定位，同时保持分类的准确性。

计算机视觉通常趋向于更大、更深的网络[6][18][17]。更好的性能往往取决于训练更大的网络或将多个模型组合在一起。然而，对于YOLOv2，我们想要一个更精确的检测器，它仍然是快速的。而不是扩大我们的网络，我们简化了网络，然后使表示更容易学习。我们将过去工作中的各种想法与我们自己的新概念结合起来，以提高 YOLO 的性能。结果摘要见表 2。

Batch Normalization
Batch normalization 使得收敛的显著改善，同时不在需要其他形式的正则化[7]. 通过在 YOLO 中的所有卷积层上添加Batch normalization，我们在 mAP 中得到了 2%以上的改进。Batch normalization也有助于模型的规范化. 通过Batch normalization，可以在不过度拟合的情况下从模型中去掉Dropout。

High Resolution Classififier
所有最先进的检测方法都使用在Image Net[16]上预先训练的分类器。从 AlexNet 开始，大多数分类器对小于256x256[8]的输入图像进行操作。原始YOLO 以 224x224 训练分类器网络，并将分辨率提高到448进行检测。这意味着网络必须同时切换到学习对象检测，并调整到新的输入分辨率。

对于YOLOv2，我们首先在 Image Net 上以完全 448x448分辨率对分类网络进行10次微调。这使网络有时间调整其滤波器，以便在更高分辨率的输入上更好地工作。然后，我们在检测时对结果网络进行微调。这种高分辨率分类网络使我们的mAP 增加了近 4%。

Convolutional With Anchor Boxes
YOLO 直接使用卷积特征提取器顶部的完全连接层来预测包围盒的坐标。而Faster R-CNN 预测包围盒使用手工挑选的先验框[15]。Faster R-CNN仅使用卷积层，区域建议网络(RPN) 预测偏移和信任的Anchors box。由于预测层是卷积的，RPN 在特征映射的每个位置预测这些偏移量。预测偏移而不是坐标,这样简化了问题，使网络更容易学习。

我们从== YOLO 中删除完全连接的层，并使用Anchors box来预测包围框==。首先，我们消除了一个池化层，使网络卷积层的输出具有更高的分辨率。我们还缩小网络，以操作 416 分辨率的输入图像，而不是 448x448。我们这样做是因为我们希望在我们的特征映射中有一个奇数的位置，所以有一个单一的中心单元。物体，特别是大型物体，往往占据图像的中心，所以最好在中心有一个单独的位置来预测这些物体，而不是四个都在附近的位置。 YOLO 的卷积层对图像的采样系数为 32，因此使用416 的输入图像得到了13x13的输出特征映射。

当我们移动到Anchors box时，我们还将类预测机制与空间位置解耦，而不是预测每个Anchors box的类和对象。在 YOLO 之后，对象性预测仍然预测GT与建议框的IOU，并且所提出的框和类预测预测在存在对象的情况下预测该类的条件概率。

使用Anchors box，我们得到了一个小的精度下降。 YOLO 只预测每幅图像有 98 个盒子，但是有了Anchors box，我们的模型预测了一千多个。没有Anchors box，我们的中间模型得到 69.5 mAP，召回率为 81%。用Anchors box，我们的模型得到 69.2 mAP，召回率为 88%。即使 mAP 减少，召回的增加意味着我们的模型有更多的改进空间。

Dimension Clusters
我们在使用 YOLO 时遇到了两个锚盒问题。首先是盒子的尺寸是手工挑选的。网络可以学会适当地调整框，但如果我们从网络开始选择更好的先验，我们可以使网络更容易地学会预测好的检测，我们没有手工选择先验，而是在训练集界框上运行== k-means 聚类在训练集上自动的设置更好的先验框==。
图 2：VOC 和 COCO 上的聚类盒尺寸。我们在包围盒的维度上运行k 均值聚类，以获得我们的模型的良好先验。左边的图像显示了我们得到的平均IOU与各种选择的k。我们发现，k=5 给出了一个良好的权衡召回和复杂的模型。右图显示 VOC 和 COCO 的相对质心。这两套先验有利于更薄，更高的盒子，而 COCO 有更大的变化，比VOC。

如果我们使用标准的 k-均值与欧氏距离较大的框产生更多的误差比较小的框。然而，我们真正想要的是产生良好IOU分数的先验，这与盒子的大小无关。因此，对于我们的距离度量，我们使用：
d(box,centroid)=1−IOU(box,centroid)d(box, centroid) = 1 -IOU(box, centroid)d(box,centroid)=1−IOU(box,centroid)
我们运行 k-均值的各种值 k，并绘制平均 IOU 与最近的质心，见图 2。我们选择 k=5 作为模型复杂性和高召回之间的良好权衡… 聚类质心明显不同于手工挑选的锚盒。有更少的短，宽的盒子和更高，薄的盒子。

我们将平均iou与最接近的聚类策略和表 1 中的手工挑选的锚盒进行了比较。在只有 5 个前，质心的表现类似于9 个锚盒，平均IOU为 61.0，而不是 60.9。如果我们使用 9 个质心，我们会看到一个更高的平均IOU。这表明，使用k-means 生成我们的边界框以更好的表示启动模型，并使任务更容易学习。

表1：VOC 2007上最接近先验盒的平均IOU。VOC2007上最接近，未修改先验对象的平均IOU使用不同的生成方法。与使用人工挑选的先验相比，聚类提供了更好的结果。

Direct location prediction.
在YOLO中使用锚框时，我们会遇到第二个问题：模型不稳定性，尤其是在早期迭代期间。大多数不稳定性来自于直接预测盒子的（x，y）位置。在区域提议网络中，网络预测tx和tyt_x和t_ytx和ty，并且（x，y）中心坐标的计算公式为：
x=(tx∗wa)−xax = (tx∗ wa) − xax=(tx∗wa)−xay=(ty∗ha)−yay = (ty∗ ha) − ya y=(ty∗ha)−ya

例如，tx=1t_x = 1tx=1的预测将使该框向右移动锚定框的宽度，tx=−1t_x = -1tx=−1的预测将使该框向左移动相同的量。
此公式不受限制，因此任何锚定框都可以终止于图像中的任意点，而不管预测该框的位置如何。通过随机初始化，该模型需要很长时间才能稳定以预测合理的偏移量。

代替预测偏移量，我们采用YOLO的方法，而是预测相对于网格单元位置的位置坐标。这将基本真理限制在0到1之间。我们使用逻辑激活将网络的预测限制在此范围内。

网络会在输出要素图中的每个像元上预测5个边界框。网络为每个边界框tx，ty，tw，th和tot_x，t_y，t_w，t_h和t_otx，ty，tw，th和to预测5个坐标。如果单元格从图像的左上角偏移了（cx，cy）（c_x，c_y）（cx，cy）并且先验边界框的宽度和高度为pw，php_w，p_hpw，ph，则预测对应于：
bx=σ(tx)+cxb_x= σ(t_x) + c_xbx=σ(tx)+cx
by=σ(ty)+cyb_y= σ(t_y) + c_yby=σ(ty)+cy
bw=pwetwb_w= p_{w}e^{t_w}bw=pwetw
bh=phethb_h= p_he^{th}bh=pheth
Pr(object)∗IOU(b,object)=σ(to)P r(object) ∗ IOU(b,object) = σ(t_o)Pr(object)∗IOU(b,object)=σ(to)
由于我们限制了位置预测，因此参数化更易于学习，从而使网络更加稳定。与带有锚框的版本相比，使用尺寸簇以及直接预测边界框中心位置可使YOLO提升近5％。

Fine-Grained Features.
修改后的YOLO可以预测13×13特征图上的检测结果。尽管这对于大型对象已经足够，但它可能受益于用于定位较小对象的更细粒度的特征。Faster-R-CNN和SSD都在网络中的各种功能图上运行其建议网络，以获得各种分辨率。我们采用了不同的方法，只是添加了一个通过层，以26×26的分辨率带来了浅层的特征。

与ResNet中的 identity mapping类似，直通层通过将相邻要素堆叠到不同的通道而不是空间位置中，从而将高分辨率要素与低分辨率要素连接起来。将26×26×512特征图转换为13×13×2048特征图，可以将其与原始特征连接。我们的探测器在此扩展的特征图上运行，因此可以访问细粒度的特征。这会适度提高1％的性能。

图3：带有尺寸优先级和位置预测的边界框。我们将框的宽度和高度预测为与簇质心的偏移量。我们使用sigmoid函数预测盒子相对于过滤器应用位置的中心坐标。

Multi-Scale Training.
原始的YOLO使用的输入分辨率为448×448。通过添加锚框，我们将分辨率更改为416×416。但是，由于我们的模型仅使用卷积和池化层，因此可以随时调整其大小。我们希望YOLOv2能够在不同尺寸的图像上运行，因此我们将其训练到模型中。

我们不固定输入图像的大小，而是每隔几次迭代就更改网络。每10批我们的网络就会随机选择一个新的图像尺寸。由于我们的模型下采样了32倍，因此我们从以下32的倍数中提取：{320,352，…，608}。因此，最小的选项是320×320，最大的是608×608。我们将网络调整为该尺寸并继续训练。

这种制度迫使网络学习跨各种输入维度的良好预测。这意味着同一网络可以预测不同分辨率的检测。网络在较小的尺寸下运行速度更快，因此YOLOv2可以在速度和准确性之间轻松权衡。

在低分辨率下，YOLOv2是运算消耗小，但准确的检测器。在288×288的分辨率下，它的mAP运行速度超过90 FPS，几乎与Fast R-CNN相当。这使其成为较小GPU，高帧率视频或多个视频流的理想选择。

在高分辨率下，YOLOv2是在VOC 2007上具有78.6 mAP的最先进的检测器，同时仍可以实时速度运行。YOLOv2与其他框架的比较请参见表3。

表3：PASCAL VOC 2007上的检测框架。YOLOv2比以前的检测方法更快，更准确。它还可以在不同的分辨率下运行，以便在速度和精度之间轻松权衡。每个YOLOv2条目实际上都是具有相同权重的相同训练模型，只是以不同的大小进行了评估。所有时序信息均位于Geforce GTX Titan X（原始型号，而非Pascal型号）上。

Further Experiments.
我们训练了YOLOv2在VOC 2012上进行检测。表4显示了YOLOv2与其他最新检测系统的比较性能。 YOLOv2达到73.4 mAP，同时运行速度远远超过竞争方法。我们还对COCO进行了训练，并与表5中的其他方法进行了比较。在VOC度量标准（IOU = 0.5）上，YOLOv2获得44.0 mAP，与SSD和Faster R-CNN相当。

表2：从YOLO到YOLOv2。列出的大多数设计决策都会导致mAP显着增加。两个例外是切换到带有锚点盒的完全卷积网络并使用新网络。切换到锚框样式方法可以在不更改mAP的情况下增加召回率，同时使用新的网络切割计算可以减少33％。

表4：PASCAL VOC2012测试检测结果。 YOLOv2与最先进的检测器（例如带有ResNet和SSD512的Faster R-CNN）具有同等性能，并且速度提高了2−10倍

3. Faster

我们希望检测是准确的，但我们也希望它是快速的。大多数检测应用程序，例如机器人技术或自动驾驶汽车，都依赖于低延迟预测。为了使性能最大化，我们将YOLOv2设计为从零开始。

大多数检测框架都依赖VGG-16作为基本特征提取器[17]。 VGG-16是一个功能强大，准确的分类网络，但它不必要地复杂。 VGG-16的卷积层在224×224分辨率的单个图像上单次通过需要306.9亿个浮点运算。

YOLO框架使用基于Googlenet架构的自定义网络[19]。该网络比VGG-16更快，仅使用85.2亿次操作进行正向传递。但是，其准确性比VGG16稍差。对于单幅作物，前5位精度为224×224，YOLO的自定义模型可获得88.0％的ImageNet图像，而VGG-16则为90.0％。
Darknet-19
我们提出了一种新的分类模型作为YOLOv2的基础。我们的模型建立在网络设计的先前工作以及该领域的常识的基础上。与VGG模型类似，在每个合并步骤之后，我们主要使用3×3滤波器，并使通道数量增加一倍[17]。遵循网络中网络（NIN）的工作之后，我们使用全局平均池进行预测，并使用1×1过滤器压缩3×3卷积之间的特征表示[9]。我们使用批量归一化来稳定训练，加快收敛速度，并使模型正规化[7]。

我们的最终模型称为Darknet-19，具有19个卷积层和5个maxpooling层。有关完整说明，请参见表6。Darknet-19仅需要55.8亿次操作来处理图像，但在ImageNet上达到72.9％的top-1精度和91.2％的top-5精度。

Training for classification.
我们使用随机梯度下降法在160个时代的标准ImageNet 1000类分类数据集上训练网络，使用Darknet神经网络框架，起始学习率为0.1，多项式率衰减为4的幂，权重衰减为0.0005，动量为0.9 [13]。在训练期间，我们使用标准的数据增强技巧，包括随机裁剪，轮换以及色相，饱和度和曝光偏移。

如上所述，在以224×224的图像进行初始训练之后，我们以较大的尺寸448对网络进行了微调。对于此微调，我们使用上述参数进行训练，但只有10个历元并以10−3的开始学习速率开始。在这种更高的分辨率下，我们的网络可实现76.5％的top-1精度和93.3％的top-5精度。

Training for detection.
我们通过移除最后一个卷积层来修改该网络以进行检测，而不是添加三个3×3卷积层，每个卷积层有1024个滤波器，然后是最终的1×1卷积层，其中包含检测所需的输出数量。对于VOC，我们预测5个框，每个框具有5个坐标，每个框20个类，因此有125个过滤器。我们还从最后的3×3×512层到倒数第二个卷积层添加一个直通层，以便我们的模型可以使用细粒度特征。

我们将网络训练160个epoch，起始学习率为10−310^{-3}10−3，然后在60和90个epoch时将其除以10。

我们使用0.0005的权重衰减和0.9的动量。我们使用与YOLO和SSD类似的数据增强方法，并进行随机裁剪，颜色偏移等。我们对COCO和VOC使用相同的训练策略。

4. Stronger

我们提出了一种联合训练分类和检测数据的机制。我们的方法使用标记为检测的图像来学习特定于检测的信息，例如边界框坐标预测和对象性以及如何对常见对象进行分类。它使用仅带有类别标签的图像来扩展它可以检测到的类别数量。

在训练期间，我们混合了来自检测和分类数据集的图像。当我们的网络看到标记为要检测的图像时，我们可以基于YOLOv2的损失函数反向传播。当它看到分类图像时，我们仅从体系结构中特定于分类的部分反向传播损失。

这种方法提出了一些挑战。检测数据集仅具有通用对象和通用标签，例如“狗”或“船”。分类数据集的标签范围更广，更深。 ImageNet有一百多种犬，包括“诺福克梗”，“约克郡梗”和“贝灵顿梗”。如果要对两个数据集进行训练，则需要一种一致的方式来合并这些标签。

大多数分类方法在所有可能的类别上使用softmax层来计算最终概率分布。使用softmax假定类是互斥的。这就提出了合并数据集的问题，例如，您不希望使用此模型来合并ImageNet和COCO，因为“诺福克梗”和“狗”类不是互斥的。

相反，我们可以使用多标签模型来合并不假定互斥的数据集。这种方法忽略了我们对数据了解的所有结构，例如，所有COCO类都是互斥的。

Hierarchical classification.

ImageNet标签是从WordNet中提取的，WordNet是一个语言库，它构造概念以及它们之间的关系[12]。在WordNet中，“诺福克梗”和“约克郡梗”都是“梗”的下位词，“梗”是“猎狗”的一种，这是“狗”的一种，是“犬”的一种，等等。大多数方法要进行分类，标签的结构应该是扁平的，但是对于组合数据集，结构正是我们所需要的。

由于语言很复杂，WordNet的结构是有向图，而不是树。例如，“狗”既是“犬”的类型，又是“家畜”的类型，它们都是WordNet中的同义词集。我们不使用完整的图结构，而是通过根据ImageNet中的概念构建层次树来简化问题。

为了构建该树，我们检查ImageNet中的视觉名词，并查看它们通过WordNet图形到达根节点（在本例中为“物理对象”）的路径。许多同义词集在图形中只有一条路径，因此首先我们将所有这些路径添加到树中。然后，我们迭代检查剩下的概念，并添加使树长得尽可能小的路径。因此，如果一个概念有两个到根的路径，一个路径会给树增加三个边缘，而另一个路径只会增加一个边缘，那么我们选择较短的路径。

最终结果是WordTree，这是视觉概念的分层模型。为了用WordTree执行分类，我们在给定同义集的情况下，针对该同义集的每个下位词的概率，预测每个节点的条件概率。例如，在“ terrier”节点，我们预测：

如果要计算特定节点的绝对概率，我们只需沿着树到根节点的路径，再乘以条件概率。因此，如果我们想知道图片是否为诺福克梗，我们可以计算：

出于分类目的，我们假设图像包含一个对象：Pr(physical,object）=1Pr(physical,object）= 1Pr(physical,object）=1。

为了验证这种方法，我们在使用1000类ImageNet构建的WordTree上训练Darknet-19模型。为了构建WordTree1k，我们添加了所有中间节点，这将标签空间从1000扩展到了1369。在训练过程中，我们将地面真相标签向上传播到树上，因此，如果将图像标记为“诺福克梗”，它也会被标记为“狗”和“哺乳动物”等。为了计算条件概率，我们的模型预测了1369个值的向量，并且我们计算了所有具有相同概念的下义词的系统集的softmax，请参见图5。

使用与以前相同的训练参数，我们的分层Darknet-19达到71.9％的top-1准确性和90.4％的top-5准确性。尽管添加了369个其他概念，并且我们的网络预测了树结构，但我们的准确性仅下降了一点。以这种方式执行分类也有一些好处。在新的或未知的对象类别上，性能会正常降低。例如，如果网络看到一条狗的图片，但不确定它是哪种类型的狗，它仍将以较高的置信度预测“狗”，但在下义词中会散布较低的置信度。

这一公式也适用于检测。现在，我们不是假设每个图像都有一个对象，而是使用YOLOv2的客观性预测器来给出Pr(physical,object)Pr(physical,object)Pr(physical,object)的值。

检测器预测一个包围盒以及概率树。我们向下遍历树，在每次分割时选择最高置信度的路径，直到我们达到某个阈值，并预测该对象类别。

Dataset combination with WordTree.
我们可以使用WordTree以一种合理的方式将多个数据集组合在一起。我们只需将数据集中的类别映射到树中的同义词集。图6显示了使用WordTree组合ImageNet和CoCo中的标签的示例。Wordnet非常多样化，所以我们可以对大多数数据集使用这种技术。

Joint classification and detection.
既然我们可以使用WordTree组合数据集，我们就可以训练我们的联合模型来进行分类和检测。我们希望训练一个超大规模的检测器，因此我们使用COCO检测数据集和完整ImageNet版本中的前9000个类创建了我们的组合数据集。我们还需要评估我们的方法，因此我们添加了ImageNet检测挑战中尚未包含的所有类。此数据集对应的WordTree有9418个类。ImageNet是一个大得多的数据集，因此我们通过对CoCo进行过采样来平衡数据集，以便ImageNet仅大4：1倍。

使用这个数据集，我们训练了YOLO9000。我们使用基本的YOLOv2架构，但只有3个版本而不是5个版本来限制输出大小。当我们的网络看到检测图像时，我们的反向传播就不正常了。对于分类损失，我们只在标签的相应级别或以上反向传播损失。例如，如果标签是“狗”，我们确实会给树下面的预测“德国牧羊犬”和“金毛猎犬”分配任何错误，因为我们没有那个信息。

图6：使用WordTree层次结构组合数据集。使用WordNet概念图，我们构建了视觉概念的层次树。然后，我们可以通过将数据集中的类映射到树中的同义词集来将数据集合并在一起。为了便于说明，这是WordTree的简化视图。

表7：YOLO9000在ImageNet上的最佳和最差类别。156个弱监督类中AP最高和最低的类。YOLO9000为各种动物学习了好的模型，但在服装或设备等新课程中却举步维艰。

当它看到分类图像时，我们只会反向传播分类丢失。为此，我们简单地找到了预测该类概率最高的边界框，并且我们只在其预测树上计算损失。我们还假设预测的框与地面真相标签重叠至少0.3IOU，并基于这一假设反向传播客观性损失。

通过这种联合训练，YOLO9000学会了使用Coco中的检测数据在图像中寻找物体，并学会了使用ImageNet中的数据对各种各样的物体进行分类。

我们在ImageNet检测任务中评估了YOLO9000。ImageNet的检测任务与COCO共享44个对象类别，这意味着YOLO9000只看到了大多数测试图像的分类数据，而没有看到检测数据。YOLO9000获得了19.7张地图，其中16.0张地图分布在156个不相交的对象类上，这些对象类从未见过任何带标签的检测数据。这张图比DPM取得的结果要高，但YOLO9000是在不同的数据集上进行训练的，只有部分监督[4]。它还可以同时检测9000个其他物体类别，所有这些都是实时的。

当我们分析YOLO9000在ImageNet上的表现时，我们会发现它很好地学习了新的动物物种，但在学习服装和设备等类别方面却举步维艰。

新的动物更容易学习，因为客观性预测很好地概括了可可的动物。相反，可可没有为任何类型的衣服设置包围盒标签，只有人穿，所以YOLO9000很难为“太阳镜”或“泳裤”等类别做模型。

5. Conclusion

我们介绍了YOLOv2和YOLO9000这两种实时检测系统。YOLOv2是最先进的，在各种检测数据集上比其他检测系统更快。此外，它可以在各种图像大小下运行，以在速度和精度之间实现平滑的折衷。

YOLO9000是一个实时框架，通过联合优化检测和分类，可检测9000多个对象类别。我们使用WordTree将来自不同来源的数据组合在一起，并使用我们的联合优化技术在ImageNet和CoCo上同时进行训练。YOLO9000是朝着缩小检测和分类之间的数据集大小差距迈出的重要一步。

我们的许多技术都是在物体检测之外推广的。我们对ImageNet的WordTree表示为图像分类提供了更丰富、更详细的输出空间。使用分层分类的数据集组合在分类和分割领域将是有用的。像多尺度训练这样的训练技术可以在各种视觉任务中提供益处。

在未来的工作中，我们希望将类似的技术用于弱监督图像分割。我们还计划使用更强大的匹配策略来改进我们的检测结果，以便在训练期间为分类数据分配弱标签。计算机视觉拥有海量的标签数据。我们将继续寻找将不同来源和结构的数据结合在一起的方法，以建立更强大的视觉世界模型。

yolo-v2 翻译相关推荐

Yolo（2）Yolo v2
目录 Yolo v2改进 1.引入BP层 2.更高精度的分类器 3.引入anchor 定义: anchor理解: 目标: 4.细粒度特征 5.多尺度 Yolo v2改进 yolo v2 VS yolo ...
重温目标检测--YOLO v2 -- YOLO9000
YOLO9000:Better, Faster, Stronger CVPR 2017, Best Paper Honorable Mention https://pjreddie.com/darkn ...
DL之YoloV2：Yolo V2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
DL之YoloV2:Yolo V2算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略目录 Yolo V2算法的简介(论文介绍) 1.YOLOV2的特点.改进.优缺点 2.实验结果 3.不 ...
深度学习目标检测之 YOLO v2
论文名:<YOLO9000: Better, Faster, Stronger> 原文:https://arxiv.org/pdf/1612.08242v1.pdf 代码:http://p ...
yolov2训练_一文看懂YOLO v2
我的CSDN博客:https://blog.csdn.net/litt1e 我的公众号:工科宅生活概述新的YOLO版本论文全名叫"YOLO9000: Better, Faster, St ...
目标检测之YOLO V2 V3
YOLO V2 YOLO V2是在YOLO的基础上,融合了其他一些网络结构的特性(比如:Faster R-CNN的Anchor,GooLeNet的\(1\times1\)卷积核等),进行的升级.其目的 ...
目标检测：YOLO V1、YOLO V2、YOLO V3 算法
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) yoloV3模型目标检测:YOLO V1.YOLO V2.Y ...
YOLO v2论文笔记
YOLOv2相对于v1的改进: 1. Batch Normalization ,mAP 增加2% 2. High Resolution Classifier 增加训练图片分辨率为448 * 448 , ...
# 经典目标检测识别方法概述RCNN/FAST/FASTER RCNN/MASK RCNN/SSD/DSSD/YOLO V1/YOLO V2等
经典目标检测识别方法概述@陈子逸经典目标检测识别方法概述由于水硕期间自学了一些目标探测的方法,这里做一个概述,肯定有不完美的地方,还请指正一起进步. 综述 1.分别简单描述一下RCNN系列: 在我 ...
YOLO v2原理与代码解析
目录 YOLO v1的缺点 YOLO v2相比于v1做的改进 Darknet-19 Loss Reference 论文 <YOLO9000: Better, Faster, Stronger&g ...