YOLO V1 实时的目标检测论文翻译

注：学习记录用

摘要

我们提出了一种新的目标检测方法 YOLO。先前关于目标检测的工作重新使用分类器来执行检测。相反，我们将目标检测框架作为一个回归问题，以空间分离的包围框和相关的类别概率。一个单一的神经网络在一个评估中直接从完整的图像预测包围框和类别概率。由于整个检测管道是一个单一的网络，因此可以直接对检测性能进行端到端的优化。

我们的统一架构速度极快. 我们的基础 YOLO 模型处理图像，每秒 45 帧. 一个较小版本的网络，Fast YOLO，达到惊人的 155帧，同时mAP仍然高于其他检测器两倍。与最先进的检测系统相比，YOLO 产生了更多的定位错误，但不太可能把背景预测为物体，出现假正例。最后，YOLO 学习目标物体的非常一般的表示特征。它的性能优于其他检测方法，包括 DPM和R-CNN，可以从自然图像推广到其他领域。

引言

人类瞥了一眼图像，立即知道图像中有什么物体，它们在哪里，以及它们是如何相互作用的。人类的视觉系统是快速和准确的，允许我们执行复杂的任务，如驾驶。快速、准确的目标检测算法可以达到计算机在没有专门传感器的情况下驾驶汽车，使辅助设备能够向人类用户传递实时场景信息，并为通用、响应式机器人系统释放潜力。

当前的检测系统重新使用分类器来执行检测。为了检测一个对象，这些系统为该对象训练一个分类器，并在测试图像中的不同位置和尺度上对其进行评估。像变形部件模型(DPM)这样的系统使用滑动窗口方法，其中分类器在整个图像[10]上以均匀间隔的位置运行。

最近的方法，如 R-CNN 使用区域建议框方法首先在图像中生成预选框，然后在这些建议框上运行分类器。分类后，后处理用于细化包围框，消除重复检测。并根据场景[13]中的其他对象重新对框进行重新排序。这些复杂的管道是缓慢和难以优化的，因为每个单独的组件必须单独训练。

图 1：YOLO 检测系统。使用 YOLO 处理图像是简单而直接的。我们的系统（1）将输入图像调整为 448x448，（2)在图像上运行一个单一的卷积网络，(3）通过模型的置信度根据阈值化产生检测结果。

我们将目标检测重新描述为一个单一的回归问题，从图像像素直接预测包围框坐标和类概率。使用我们的系统，您只查看一次(YOLO)图像，预测什么对象存在和它们在哪里。
YOLO 非常简单：参见图 1。单个卷积网络同时预测这些框的多个包围框和类概率。 YOLO 对全图像进行训练，并直接优化检测性能。这种统一的模型比传统的目标检测方法有几个优点。

首先，YOLO 速度非常快。 由于我们将检测框架作为一个回归问题，所以我们不需要复杂的管道。我们只是在测试时在一个新的图像上运行我们的神经网络来预测检测。我们的基本网络以每秒 45 帧的速度运行，在Titan X GPU 上没有批处理，快速版本运行在 150fps 以上。这意味着我们可以实时处理流视频，延迟小于 25 毫秒。此外， YOLO 达到了其他实时系统平均精度的两倍以上。有关我们的系统在网络摄像头上实时运行的演示，请参阅我们的项目网页：http://pjreddie.com/yolo/。
第二，YOLO 预测时在全局上解释图像。 与基于滑动窗口和区域建议的技术不同，YOLO 在训练和测试期间利用了整个图像，因此它隐式地编码了有关类及其外观的上下文信息。Fast R-CNN，一种顶级的检测方法[14]，错误的背景补丁在图像中的对象，因为它看不到更大的上下文。与 Fast R-CNN 相比，YOLO 产生的背景错误不到一半。
第三，YOLO 学习对象的可推广表示。 当对自然图像进行训练并在艺术品上进行测试时，YOLO 的性能远远优于DPM 和 R-CNN 等顶级检测方法。

问题
YOLO 的精度仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象，但它很难精确定位某些对象，特别是小物体。我们在实验中进一步研究这些权衡。

2 统一检测

我们将对象检测的独立组件统一到一个单一的神经网络中… 我们的网络使用来自整个图像的特征来预测每个包围框。它还同时预测图像所有类的所有包围框。这意味着我们的网络在完整图像中检测图像中所有目标。YOLO 设计使端到端的训练和实时速度保持高的平均精度。

我们的系统将输入图像划分为一个 SxS 网格。如果目标的中心落入网格单元，则该网格单元负责检测该对象。每个网格单元预测 B 个包围框和这些框的置信度分数。这些置信度分数反映了模型对包围框包含一个对象可能性大小，以及它认为包围框预测的准确性。定义置信度confidence为 Pr⁡(object)∗IOUpredtruthPr⁡(object)*IOU_{pred}^{truth}Pr⁡(object)∗IOUpredtruth，如果没有目标存在于网格中则置信度分数应为零。否则，我们希望置信度分数等于预测框与GT之间的交集(IOU)。
每个包围框由5 个预测值组成：x 、y 、w 、h 和置信度。(x,y) 坐标表示包围框相对于网格单元边界的中心。 宽度和高度相对于整个图像进行预测，最后，置信预测表示预测框与任何GT框之间的IOU。

每个网格单元还预测为类别C的条件概率，Pr⁡(Classi∣object)Pr⁡(Class_i |object)Pr⁡(Classi∣object)。这些概率取决于包含一个 Otject 的网格单元。只预测每个网格单元的一组类概率，而不考虑框 B 的数量。
$Pr⁡(Classi∣object)∗Pr⁡(object)∗IOUpredtruth=Pr⁡(Class)∗IOUpredtruthPr⁡(Class_i |object) * Pr⁡(object)*IOU_{pred}^{truth} = Pr⁡(Class)*IOU_{pred}^{truth}Pr⁡(Classi∣object)∗Pr⁡(object)∗IOUpredtruth=Pr⁡(Class)∗IOUpredtruth$
在测试时，乘以条件类概率和单个框的置信度预测，这给了每个包围框特定类别的置信分数。这些分数既编码该类出现在框中的概率，也编码预测框与对象的匹配程度。
为了评估 PASCALVOC 上的 YOLO，我们使用 S=7， B=2，PASCALVOC 有 20 个标签类，所以 C=20 个。我们的最终预测输出是 7 x 7 x 30 的张量。

图 2：模型。我们的系统将检测建模为回归问题。它将图像划分为一个SxS 网格，对于每个网格单元，预测B 包围框、这些框的置信度和C 类概率。这些预测被编码为SxSx(B*5+C)张量

2.1网络设计

我们将该模型作为卷积神经网络来实现，并在PASCAL VOC 检测数据集[9]上对其进行评估。网络的初始卷积层从图像中提取特征，而全连接层预测输出概率和坐标。
我们的网络架构是受, GoogleLeNet 模型的启发，。我们的网络有 24 个卷积层，然后是 2 个全连接层。而不是GoogleLeNet 使用的起始模块，我们只需使用 1x1 reduction 层，然后是 3x3 卷积层，类似于 Lin 等人的[22]。整个网络如图 3 所示。

我们还训练了一个快速版本的 YOLO，旨在推动快速对象检测的边界。快速 YOLO 使用的神经网络卷积层较少（9 而不是 24），并且这些层中的滤波器较少。除了网络的大小，所有的训练和测试参数在 YOLO 和 FastYOLO 之间是相同的。

图 3：网络架构。我们的检测网络有 24 个卷积层，其次是 2 个完全连接的层。交替的 1x1 卷积层减少了前面层的特征空间。我们对图像网络分类任务上的卷积层进行预处理，分辨率为分辨率的一半(224x224 输入图像)，然后将分辨率加倍进行检测。
我们网络的最终输出是预测的 7x7x30 张量。

2.2训练

我们在Image Net1000数据集上对卷积层进行预训练。对于预训练，我们使用图 3 中的前 20 个卷积层，然后是一个平均池化层和一个全连接的层。我们对这个网络进行了大约一周的训练，并在 ·Image Net2012· 验证集上实现了 88%的单个目标前5 位准确率，与Caffe的Model Zoo[24]中的GoogleLeNet 模型相当。我们使用Darknet框架进行所有训练和推理[26]。

然后，我们转换模型来执行检测。 Ren 等人表明将卷积层和连接层添加到预训练网络中可以提高性能[29]。在他们的例子中，我们添加了四个卷积层和两个完全连接的层，它们具有随机初始化的权重。检测往往需要细粒度的视觉信息，因此我们将网络的输入分辨率从224x224提高到448x448。

我们的最后一层预测类概率和包围盒坐标。我们通过图像宽度和高度来规范包围框的宽度和高度，使它们落在 0 到 1 之间。我们将包围盒 x 和 y 坐标参数化为特定网格单元位置的偏移量，因此它们也在 0 到 1 之间有界。

我们对最后一层使用线性激活函数，所有其他层使用以下leaky校正线性激活：
ϕ={xifx>00.1x,otherwise\phi = \begin{cases} x &if\ x>0\\ 0.1x, &otherwise \end{cases}ϕ={x0.1x,if x>0otherwise
我们对模型输出和平方差进行了优化，我们使用和平方误差，因为它很容易优化，但它并不完全符合我们的目标，最大限度地提高平均精度。它将定位误差与分类误差同等权重，这可能不是理想的。此外，在每个图像中，许多网格单元不包含任何 Otject。这会将这些单元格的“置信度”得分推向零，通常会超过确实包含对象的单元格的梯度。这可能会导致模型不稳定，从而导致训练在早期就出现发散。

为了解决这个问题，对于不包含对象的盒子，我们增加了边界框坐标预测的损失，并减少了置信度预测的损失。我们使用两个参数, λcoordλ_coordλcoord 和 λnoobjλ_noobjλnoobj 来实现这一点。设置 λcoord=5λ_coord = 5λcoord=5 和 λnoobj=0.5λ_noobj =0 .5λnoobj=0.5

平方和误差同样也是大盒子和小盒子中的权重误差。我们的误差度量应该反映出大盒子中的小偏差比小盒子中的小偏差更重要。为了部分解决这一问题，我们预测包围盒宽度和高度的平方根，而不是直接预测宽度和高度。

小目标对于预测 w h 的误差更敏感，用开根的方法缓解。举例来说，大小为 10 和大小为 100 的目标，预测大小分别为20 和 110，loss1 = 20 - 10 ,loss2 = 110 - 10 = 10 损失一样但是显然小目标检测的更差一些((20)−(10))2≈1.7，((110)−(100))2≈0.24(\sqrt(20) - \sqrt(10))^2 \approx 1.7，(\sqrt(110) - \sqrt(100))^2 \approx 0.24((20)−(10))2≈1.7，((110)−(100))2≈0.24 相当于强化了小目标的wh的损失

YOLO 预测每个网格单元有多个包围框。在训练时，我们只希望一个包围框预测器负责每个对象。我们指定一个预测器来“负责”预测一个对象，基于该对象的预测具有最高的IOU。这导致边界框预测器之间的专门化。每个预测器都能更好地预测特定大小、纵横比或对象类别，从而提高整体召回率。
在训练的过程中，我们优化了以下多部分
损失函数：

其中∏iobj,∏_i^{obj},∏iobj,表示第i个cell中包含目标物体，∏ijobj∏_{ij}^{obj}∏ijobj表示表示第i个cell的第j个Bounding box中包含目标物体.

请注意，损失函数只惩罚分类错误，如果一个对象存在于该网格单元中（因此前面讨论的条件类概率）。它也只惩罚边界框坐标错误，如果该预测器是“负责”的GT框(即。具有该网格单元中任何预测器的最IOU)。
3
我们对来自PascalVOC2007 和2012 的训练集和验证集进行了大约135个epoch的网络训练。 VOC2012的测试中，我们还包括VOC2007测试数据，用于训练。在整个训练过程中，我们使用的批次大小为64，动量为0.9，衰减为0.0005。

我们的学习率变化如下：在第一个Epoch，我们慢慢地将学习率从10−310^{-3}10−3提高到10−210^{-2}10−2.如果我们以较高的学习速率开始，我们的模型往往由于不稳定的梯度而发散。我们继续训练75个epoch以10−210^{-2}10−2的学习率，然后是10−310^{-3}10−3，30个epoche，最后10−410^{-4}10−4,30个epoch。

为了避免过度拟合，我们使用dropout和广泛的数据增强。drop out层 = 0.5。在第一连接层之后的，。对于数据增强，我们引入了多达 20%的原始图像大小的随机缩放和平移。我们还在HSV 颜色空间中随机调整图像的曝光和饱和度高达 1.5 倍。

2.3 推断

就像在训练中一样，预测测试图像的检测只需要一个网络评估。在 Pascal VOC 上，网络预测每个图像的 98 个包围框和每个框的类概率。与基于分类器的方法不同，YOLO 在测试时速度非常快，因为它只需要一个网络评估。

网格设计在边界框预测中强制执行空间多样性。通常情况下，很清楚一个 object 落在哪个网格单元中，而网络只为每个对象预测一个框。然而，在多个单元格边界附近的一些大型对象或对象可以被多个单元格很好地定位。非最大抑制可以用来修复这些多个检测。虽然对性能不重要，因为它是 R-CNN 或 DPM，非最大抑制增加 23%的 mAP。

2.4 YOLO 的局限性

由于每个网格单元只能预测两个框，并且只能有一个类，所以 YOLO对边界框预测施加了很强的空间约束。这种空间约束限制了我们的模型可以预测的附近对象的数量。我们的模型与出现在群体中的小物体作斗争，例如鸟群。

由于我们的模型学会从数据中预测边界框，它很难以新的或不寻常的纵横比或配置推广到目标。我们的模型也使用相对粗糙的特征预测包围框，因为我们的体系结构有多个下采样层来自输入图像。

最后，当我们训练一个近似检测性能的损失函数时，我们的损失函数在小包围盒和大包围盒中处理错误相同。大箱中的小错误一般是良性的，但小箱中的小错误对IOU的影响要大得多。我们错误的主要来源是不正确的定位。

3 与其他检测系统的比较

目标检测是计算机视觉中的一个核心问题。检测管道通常首先从输入图像中提取一组鲁棒特征(Haar[25] 、SIFT[23]、HOG[4]、卷积特征[6])。然后，使用分类器[36,21,13,10]或定位器[1,32]来识别特征空间中的对象。这些分类器或定位器要么以滑动窗口的方式在整个图像上运行，要么在图像[35,15,39]中的某些区域子集上运行。我们将 YOLO 检测系统与几个顶级检测框架进行了比较，突出了关键的异同。
Deformable parts models。 DPM使用滑动窗口方法来检测对象[10]。 DPM 使用一个不相交的管道来提取静态特征、分类区域、预测高评分区域的包围框等。我们的系统用一个单一的卷积神经网络取代了所有这些不同的部分。该网络同时执行特征提取、边界框预测、非最大抑制和上下文推理。而不是静态特性，网络在线训练这些特性并为检测任务优化它们。我们的统一体系结构导致了一个比 DPM 更快、更准确的模型。
R-CNN。 R-CNN 及其变体使用区域建议而不是滑动窗口来查找图像中的对象。选择性搜索[35]生成潜在的边界框，卷积网络提取特征，支持向量机对框进行评分，线性模型调整边界框，非最大抑制消除重复检测。这种复杂管道的每个阶段都必须独立精确地调谐，所产生的系统非常缓慢，在测试时间[14]每幅图像需要 40 秒以上。

YOLO 与 R-CNN 有一些相似之处。每个网格单元提出潜在的包围框，并使用卷积特征对这些框进行评分。然而，我们的系统将空间约束放在网格单元提案上，这有助于减少对同一对象的多个检测。我们的系统还提出了更少的包围框，只有 98 每幅图像比大约 2000 从选择性搜索。最后，我们的系统将这些单个组件组合成一个单一的、联合优化的模型。

Other Fast Detectors R-CNN 集中在通过共享计算和使用神经网络提出区域而不是选择性搜索[14][28]来加快 R-CNN 框架。虽然它们比 R-CNN 提供了速度和精度的改进，但它们仍然没有达到实时性能。
许多研究工作的重点是加快 DPM 管道[31][38][5]。他们加快HOG 计算，使用级联，并将计算推送到 GPU。然而，实际上只有 30Hz 的 DPM[31]实时运行. YOLO 没有试图优化大型检测管道的单个组件，而是完全抛出管道，并且通过设计快速。
像人脸或人这样的单个类的探测器可以高度优化，因为它们必须处理更少的变化[37]。 YOLO 是一个通用检测器，它学习同时检测各种对象。

**Deep MultiBox。**与 R-CNN 不同，Szegedy 等人。训练卷积神经网络来预测感兴趣的区域[8]而不是使用选择性搜索。多框还可以通过将置信度预测替换为单个类预测来执行单个对象检测。然而，MultiBox 不能执行一般的对象检测，仍然只是一个较大的检测管道中的一部分，需要进一步的图像补丁分类。YOLO 和 Multi Box 都使用卷积网络来预测图像中的包围盒，但YOLO 是一个完整的检测系统。

OverFeat Sermanet 等人。训练卷积神经网络来执行定位，并使定位器适应于执行检测[32]。 Over Feat 有效地执行滑动窗口检测，但它仍然是一个不相交的系统。过 Feat 优化定位，而不是检测性能。与 DPM 一样，定位器在进行预测时只看到局部信息。 Over Feat 无法解释全球环境，因此需要大量的后处理才能产生连贯的检测。

**MultiGrasp。**我们的工作在设计上类似于 Redmon 等人[27] 的抓握检测工作。我们的包围盒预测网格方法是基于多抓取系统进行回归抓取。然而，抓取检测比对象检测简单得多。多抓取只需要预测一个包含一个对象的图像的单个可抓取区域。它不必估计对象的大小、位置或边界，也不必预测它的类，只需找到一个适合抓取的区域。 YOLO 预测图像中多个类的多个对象的包围框和类概率。

4 实验

首先，我们将 YOLO 与 PASCAL VOC 2007 上的其他实时检测系统进行了比较.为了了解 YOLO 和 R-CNN 变体之间的差异，我们探讨了 YOLO 和 FastR-CNN(R-CNN[14]性能最高的版本之一)在 VOC2007 上的错误。基于不同的误差分布，我们表明 YOLO 可以用来重新存储快速的R-CNN 检测，并减少背景假阳性的误差，从而提高了性能。我们还介绍了 VOC2012 的结果，并将 mAP 与目前最先进的方法进行了比较… 最后，我们证明 YOLO 比两个艺术品数据集上的其他检测器更好地推广到新域。

4.1与其他实时系统的比较

在目标检测方面的许多研究工作都集中在使标准检测管道快速化上。[5][38][14][17][28]然而，只有 Sadeghi 等人。实际上，产生一个实时运行的检测系统（每秒 30 帧或更好） [31]。我们将 YOLO 与它们的 DPM 的 GPU 实现进行了比较，DPM 在 30Hz 或 100Hz 下运行。虽然其他的努力没有达到实时里程碑，但我们也比较了它们的相对 mAP 和速度，以检查目标检测系统中可用的精度-性能权衡。快速 YOLO 是 PASCAL 上最快的对象检测方法；据我们所知，它是现存最快的对象检测器。使用 52.7%的 mAP，它的精度是以前实时检测工作的两倍以上。在保持实时性能的同时，YOLO 将 mAP 推到 63.4%。

我们还使用 VGG-16 训练 YOLO。这个模型比 YOLO 更准确，但也明显慢。与其他依赖 VGG-16 的检测系统进行比较是有用的，但由于它比实时慢，本文的其余部分集中在我们更快的模型上。
最快的 DPM 有效地加速 DPM，而不牺牲太多的 mAP，但它仍然错过了 2 倍的实时性能[38]。与神经网络方法相比，DPM 的检测精度相对较低，这也限制了它的应用。

最快的DPM可以在不牺牲很多mAP的情况下有效地加快DPM的速度，但是它仍然将实时性能降低了2倍[38]。与神经网络方法相比，它还受到DPM检测精度相对较低的限制。

R-CNN 用静态的建议框取代了选择性搜索。虽然它比R-CNN快得多，但它仍然缺乏实时性，而且由于没有好的提案，它的准确性受到了很大的打击。
Fast R-CNN可以加快R-CNN的分类速度，但是它仍然依赖于选择性搜索，每个图像可能需要2秒钟左右的时间来生成边界框建议。因此，它具有很高的mAP，但在0.5 fps时仍离实时性还很远。

最近的Faster R-CNN用神经网络取代了选择性搜索，以提出边界框，类似于Szegedy等。 [8]在我们的测试中，他们最准确的模型达到了7 fps，而较小的，精度较低的模型则以18 fps运行。 Faster R-CNN的VGG-16版本高出10 mAP，但比YOLO慢6倍。 ZeilerFergus Faster R-CNN仅比YOLO慢2.5倍，但准确性也较低。

表1：PASCAL VOC 2007上的实时系统。比较快速检测器的性能和速度。 Fast YOLO是有记录的用于PASCAL VOC检测的最快的检测器，仍然是任何其他实时检测器的两倍。 YOLO比快速版本的精度高10 mAP，但速度仍远远高于实时水平。

4.2 VOC 2007 错误分析

为了进一步检查YOLO和最先进的检测器之间的差异，我们查看了VOC 2007的详细结果。我们将YOLO与Fast RCNN进行了比较，因为Fast R-CNN是PASCAL和PASCAL上性能最高的检测之一。它的检测结果是公开可用的。
我们使用Hoiem等人的方法和工具。 [19]对于测试时间的每个类别，我们查看该类别的前N个预测。每个预测都是正确的，或者根据错误的类型进行分类：

Correct: correct class and IOU > .5
Localization: correct class, .1 < IOU < .5
Similar: class is similar, IOU > .1
Other: class is wrong, IOU > .1
Background: IOU < .1 for any object

图4：错误分析：R-CNN与YOLO的快速对比这些图表显示了在不同类别的前N个检测中定位和背景错误的百分比（N =该类别中的＃个对象）。

图4显示了所有20个类别的平均每种错误类型的细分。

YOLO努力正确地定位对象。本地化错误占YOLO错误的比所有其他来源的总和还多。快速R-CNN产生的定位错误少得多，但是背景错误却多得多。最高检测到的13.6％是不包含任何物体的误报。快速R-CNN预测背景检测的可能性是YOLO的三倍。

4.3 结合Fast R-CNN和YOLO

与Fast R-CNN相比，YOLO产生的背景错误少得多。通过使用YOLO消除Fast R-CNN的背景检测，我们可以显着提高性能。对于R-CNN预测的每个边界框，我们都会检查YOLO是否预测了类似的框。如果是这样，我们将根据YOLO预测的概率和两个框之间的重叠来对该预测进行增强

最佳的Fast R-CNN模型在VOC 2007测试集上的mAP达到71.8％。与YOLO结合使用时，移动平均收益增长3.2％至75.0％。我们还尝试将顶级Fast R-CNN模型与Fast R-CNN的其他几个版本结合使用。这些乐团的mAP在0.3和0.6％之间有小幅增加，有关详细信息，请参见表2。

表2：在VOC 2007上进行的模型组合实验。我们研究了将各种模型与Fast R-CNN的最佳版本组合在一起的效果。其他版本的Fast R-CNN仅提供很小的好处，而YOLO可以显着提高性能。

表3：PASCAL VOC 2012排行榜。截至2015年11月6日，YOLO与完整的comp4（允许外部数据）公共排行榜进行了比较。显示了各种检测方法的平均平均精度和每类平均精度。 YOLO是唯一的实时检测器。 Fast R-CNN + YOLO是得分最高的方法，比Fast R-CNN增长2.3％。
YOLO的推动力不只是模型集成的副产品，因为结合使用不同版本的Fast R-CNN几乎没有好处。恰恰是因为YOLO在测试时犯了各种错误，所以它在提高Fast R-CNN的性能方面是如此有效。

不幸的是，这种组合无法从YOLO的速度中受益，因为我们分别运行每个模型然后组合结果。但是，由于YOLO如此之快，与Fast R-CNN相比，它不会增加任何可观的计算时间。

4.4 VOC 2012 Results

在VOC 2012测试集上，YOLO的mAP得分为57.9％。这比当前的技术水平低，更接近使用VGG-16的原始R-CNN，请参见表3。与最接近的竞争者相比，我们的系统在小物体上挣扎。在瓶子，绵羊和电视/显示器等类别上，YOLO的得分比R-CNN或Feature Edit低8-10％。但是，在猫和火车等其他类别上，YOLO则具有更高的性能。

我们的Fast R-CNN + YOLO组合模型是性能最高的检测方法之一。 Fast R-CNN与YOLO的组合提高了2.3％，在公共排行榜上的排名上升了5位

4.5 Generalizability：艺术品中的人检测

用于目标检测的学术数据集从同一分布中提取训练和测试数据。在现实世界的应用程序中，很难预测所有可能的用例，并且测试数据可能会与系统之前看到的有所不同[3]。我们将YOLO与Picasso数据集[12]和People-Art数据集[3]上的其他检测系统进行比较，这两个数据集用于测试艺术品上的人物检测。

图5显示了YOLO和其他检测方法之间的比较性能。作为参考，我们为仅在VOC 2007数据上训练所有模型的人员提供了VOC 2007检测AP。在毕加索上，模型在VOC 2012上进行训练，而在People-Art上，模型在VOC 2010上进行训练。

R-CNN在VOC 2007上具有较高的AP。但是，R-CNN在应用于艺术品时会大幅下降。 R-CNN将“选择性搜索”用于边界框建议，该建议针对自然图像进行了调整。 R-CNN中的分类器步骤只能看到很小的区域，并且需要好的建议。

DPM应用于图稿时，可以很好地保持其AP。先前的工作理论认为DPM表现出色，因为它具有强大的对象形状和布局空间模型。尽管DPM的降级程度不如R-CNN，但它是从较低的AP开始的。

YOLO在VOC 2007上具有良好的性能，并且在应用于艺术品时，其AP的降级比其他方法要少。与DPM一样，YOLO对对象的大小和形状以及对象之间的关系以及对象通常出现的位置进行建模。图稿和自然图像在像素级别上有很大差异，但是在对象的大小和形状方面相似，因此YOLO仍可以预测良好的边界框和检测。

5 Real-Time Detection In The Wild

YOLO是一种快速，准确的物体检测器，非常适合计算机视觉应用。我们将YOLO连接到网络摄像头，并验证它可以保持实时性能，包括从相机中获取图像并显示检测结果的时间。最终的系统是交互式的并且引人入胜。 YOLO单独处理图像时，将其连接到网络摄像头后，其功能类似于跟踪系统，可检测到物体移动和外观变化。该系统的演示和源代码可以在我们的项目网站上找到：http：//pjreddie.com/yolo/。

图5：毕加索和People-Art数据集的一般化结果。

图6：定性结果。 YOLO运行样本作品和来自互联网的自然图像。尽管它确实认为一个人是一架飞机，但大多数情况下都是准确的。

6.结论

我们介绍了YOLO，这是一个用于物体检测的统一模型。我们的模型构造简单，可以直接在完整图像上进行训练。与基于分类器的方法不同，YOLO在直接与检测性能相对应的损失函数上进行训练，并且整个模型都在一起进行训练。

Fast YOLO是文献中最快的通用目标检测器，YOLO推动了实时目标检测的最新发展。 YOLO还很好地推广到了新领域，使其成为依赖快速，强大的对象检测的应用程序的理想选择。