A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

//2022.1.7 日下午16：00开始阅读

双阶段检测器示意图

单阶段检测器示意图

下面是原文中的一些网络组件及结构相关图

上图为：RoIAlign操作。第一步计算特征图中对象的浮点数坐标。下一步利用双线性插值来计算分离箱中四个定期采样位置的特征的精确值。

上图为：四种方法利用特征对不同大小的目标进行预测。(a)使用图像金字塔构建特征金字塔。特征是在每个图像尺度上独立计算的，这是缓慢的。(b)检测系统[8][29]仅使用单尺度特征(最后卷积层的输出)进行更快的检测。(c)从ConvNet中预测每一个金字塔特征层次，仿佛它是一个像SSD[10]的图像金字塔。(d)特征金字塔网络(FPN)[15]和(b)、(c)一样快，但更准确。在该图中，特征图用一个灰色填充的四边形表示。头部网络用蓝色矩形表示。

上图为：剩余网络上的SSD、DSSD和retanet网络。(a)蓝色模块为SSD框架中增加的层，其分辨率因向下采样而逐渐下降。在固态硬盘中，预测层作用于不同层次的融合特征。Head模块由一系列卷积层、几个分类层和定位层组成。(b)红色模块为DSSD框架中添加的层，表示反褶积运算。在DSSD中，预测层在每个反褶积模块之后。(c) RetinaNet利用ResNet-FPN作为骨干网，生成C3-C7(分别为conv3-conv7的feature map)对应的5个level feature pyramid (P3-P7)来预测不同大小的物体。

不同数据集 + 评判标准

VOC数据集和标准

度量:对于VOC2007标准，使用插值平均精度(Salton和McGill 1986)来评估分类和检测。它的设计是为了惩罚算法丢失的对象实例，一个实例的重复检测，以及误报检测。

式中，t为预测箱与地面真值箱之间判断借据的阈值。在VOC度量中，t设置为0.5。I是第I幅图像的下标，j是第j个对象的下标。N为预测框的个数。当sij≥t为真时，指示函数1[sij≥t] = 1，否则为0。如果根据阈值准则将一个检测结果与地面真值盒匹配，则视为真阳性结果。

对于给定的任务和类，精度/召回曲线是由一个方法排序的输出计算出来的。召回率被定义为所有排名高于给定排名的正面例子所占的比例。精确度是所有在该等级以上的例子中来自正类的比例。所有类别的平均精度（mAP）是最终结果。

MS COCO数据集和基准

MS COCO的标准

度量:MS COCO度量是在严格的方式下，彻底判断检测的性能。PASCAL VOC中的阈值设置为单个值0.5，但在MS COCO中计算平均精度时，它属于[0.5,0.95]，间隔为0.05，即10个值。此外，还分别计算了小、中、大三种对象的特殊平均精度，以衡量使用该算法探测器用于检测不同大小的目标的性能。

ImageNet 数据集和标准

标准：度量:PASCAL VOC度量使用阈值t = 0.5。然而，对于小的物体，根据这个阈值，即使是几个像素的偏差也不能接受。ImageNet使用的放宽阈值计算如下:

其中w和h分别是地面真值箱的宽度和高度。这个阈值允许注释在对象周围的每个方向上平均扩展5个像素。

ImageNet数据集和PASCAL VOC数据集之间的比较

VisDrone2018 数据集和标准

主要用于无人机检测任务。但使用了MS COCO的度量标准。

Open Images V5

度量：度量:在PASCAL VOC 2012 mAP评估度量的基础上，Kuznetsova等人提出了一些修改，以全面考虑开放图像数据集的一些重要方面。首先，为了公平计算，忽略未注释的类，以避免错误地计算为假负数。第二，如果一个对象属于一个类同时也属于一个子类，一个对象检测模型应该给出每个相关类的检测结果。没有这些类中的一个将被认为是该类中的假阴性。第三，在Open Images Dataset中，存在一组盒子，其中包含一组(不止一个，它们相互遮挡或物理接触)对象实例，但不知道其中的单个对象定位。如果一组盒内的检测，且检测与盒的交点除以检测的面积大于0.5，则该检测为真阳性。同一组盒内的多个正确检测只算一个有效的真阳性。

行人检测数据集

对目标检测中使用技术的分析

基于深度神经网络的目标检测管道一般有四个步骤:图像预处理、特征提取、分类定位、后处理。首先，数据集中的原始图像不能直接输入网络。因此，我们需要调整他们的大小，以任何特殊的大小，使他们更清楚，如提高亮度，颜色，对比度。数据增强还可以满足一些要求，如平移、旋转、缩放、裁剪、平移、添加高斯噪声等。此外，生成式对抗网络(GANs [59]， generative adversarial networks)可以根据人们的需求生成新的图像，丰富输入的多样性。更多关于数据增强的详细信息，请参考[60]。其次，特征提取是进一步检测的关键步骤。特征质量直接决定分类、定位等后续任务的上界。第三，检测器头负责提出并细化边界框，得出分类分数和边界框坐标。图1给出了第二步和第三步的基本流程。最后，后处理步骤删除弱检测结果。例如，NMS是一种被广泛使用的方法，评分最高的对象将其附近的分类评分较低的对象删除。

总结一下：

图像预处理；
特征提取；
分类定位；
后处理；

其中需要注意的地方：

需要调整图像大小；
数据增强；
GAN的使用可以丰富输入的多样性；
特征提取是进一步检测的关键步骤；
检测器头提出并细化边界框，得到分类分数和边界框坐标；

增强的特征

要充分利用连续的输出特征图谱骨干层,林et al。[15]目标提取更丰富的特性,通过将这些产品分为不同级别大小不同的检测对象,如图3所示(d)。有些作品[11][33][61][62]利用红外系统的多层次特征金字塔骨干。此外，一系列改进的FPN[18][35][63]丰富了检测任务的特征。Kim等人[64]提出了一种并行特征金字塔(FP)网络(PFPNet)，该网络通过拓宽网络宽度而不是增加网络深度来构建FP。附加的特征转换操作是生成不同大小的特征映射池，从而生成跨尺度具有相似语义抽象级别的特征映射。Li等[65]将不同层次的特征以不同的尺度串联起来，生成新的特征金字塔馈入多盒探测器，预测最终的检测结果。Chen等人[66]引入了WeaveNet，将相邻尺度的上下文信息迭代地编织在一起，从而实现更复杂的上下文推理。Zheng等[67]为一级探测器[10]的浅层扩展了更好的上下文信息。

图像中不同物体或区域之间的语义关系有助于检测被遮挡物体和小物体。Bae等[68]利用组合的高级语义特征对目标进行分类和定位，将多区域特征逐级组合起来。Zhang等人的[36]结合了语义分割分支和全局激活模块，丰富了典型深度探测器中目标检测特征的语义。场景上下文关系[69]可以为准确的视觉识别提供一些有用的信息。Liu等[70]采用场景上下文信息进一步提高准确性。建模对象之间的关系可以帮助对象检测。Singh等人[71]在适当的尺度上处理ground-truth对象周围的上下文区域。Hu et al.[37]提出了一个关系模块，该模块可以同时处理一组对象，同时通过相互作用考虑外观和几何特征。对象的中级语义属性有利于包含视觉属性的对象检测[72]。

注意机制是网络集中于最显著区域部分的一种有效方法。一些典型的工作[73][74][75][76][77][78][79]关注于注意机制，从而捕捉到检测对象需要的更多有用的特征。Kong等人[80]设计了一种结合global 关注和local重构的结构，以收集跨不同空间位置和尺度的面向任务的特征。

充分利用一个目标的有效区域可以提高精度。原始的卷积神经网络只关注固定方形大小(根据内核)的特征，因此接收域不能很好地覆盖目标对象的整个像素，不能很好地表示目标对象。可变形的卷积网络可以产生可变形的核，而与初始卷积核的偏移量(固定大小)则由该网络学习得到。可变形的RoI池还可以适应不同形状物体的组件位置。在[38][39]中，网络权值和采样位置共同确定了有效支持区域。

最重要的是，丰富和恰当的对象表示可以显著提高检测的准确性。脑激发机制是进一步提高检测性能的有力方法。

//截止到14页，2022.1.7日晚上22：23止

//2022.1.8日上午11:58开始阅读

提高定位精度

定位和分类是目标检测的两大任务。

IoU是最常用的评价指标。

对于两个包围盒，IoU可以计算为与并集面积的交点面积。

一个典型的工作[81]采用IoU损失来衡量网络预测的准确性。该损失函数对不同形状和尺度的物体具有鲁棒性，并能在短时间内很好地收敛。Rezatofighi等人[82]将广义IoU作为损失函数和一种新的度量引入到现有的目标检测管道中，与原来的光滑L1损失对等物相比，得到了持续的改进。Tychsen等人[49]采用了一种新颖的边界盒回归loss函数来实现局部化分支。本研究考虑的是预测箱与指定的地面真值箱之间的相交或并集，其值高于预设的阈值，但不能只得出最高的值。他等人[83]提出了一种新的边界盒回归损失，用于学习边界盒定位和变换方差。他等人[84]引入了一种新颖的边界盒回归损失，它与定位精度有很强的关系。Pang等人[63]提出了一种新的平衡L1损耗来进一步提高定位精度。Cabriel等人[85]提出了轴向定位检测方法，在元胞水平上实现了很高的定位精度。

解决正负类的平衡问题

在第一阶段，网络产生建议并过滤大量的负样本，主要是设计好的两级探测器步骤。当馈送到检测器时，建议的包围盒属于一个稀疏集。但是，在单级检测器中，网络没有过滤坏样本的步骤，因此密集的样本集很难训练。阳性样本和阴性样本的比例也极不平衡。典型的解决方案是硬负采矿[86]。推广的硬矿开采方法OHEM[40]有助于将关注点转向硬矿样本。Liu et al.[10]采用硬负向挖掘方法，对每个预定义盒采用最大置信损失对所有负向样本进行排序，选出最上面的负向样本，使负向样本与正向样本的比值最多为3:1。在训练目标检测器时，考虑硬样本是提高检测性能的更有效方法。Pang等人[63]提出了一种新的硬采矿方法，称为欠条平衡抽样。Yu等人[87]专注于实时需求。

另一种有效的方法是在分类损失函数中添加一些项。Lin et al.[33]提出了一个损失函数，称为focal loss，它可以将分配给分类良好或容易的例子的损失降权，集中在困难的训练例子上，避免训练过程中大量容易的负例子淹没检测器。Chen等人[88]考虑设计一种新的排序任务来取代传统的分类任务和对这个任务设计一种新的平均精度loss，这可以显著缓解极端的负正阶级失衡问题。

改进后处理网管方法

只有一个被检测到的对象能够成功匹配到ground truth对象，ground truth对象将被保留，而与ground truth对象匹配的其他对象则被分类为duplicate。NMS(非最大抑制)是一种启发式方法，它只选择分类得分最高的对象，否则将忽略该对象。Hu等人[37]使用关系模块产生的中间结果来更好地确定在不需要NMS的情况下将保存哪个对象。NMS考虑了分类评分，但缺少本地化置信度，导致删除弱结果的准确性较低。Jiang等人[89]提出了IoU- net学习方法来预测每个检测到的包围盒与匹配的groundtruth之间的IoU。由于考虑了定位置信度，对NMS方法进行了改进，保持了精确定位的包围盒。Tychsen等人提出了一种新的适应度NMS方法，该方法考虑了更大的估计IoU重叠和预测边界盒的分类分数。Liu等人[90]提出了自适应网管，该网管将动态抑制阈值应用于由目标密度决定的实例。Bodla等人[46]采用了一种改进的NMS方法，无需任何额外的培训，且易于实现。他等[84]进一步改进了软网管方法。Jan等人[91]在多个欠条阈值上提供网管产生的网络评分图。Hosang等人[92]设计了一种新颖的ConvNets，它直接实现了NMS，而无需后续处理步骤。Yu等人[87]利用最终的feature map过滤掉容易的样本，使网络集中于硬样本。

将单级和两级探测器结合使用，取得了良好的效果

一般来说，现有的目标探测器分为两类，一类是二级探测器，具有代表性的一类是Faster R-CNN[8]。另一种是单级探测器，如YOLO [9]， SSD[10]。两级检测器具有较高的定位和目标识别精度，而一级检测器具有较高的推理和测试速度。用感兴趣区域(Region of Interest)池化层划分两级检测器的两级。在Faster R-CNN检测器中，第一阶段被称为RPN，区域提议网络，提出候选对象的包围框。第二阶段，网络利用RoIPool从每个候选框中提取特征，并进行分类和边界框回归;

为了充分继承单级和两级探测器的优点，克服它们的缺点，Zhang et al.[36]提出了一种新型的RefineDet，其精度优于两级探测器，并保持了与单级探测器相当的效率。

复杂场景的解决方案

对象检测管道[10][33]通过学习对象在多尺度上的表示来检测小对象。一些文献[93][94][95]在[10]的基础上提高了检测精度。Li等人[96]利用GAN模型，在该模型中，生成器将感知到的小物体的较差表示转移到与真正的大物体足够相似的超分辨物体，以欺骗竞争的鉴别器。这使得小对象的表示类似于大对象，从而提高了准确性，而不需要耗费大量的计算成本。一些方法[47][97]通过增强IoU阈值来训练多个定位模块来提高小目标的检测精度。Hu等[98]采用特征融合的方法更好地检测出图像金字塔产生的小人脸。Xu等[99]利用反卷积融合块(Deconvolution Fusion Block)将具有丰富语义信息的高层特征与低层特征融合，增强了小对象的表示。

目标遮挡是目标检测领域的另一个难题。Wang等[100]在没有速度衰减的情况下，提高了被遮挡情况下人脸检测问题的召回率。Wang等人[101]提出了一种专门为人群场景设计的新颖的边界盒回归损失，称为排斥损失。Zhang等人[102]提出了一种新设计的咬合感知的R-CNN (OR-CNN)，以提高在人群中的检测精度。Baqu等人[103]将卷积神经网络和条件随机场结合起来，模拟潜在的遮挡。

对于一个数据集中不同对象的大小差异很大，有三种常用的解决方法。首先，按照多个指定的尺度调整输入图像的大小，并计算每个尺度的特征图，称为多尺度训练。典型例子[29][48][104][105]使用这种方法。Singh等人[71]以图像内容为条件，从图像金字塔的多个尺度上自适应地采样区域。其次，研究人员在特征地图上使用多尺度卷积滤波器。例如，在[106]中，使用不同的过滤器尺寸(如5 × 7和7 × 5)分别训练不同纵横比的模型。第三，具有多尺度和多纵横比的预定义锚点是预测边界盒的参考盒。更快的R-CNN[8]和SSD[10]分别首次在两级和一级探测器中使用参考盒。图7为上述三种情况的示意图。

anchor-free

虽然目前主流的基于星座锚点的目标探测器方法包括单级和两级探测器，性能有显著提高，如SSD、Faster R-CNN、YOLOv2、YOLOv3等，但仍存在一些不足。(1)预定义的锚盒具有一组手工制作的比例尺和宽高比，这些比例尺和宽高比对数据集很敏感，对检测性能影响很大。(2)在训练过程中，预先设定的锚箱的尺度和宽高比是固定的，因此下一步无法得到自适应调整的锚箱。与此同时，探测器在处理各种大小的物体时都存在问题。(3)对于密集放置锚盒以实现高召回率的方法，特别是在大规模数据集上，计算成本和内存需求在处理过程中带来了巨大的开销。(4)预定义锚点多为负样本，导致训练过程中正、负样本之间存在较大的不平衡。

为此，最近提出了一系列无锚方法[51][61][62][107][108][109][110][111][112][113]。

CenterNet[108]定位对象的中心点、左上点和右下点。Tian等人[61]提出了一种基于预测中心点与包围盒四边之间四个距离值的定位方法。这是一个有待进一步研究的新方向。

从头开始训练

目前几乎所有的探测器都采用在大规模分类数据集[3]上预先训练的现成分类骨干作为初始参数，然后微调参数以适应新的检测任务。另一种实现培训过程的方法是从头开始分配所有参数。Zhu等[114]的训练检测器从无开始，由于批量归一化操作带来了稳定且可预测的梯度，因此不需要预先训练的分类主干。有些作品[115][116][117][118]通过密集的分层连接从头开始训练物体探测器。

设计新的架构

由于分类和定位任务提出的不同，分类网络与检测体系之间存在一定的差距。本地化需要对象的细粒度表示，而分类需要高度的语义信息。Li et al.[16]提出了一种新设计的目标检测体系结构，专门针对在更深层保持高空间分辨率且不需要在大规模分类数据集上进行预训练的检测任务。

两级检测器总是比一级检测器慢。通过研究两级网络的结构，研究人员发现像Faster R-CNN和R-FCN这样的两级探测器有一个沉重的头部，从而降低了它的速度。Li等人[119]提出了一种保持时间效率的光头两级探测器。

加快检测

对于计算能力和内存资源有限的移动设备，实时设备，网络摄像头，自动驾驶鼓励研究有效的检测架构设计。最典型的实时检测器是[9][30][32]系列和[10][34]及其改进的架构[66][67][95][120]。一些方法[24][87][121][122][123][124]就是为了达到实时检测的目的。

实现快速和准确的检测

最好的目标探测器需要高效率和高精度，这是本课题的最终目标。Lin et al.[33]的目标是在保持高速的情况下超过现有的两级探测器的精度。Zhou等人[125]将一种精确(但缓慢)的探测器和一种快速(但不那么精确)的探测器结合在一起自适应地确定图像是易检测还是难检测，并选择合适的检测器对其进行检测。Liu等人[126]利用接受域块增强轻量级网络特征，构建了一种快速准确的检测器。

典型应用领域

人脸检测

人脸检测的目的是检测图像中的人脸，如图9所示。由于极端姿态、光照和分辨率的变化，人脸检测仍然是一个困难的任务。许多工作都集中在精密探测器的设计上。Ranjan等人[127]同时学习相关任务(人脸检测、人脸地标定位、头部姿态估计和性别识别)，以提高单个任务的性能。他等人[128]提出了一种新的Wasserstein卷积神经网络方法来学习近红外(NIR)和视觉(VIS)人脸图像之间的不变特征。设计适当的损失函数可以提高基于dcnn的大规模人脸识别的识别能力。基于余弦的softmax loss[129][130][131][132]在基于深度学习的人脸识别中取得了很大的成功。Deng等人[133]提出了一种可加角裕度损失(Additive Angular Margin Loss, ArcFace)，以获得具有高度判别性的特征用于人脸识别。Guo等人[134]给出了一种用于人均人脸识别的模糊稀疏自动编码器框架。详情请参考[135]。

行人检测

行人检测主要是对自然场景中的行人进行检测。Braun等人[52]发布了包含城市交通场景中的行人、骑自行车者和其他骑手的EuroCity Persons数据集。Complexity-aware级联行人检测对实时行人检测做出了贡献。详情请参考调查[139]。

异常检测

异常检测在欺诈检测、气候分析和医疗保健监控中发挥着重要作用。现有的异常检测技术[140][141][142][143]对数据进行逐点分析。Barz等人[144]提出了一种新的无监督方法，称为最大发散间隔(Maximally interval, MDI)，它在空间中搜索连续的时间间隔和区域，从而将专家分析人员指向数据中感兴趣的区域(异常)。2)军事领域:在军事领域，遥感目标检测、地形测量、飞行探测等是具有代表性的应用。

遥感目标检测

遥感目标检测是对遥感图像或视频上的目标进行检测，面临着一定的挑战。首先，由于输入量过大而目标偏小，使得现有的目标检测方法在实际应用中速度过慢且难以检测。其次，庞大复杂的背景会导致严重的误检。为了解决这些问题，研究者们采用了数据融合的方法。由于信息的缺乏和偏差小，造成了很大的不准确性，它们主要集中在小目标的检测上。遥感图像具有与自然图像不同的一些特点，诸如Faster R-CNN、FCN、SSD、YOLO等强大的管道无法很好地向新的数据域传输。设计适合遥感数据集的探测器仍然是该领域的研究热点。

Cheng等[145]通过设计旋转不变量层，提出了一种基于cnn的遥感图像(Remote Sensing Image, RSI)目标检测模型来处理旋转问题。Zhang等人[146]提出了一种旋转和缩放的鲁棒结构，以解决RSI目标检测中旋转和缩放不变性的不足。Li等人[147]提出了一种可旋转区域建议网络和一种考虑车辆方位的可旋转检测网络。Deng等人[148]提出了一种用于小目标检测的精确车辆提议网络(AVPN)。Audebert等[149]利用准确的语义分割结果来获得车辆检测。Li等[150]解决了舰船检测中舰船分辨率范围大(从几十像素到数千像素)的问题。Pang等[151]提出了一种实时遥感方法。Pei等[152]提出了一种合成孔径雷达(SAR)深度学习框架自动目标识别。Long等人[153]主要研究自动准确定位物体。Shahzad等人[154]提出了一种包含自动标记和循环神经网络的新型检测框架。

典型方法[155][156][157][158][159][160][161][162][163][164][165]均利用深度神经网络实现对遥感数据集的检测任务。NWPU VHR-10[166]、HRRSD[146]、DOTA[167]、DLR 3K Munich[168]和VEDAI[169]是遥感目标检测基准。我们建议读者参考[170]了解更多关于遥感目标检测的细节。

交通领域

我们知道，车牌识别、自动驾驶、交通标志识别等大大便利了人们的生活。

随着汽车的普及，车牌识别在犯罪跟踪、居民出入跟踪、交通违法跟踪等方面都有重要的应用。边缘信息、数学形态学、纹理特征、滑动同心窗、连通构件分析等可以使车牌识别系统更加健壮、稳定。近年来，基于深度学习的方法[171][172][173][174][175]为车牌识别提供了多种解决方案。详情请参考[176]。

自动驾驶汽车(AV)需要对周围环境的准确感知才能可靠地运行。自动驾驶汽车的感知系统通常采用机器学习(如深度学习)，将感知数据转换为语义信息，从而实现自动驾驶。物体检测是该感知系统的一个基本功能。三维目标检测方法涉及揭示更详细的目标大小和位置信息的第三维度，分为单目、点云和融合三种类型。首先，基于单目图像的方法预测图像上的二维包围框，然后将其外推到三维，这种方法缺乏明确的深度信息，限制了定位的准确性。其次，基于点云的方法将点云投影到二维图像中，直接以体素结构处理或生成点云的三维表示，前者信息丢失，后者耗时。第三，基于融合的方法融合了前视图图像和点云来生成一个鲁棒的检测，这代表了最先进的检测器，但计算成本昂贵。最近，Lu等人[177]利用一种包含3D卷积和RNN的新架构，在不同的真实世界驾驶场景中实现厘米级的定位精度。Song等人[178]发布了一个3D汽车实例理解自动驾驶基准。Banerjee等[179]利用传感器融合获得更好的特征。详情请参考最近发表的一项调查[180]。

无论是无人驾驶汽车还是自动驾驶系统，都需要解决交通标志识别问题。为了安全和遵守规则，实时准确地识别交通标志，获取潜在标志的时间和空间信息，有助于驾驶。深度学习方法[181][182][183][184][185][186][187]高性能地解决了这一问题。

医学领域

在医学领域，医学图像检测、癌症检测、疾病检测、皮肤病检测,保健监测等已成为辅助医疗手段。

计算机辅助诊断(CAD)

计算机辅助诊断(CAD)系统可以帮助医生对不同类型的癌症进行分类。具体来说，在对图像进行适当的采集后，CAD框架可以完成图像分割、特征提取、分类和目标检测等基本步骤。由于显著的个体差异、数据稀缺性和隐私性，源域和目标域之间通常存在数据分布差异。医学图像检测需要一个领域自适应框架[188]。

Li等[77]将注意机制引入到CNN青光眼检测中，建立了大规模的基于注意的青光眼数据集。Liu等人[189]设计了一种带有长短时记忆(LSTM)的双向循环神经网络(RNN)，用于检测名为DeepMod的DNA修饰。Schubert等人[190]提出了用于自动神经元重建和自动突触检测的细胞形态神经网络(cellular形态学神经网络，CMNs)。Codella等人[191]组织了对黑色素瘤检测的皮肤损伤分析的挑战。详情请参阅两项代表性调查[192][193]。

在生活领域，智能家居、商品检测、事件检测、模式检测、图像字幕生成、雨/影检测、物种识别等是最具代表性的应用。

在像零售货架展示这样的密集场景中，Goldman等人[194]提出了一种新的精确物体检测器，并发布了一个新的SKU-110K数据集来应对这一挑战。

事件检测旨在从互联网上发现真实世界的事件，如节日、会谈、抗议、自然灾害、选举。随着社交媒体的普及和新角色的出现，社交媒体的数据类型比以往更加多样化。MED (Multi-domain event detection)提供了对事件的全面描述。Yang等人[195]提出了一个事件检测框架来处理多域数据。Wang等人[196]通过为事件检测任务构建亲和图来整合在线社交互动特征。Schinas等人[197]设计了一个基于多模态图的系统，可以从1亿张照片/视频中检测事件。详情请参阅一项调查[198]。

模式检测

模式检测常常会遇到场景遮挡、姿态变化、光照变化和传感器噪声等问题。为了更好地解决重复模式或周期性结构检测问题，研究人员在二维图像[199][200]和三维点云[201][202][203][204][205][207][208][209][210][211][212]中设计了强基线。

图像标题

图像标题生成是指计算机自动为给定的图像生成标题。其中最重要的部分是捕捉图像的语义信息，并将其表达为自然语言。图像字幕需要将计算机视觉和自然语言处理技术结合起来，这是一项极具挑战性的任务。为了解决这一问题，该领域广泛采用了多模态嵌入、编解码框架、注意机制[75][213]、强化学习[214][215]等方法。Yao等人[216]提出了一种新的设计，通过构造图卷积网络和Long来探索物体之间的连接短期内存(称为GCN-LSTM)体系结构。这个框架集成了语义和空间对象关系。除了基于LSTM (long - short - term memory)的方法外，验证了基于深度卷积网络的方法[217]的有效性和高效性。详情请参阅一项调查[218]。

Yang等人[219]提出了一种伴随深度学习体系结构的新型降雨模型，以在单个图像中处理降雨检测。Hu等[220]以方向感知的方式分析空间图像上下文，并设计了一种新的深度神经网络来检测阴影。准确的物种识别是分类学研究的基础，最近的一项工作[221]引入了一种深度学习的物种识别方法。

目标检测分支

弱监督目标检测(WSOD):弱监督对象检测(WSOD)的目标是利用少量完整标注的图像(监督)检测大量的非完整标注的图像。传统的模型学习图像标记只与对象类，而不是对象的边界框。在大型数据集中为每个对象标注边界框是昂贵的、费力的和不切实际的。弱监督学习依赖于不完整的标注训练数据来学习检测模型。

[222]中的弱监督深度检测网络是弱监督目标检测的一个代表性框架。采用上下文信息[223]、实例分类器细化[224]和图像分割[225][226]来解决难以优化的问题。Yang等人[227]表明，图像中描述的动作可以提供有关相关物体位置的强烈线索。Wan等人[228]设计了一个用循环学习算法优化的用于弱监督目标检测的最小熵潜在模型。Tang等人[229]利用迭代过程生成建议簇并学习精细化的实例分类器，这使得网络集中于整个对象而不是其中的一部分。Cao等人[230]设计了一种用于弱监督目标定位的新型反馈卷积神经网络。Wan等人[231]提出了延续多实例学习来缓解WSOD中的非凸性问题。

显著性目标检测:显著性目标检测利用深度神经网络预测图像区域的显著性得分，获得准确的显著性图，如图10所示。突出目标检测网络通常需要聚合骨干网的多级特征。对于速度快而精度不下降的问题，Wu等[232]提出，丢弃浅层特征可以获得较快的速度，而深层特征足以获得精确的显著性图。Liu等人[233]扩展了pooling在卷积神经网络中的作用。Wang等[234]利用注视预测来检测突出物体。Wang等人[235]采用循环全卷积网络，并结合显著性先验知识进行准确的显著性目标检测。Feng等人[236]设计了一个细心的反馈模块，以更好地探索对象的结构。

视频显著性目标检测数据集[237][238][239][240][241][242][243]为视频显著性目标检测提供了基准，现有的较好的算法[244][245][238][241][246][247][248][250][251][252][253][254][255]致力于该领域的发展。

高亮检测:高亮检测是在短视频片段中检索某个时刻，该时刻能够抓住用户的主要关注或兴趣，可以加快视频浏览速度，增强社交视频分享，方便视频推荐。典型的高光检测器[256][257][258][259][260][261]是特定领域的，因为它们是针对一类视频定制的。所有的对象检测任务都需要大量的人工标注数据，高亮检测也不例外。Xiong等人[262]提出了一种针对较短用户生成视频的弱监督方法来解决这个问题。

边缘检测:边缘检测旨在从图像中提取出目标边界和感知显著边缘，对于分割、目标检测和识别等一系列更高层次的视觉任务具有重要意义。边缘检测遇到了一些挑战。首先，图像中各种尺度的边缘既需要对象级的边界，又需要有用的局部区域细节。其次，将不同层次的卷积层专门用于预测最终检测的不同部分，因此CNN中的每一层都需要经过适当的layer - specific supervision进行训练。为了解决这些问题，He等[263]提出了一种双向级联网络，一层由标记边监督，同时采用扩张卷积生成多尺度特征。Liu等人[264]提出了一种利用更丰富的卷积特征的精确边缘检测器。

文本检测:文本检测的目的是识别给定图像或视频中的文本区域，这也是许多计算机视觉任务的重要前提，如分类、视频分析等。已经有许多成功的商用光学字符识别(OCR)系统用于互联网内容和文档文本的识别。自然场景中的文本检测仍然是一个挑战，由于复杂的情况，如模糊，不均匀的照明，透视失真，不同的方向。一些典型的作品[265][266][267]关注水平或接近水平的文本检测。最近，研究人员发现，任意方向的文本检测[268][269][270][271][272]是一个需要注意的方向。一般来说，基于深度学习的场景文本检测方法可以分为两大类。第一类将场景文本作为一种通用对象，遵循通用对象检测范式，通过文本框回归定位场景文本。这些方法在处理大宽高比和任意方向的场景文本时存在困难。第二种方法直接分割文本区域，但大多需要复杂的后处理步骤。通常，这类方法主要包括两个步骤:分割(生成文本预测图)和几何方法(倾斜提案)，耗时较长。此外，为了获得文本框的方向，有些方法需要复杂的后处理步骤，因此效率不如那些直接基于检测网络的体系结构。

Lyu等[271]结合了上述两类思想，通过定位文本边界框的角点和将文本区域划分到相对位置来检测场景文本，可以处理面向较长的文本，只需要简单的NMS后处理步骤。Ma等人[272]开发了一种基于旋转的新方法和端到端文本检测系统，其中旋转区域提议网络(RRPN)生成带有文本方向角度信息的倾斜提议。

多领域对象检测:特定领域的检测器在指定的数据集上始终能够获得较高的检测性能。为了得到一种能够处理不同图像域的通用检测器，目前的研究主要集中在多域检测器的训练上，而不需要对新感兴趣域的先验知识。Wang等人[273]提出了一种通用检测器，该检测器利用了一种新的领域注意机制，在没有兴趣领域先验知识的情况下工作于各种图像领域(人脸、交通标志和医学CT图像)。Wang等人[273]发布了一个由11个不同数据集组成的新建立的通用对象检测基准，以更好地应对不同领域泛化的挑战。

为了学习视觉的通用表示，Bilen等人[274]在多域共享网络中添加了领域特定的BN(批处理规范化)层。Rebuffi等人[275]提出了适配器剩余模块，在保持甚至提高特定领域表示的准确性的同时，实现了高度的参数共享。Rebuffi等人[275]引入了Visual Decathlon Challenge，一个基准包含10个非常不同的视觉域。受迁移学习的启发，Rebuffi等人[276]实证研究了有效的参数化，并优于传统的微调技术。

多领域对象检测的另一个要求是降低标注成本。对象检测数据集需要大量的标注工作，既费时又机械。将预训练的模型从标签丰富的领域转移到标签贫乏的数据集，可以解决标签贫乏的检测工作。一种方法是使用无监督域自适应方法来解决数据集偏差问题。近年来，研究人员采用对抗性学习方法对样本的来源和目标分布进行对齐。Chen等人[277]利用Faster RCNN和训练有素的域分类器来区分源和目标样本，就像对抗式学习，特征提取器学习欺骗域分类器。Saito等人[278]提出了一种弱对齐模型，该模型将重点放在差异较大的域的不同图像之间的相似性上，而不是对全局不相似的图像进行对齐。只有在源域中才有手动注释，这可以通过使用无监督的域适应方法来解决。Haupmann等人[279]提出了一种无监督域适应方法，该方法对类内和类间域差异都进行了建模。

视频中的目标检测:视频中的目标检测是为了检测视频中的目标，但由于图像质量的下降，如运动模糊、视频散焦等，会导致视频中对同一目标的分类不稳定。视频检测器[280][281][282][283][284][285][286][287][288][289]利用时间上下文来应对这一挑战。一些静态检测器[280][281][282][283]首先检测每一帧中的目标，然后通过连接相邻帧中相同目标的检测来检测它们。由于物体运动，相邻帧中的同一物体可能不会有很大的重叠。另一方面，预测的目标运动不够精确，不足以连接相邻帧。Tang等人[290]提出了一种架构，该架构将同一帧中的对象连接起来，而不是相邻帧来对其进行寻址。

//2022.1.9日下午16：00开始阅读

点云三维目标检测:与基于图像的检测相比，激光雷达点云提供了可靠的深度信息，可用于准确定位目标并表征其形状。在自主导航、自主驾驶、家政机器人和增强/虚拟现实应用中，基于激光雷达点云的三维目标检测发挥着重要作用。基于点云的三维目标检测面临着LiDAR点云稀疏性、高度可变的点密度、三维空间的非均匀采样、传感器的有效距离、遮挡和相对位姿变化等问题。Engelcke等人[291]首先提出了稀疏卷积层和L1正则化来高效地大规模处理3D数据。Qi等人[292]提出了一种端到端的深度神经网络PointNet，它可以直接从点云中学习点的特征。Qi等[293]改进了学习不同尺度局部结构的PointNet。Zhou等人[294]缩小了RPN和点集特征学习在三维检测任务中的差距。周等[294]提出了一个通用的端到端3D检测框架，称为VoxelNet，它从点云学习有区别的特征表示，并同时预测准确的3D包围盒。

在自动驾驶应用中，Chen等人[295]对单目图像进行了三维目标检测。Chen等[296]将LiDAR点云和RGB图像作为输入，预测有方向的三维包围盒，实现高精度的三维目标检测。示例三维检测结果如图11所示。

2D、3D位姿检测:人体位姿检测的目的是估计人体关节的2D或3D位姿位置，定义位姿类，然后返回得分最高类的平均位姿，如图12所示。典型的二维人体姿态估计方法[298][299][300][301][302][303][304]利用了深度CNN架构。Rogez等人[305]提出了一种用于自然图像中关节2D和3D人体姿态估计的端到端架构，该架构可以同时预测多人的2D和3D姿态。得益于全身三维姿态，在不同目标之间发生遮挡的情况下，可以恢复身体部位的位置。人体姿态估计方法可分为单阶段方法和多阶段方法两大类。性能最好的方法[306][11][307][308]通常基于单级骨干网。最具代表性的多阶段方法有卷积式位姿机[309]、沙漏网络[300]和MSPN[310]。

细粒度视觉识别:细粒度识别的目的是在每个基层分类中确定每个对象的确切类别，比如辨别鸟类的种类，或者飞机的型号。这个任务相当具有挑战性，因为类别之间的视觉差异很小，很容易被图像中物体的姿势、视角和位置等因素造成的差异所掩盖。Krause等人[311]利用了局部特征外观和位置层面上的3D对象表示方法来推广不同观点。Lin等人[312]引入了双线性模型，该模型包含两个特征提取器(两个CNN流)。这两个特征提取器的输出在图像的每个位置使用外部乘积相乘，然后合并以获得一个图像描述符。他等人[313]通过显著性引导的Faster R-CNN引入了细粒度的判别定位方法。随后，He等人[314]提出了一种用于快速细粒度图像分类的弱监督判别定位方法(WSDL)。经典数据集[315][316]提供了一些有趣类别的有用信息。请参阅一项调查[317]用于获得更多的信息。

结论和趋势

单级检测器和两级检测器相结合:一方面，两级检测器尾迹密集，获取的参考盒数量尽可能多，既费时又低效。为了解决这个问题，研究人员需要在保持高准确度的同时消除如此多的冗余。另一方面，单级探测器的处理速度快，已成功应用于实时应用。虽然速度快，但较低的精度仍然是实现高精度要求的瓶颈。如何结合单级和两级探测器的优点仍然是一个很大的挑战。
视频目标检测:在视频目标检测中，运动模糊、视频散焦、运动目标模糊、目标剧烈运动、小目标、遮挡和截断等问题使得该任务难以在现实生活场景和遥感场景中取得良好的性能。深入研究移动目标和更复杂的源数据(如视频)是未来研究的重点之一。
有效的后处理方法:在三(一级探测器)或四(二级探测器)级检测程序中，后处理是最终结果的第一步。在大多数检测指标上，只有一个对象的最高预测结果才能发送到指标程序计算精度分数。后处理方法如NMS及其改进可能会消除定位良好但分类置信度高的对象，这不利于测量的准确性。开发更高效、更准确的后处理方法是目标检测领域的另一个发展方向。
弱监督目标检测方法:利用只带对象类而不带对象包围框的高比例标记图像代替大量全标注图像训练网络，效率高且容易获得。弱监督对象检测(WSOD)的目标是利用少量的完整标注图像(监督)检测大量的非完整标注图像。因此，开发WSOD方法是一个值得进一步研究的重要问题。
多领域对象检测:特定领域的检测器在指定的数据集上始终能够获得较高的检测性能。多域检测器可以在没有新域先验知识的情况下解决这一问题，从而得到一种能够处理不同图像域的通用检测器。领域转移是一个具有挑战性的研究课题。
三维物体检测:随着三维传感器的出现和三维理解的多样化应用，三维物体检测逐渐成为一个热门的研究方向。与基于二维图像的检测相比，激光雷达点云提供了可靠的深度信息，可用于准确定位目标并表征其形状。激光雷达能够在三维空间中精确定位物体。基于激光雷达数据的目标检测技术通常也优于2D同类技术。
显著性目标检测:显著性目标检测(Salient object detection, SOD)旨在突出图像中显著性目标区域。视频目标检测是对连续场景中感兴趣的目标进行分类和定位。SOD被各种领域的对象级应用所驱动和应用。在每帧图像中给定感兴趣的显著目标区域，有助于视频中目标的准确检测。因此，对于高级识别任务和具有挑战性的检测任务，突出目标检测是一个关键的前期过程。
无监督对象检测:监督方法在训练过程中耗时且效率低，需要使用带有良好注释的数据集作为监督信息。在大型数据集中为每个对象标注边界框是昂贵的、费力的和不切实际的。开发自动标注技术来释放人工标注工作是无监督对象检测的一个很有前途的趋势。无监督目标检测是未来智能检测任务的研究方向。
多任务学习:聚合骨干网的多级特征是提高检测性能的重要途径。此外，同时执行目标检测、语义分割、实例分割、边缘检测、高亮检测等多个计算机视觉任务，由于信息更丰富，可以大大提高单独任务的性能。多任务学习是将多个任务聚集在一个网络中的一种很好的方法，它对研究者保持处理速度和提高准确率提出了很大的挑战。
多源信息辅助:随着社交媒体的普及和大数据技术的发展，多源信息的获取变得更加容易。许多社交媒体信息可以提供图片和文本形式的描述，这有助于检测任务。多源信息融合是随着各种技术的发展而出现的一个新兴的研究方向。
构建终端对象检测系统:从云到终端，人工智能的终端化可以帮助人们更好更快地处理海量信息和解决问题。随着轻量级网络的出现，终端探测器发展成为更高效、更可靠、应用场景更广泛的设备。基于FPGA的芯片检测网络将使实时应用成为可能。
医疗成像和诊断:美国食品药品监督管理局(FDA)正在推广基于人工智能的医疗设备。2018年4月，fda批准了一款名为IDx-DR的人工智能软件，这是一款糖尿病视网膜病变检测仪，准确率超过87.4%。对于客户来说，图像识别系统与移动设备的结合可以使手机成为一个强大的家庭诊断工具。这个方向充满了挑战和期待。
先进的医学生物识别技术:利用深度神经网络，研究人员开始研究和测量以前难以量化的非典型风险因素。使用神经网络分析视网膜图像和语言模式可能有助于识别心脏病的风险。在不久的将来，医学生物识别技术将被用于被动监测。
遥感机载和实时探测:军事和农业领域都要求对遥感图像进行精确分析。自动化检测软件和集成硬件将给这些领域带来前所未有的发展。将基于深度学习的目标检测系统加载到SoC (system on Chip)中，实现实时高空检测。
基于GAN的检测器:基于深度学习的系统总是需要大量的数据进行训练，而生成对抗网络(Generative Adversarial Network)是一种生成虚假图像的强大结构。你需要多少，它就能生产多少。将GAN生成的真实场景和模拟数据混合在一起，对目标检测器进行训练，使检测器具有更强的鲁棒性和泛化能力。

//截止到2022.1.9日下午16:19止

本文仅作为日后复习方便查看之用，并无他用。