摘要

1.引言

2.相关调查和简要统计

A.无人机飞机统计数据

B.挑战

C.贡献

3.无人机机载图像中的目标检测

A.数据处理

B.基于尺度多样性的目标检测

C.小目标上的目标检测

D.基于方向分集的目标检测

E.基于检测速度的目标检测

F.基于其他的目标检测

4.无人机载视频中的目标检测

A.基于光流的网络

B.基于记忆网的网络

C.基于跟踪的网络

5.基于无人机视频的多目标跟踪

A.Tracking-by-Detection

B.单目标跟踪辅助多目标跟踪

C.基于记忆网络的多目标跟踪

D.基于其他的多目标跟踪

6.基于无人机的基准数据集

7.实验结果与分析

A.无人机机载图像目标检测方法评价

B.无人机视频中的目标检测方法评价

C.基于无人机视频的目标跟踪评估

D.计算成本的估算

8.讨论和结论

摘要

这是验收前的版本，要阅读最终版本，请访问IEEE xplore上的IEEE地球科学和遥感杂志。无人机(UAV)以其高效灵活的数据采集能力成为近年来计算机视觉(CV)和遥感(RS)领域的研究热点。受深度学习（DL）近年来的成功启发，许多先进的目标检测和跟踪方法已被广泛应用于环境监测、精准农业、交通管理等与无人机相关的各种任务中。本文对基于DL的无人机目标检测与跟踪方法的研究进展和前景进行了全面的综述。更具体地说，我们首先概述了现有方法的挑战和统计数据，并从基于DL的模型的角度提出了三个研究课题的解决方案：图像中的目标检测、视频中的目标检测和视频中的目标跟踪。耗尽了与无人机为主的目标检测和跟踪相关的开放数据集，并使用了四个基准数据集使用一些最新的方法进行性能评估。最后，对未来的工作进行了展望和思考。希望本文能为遥感领域的研究人员提供一个基于DL的无人机目标检测和跟踪方法的综述，以及对其进一步发展的一些思考。

1.引言

目标检测与跟踪作为遥感领域的一个重要研究课题，在环境监测、地质灾害探测、精准农业、城市规划等各种民用和军事任务中得到了广泛的研究和应用。传统的目标捕获方法主要来源于卫星和载人飞机。通常情况下，这两种类型的平台在固定轨道上运行或沿着预定的路径运行，或者根据委托的任务(例如城市规划和测绘)临时改变运行路线并悬停，或者在恶劣和不适宜居住的环境中进行物体观测，例如，冰冻圈中的遥感。然而，卫星和载人飞机的成本，以及飞行员潜在的安全问题，不可避免地限制了此类平台的应用范围。

随着微电子软硬件的发展、导航和通信技术的更新以及材料和能源技术的突破，已经成为国际遥感研究热点的无人机(UAV)平台迅速崛起。无人机遥感系统是集无人机、遥感、全球定位系统(GPS)定位、惯性测量单元(IMU)姿态确定手段于一体的高科技结合体。它是一个专门的遥感系统，目的是获得低空高分辨率的遥感图像。与传统平台相比，无人机弥补了因天气、时间等限制造成的信息丢失。此外，无人机的高机动性使其能够不受地理限制地灵活收集视频数据。这些数据无论在内容上还是在时间上都极具信息量，因此目标检测和跟踪已经进入大规模无人机[1]-[3]时代，在土地覆盖制图[4]、[5]、智慧农业[6]、[7]、智慧城市[8]、交通监测[9]和灾害监测[10]等方面发挥着越来越重要的作用。

作为计算机视觉的基本问题之一，目标检测与跟踪采用了经典的、即基于统计学的方法[11]、[12]。然而，今天的海量数据冲击着这些传统方法的性能，这带来了特征维度爆炸的问题，产生了更高的存储空间和时间成本。由于深度神经网络(DL)技术的出现[13]-[15]，具有足够样本数据的分层特征表示可以用深度复杂的网络来学习。自2015年以来，深度神经网络已成为无人机目标检测与跟踪的主流框架[16]、[17]。图1显示了利用无人机遥感在城市区域进行目标检测和跟踪的示例。经典的深度神经网络分为两大类：two-stage网络和one-stage网络。其中，RCNN[18]、Fast RCNN[19]和FAST RCNN[20]等两阶段网络首先需要生成区域建议书(RP)，然后对候选区域进行分类和定位。一系列工作[21]-[23]已经证明，two-stage网络适用于具有较高检测精度的应用。one-stage网络，如SSD[24]和YOLO[16]，[25]，[26]，直接产生类别概率和坐标位置，并且比两阶段网络更快。同样，也有一些速度较快的轻量级网络，如移动网SSD[27]、YOLOv3[28]、ESPnet v2[29]等。因此，一级快速轻量级网络是无人机遥感实际应用中对速度有高要求的最终赢家。但是对于低分辨率的数据，如果不对图像进行预处理或修改经典的神经网络结构，就不能达到很好的效果。

图1.无人机目标检测和跟踪的复杂城市场景。为简单起见，在图像中仅绘制特定对象的边界框和类名。

本文以最大起飞重量小于30公斤的无人机为研究对象，对基于深度学习(DL)的无人机目标检测与跟踪方法进行了全面的综述，总结了最新的研究成果，讨论了其中的关键问题和难点问题，并对未来的发展方向进行了展望。

本文的其余部分组织如下。第二节简要总结了无人机和相关出版物的统计数据。第六节介绍了现有的基于无人机的遥感数据集。第三-第五节回顾了与三个分支机构基于无人机的目标检测和跟踪密切相关的现有基于DL的工作。第八节讨论结论。

2.相关调查和简要统计

A.无人机飞机统计数据

图2通过统计分析显示了目前使用的无人机的分类。从电源来看，电池动力比燃料动力使用频率更高；对于气动外形，多旋翼比固定翼更常见；从飞机重量来看，大部分在30公斤以下，被认为是小型轻型无人机；大多数无人机的飞行时间都在1小时以内。定量分析结果表明，小型轻型无人机已成为研究和应用的主要机型，具有较大的市场份量。此外，2016年发布的《小型轻型无人机遥感发展报告》[30]显示，我国用于遥感应用的专业小型轻型无人机超过3000架。这种类型的无人机表现出以下五个主要特点。

图2.目前在用的轻型和小型无人机的部分统计分析结果

1)飞行时间长。随着新能源技术、能源管理技术和轻质复合材料研究技术的发展，无人机的飞行时间不断延长。

2)综合成本低，技术含量高。一方面，低成本、轻质材料的使用降低了无人机和遥感器的生产成本。另一方面，批量用户的增加促进了零部件和结构件的量产，进一步降低了无人机和遥感器的生产成本。

3)小巧、轻便、多样化的遥感相机。小型轻型无人机上的所有遥感载荷都发展到30公斤以下，光学和红外载荷甚至减少到半公斤以下。此外，无人机遥感还采用了多角度摄影、倾斜摄影、传感器集成、高光谱成像干涉等技术。商用高端相机已被广泛用于专业空中任务，流行的相机被用于大众娱乐和一般应用。

4)实时数据传输。无线通信和信息压缩技术的进步有力地推动了图像分辨率的提高，使其具有更高的数据速率和更远的传输距离。几乎无延迟的数据链路传输使实时观测成为可能。

B.挑战

无人机遥感视频中的目标检测和跟踪任务面临着许多挑战，如图像退化、目标强度不均匀、目标尺寸小，以及卫星和载人飞机目标的视角特异性、背景复杂性、尺度和方向多样性等实时问题。

图像降级问题。微型无人机平台承载的载荷在重量、体积和功率方面都有严格的限制。外部环境(如光、云、雾、雨等)的快速变化。导致航拍图像模糊且有噪音，这不可避免地会导致图像质量下降[32]。此外，高速飞行或摄像机旋转也增加了目标检测的复杂度。因此有必要对图像进行预处理，如降噪、摄像机畸变校正等，以保证目标检测模型的有效性。

物体强度不均匀问题。无人机的图像采集设备通常使用大口径、固定焦距和广角镜头。此外，灵活的相机移动会导致捕获对象的密度不均匀。有的密集排列，多次重叠，便于重复检测。有些是稀疏且分布不均的，因此很容易漏检。此外，大多数对象占用的像素很少，这使得它们很难与周围环境分开。

目标大小问题。无人机遥感图像可以在不同的高度获取，产生包含任何大小的地面物体的照片。这对传统的基于DL的方法提出了挑战。此外，无人机遥感中的地物主要表现为面积小于32×32像素的图像。MS Coco数据集[33]由于小对象的特征不太明显而定义了小目标，从而产生了更多的错误和遗漏的检测目标。

实时问题。无人机获取的视频中的目标检测或跟踪需要快速准确地定位运动的地面目标，因此实时处理性能非常重要。

C.贡献

到目前为止，可以找到关于从机载和星载数据集中进行目标检测和跟踪的评论[34]、[35]。对于无人机数据，文献中已经发表了几个具有代表性的调查，其中包括关于无人机图像处理和应用的调查[36]、[37]、无人机系统[38]。然而，在无人机获取的图像和视频中，目标和跟踪技术的进步却没有引起足够的重视。虽然文献[39]-[44]给出了一些基于DL的无人机图像静态目标检测方法，[45]给出了传统的无人机视频目标跟踪方法，但仍然缺乏对目标和跟踪的全面研究和最新进展。

因此，有必要对无人机数据的基于DL的目标检测和跟踪进行全面的综述，重点是静态目标检测(SOD)、视频目标检测(VID)和多目标跟踪(MOT)。在下面的讨论中，我们将此综述限制在基于相应出版物的基于DL的方法。我们希望这项调查能为读者和从业者提供有益的信息。图3显示了这三个研究主题的典型基于DL的学习模式。对于DL方法的选择，SOD目标检测的重点在于检测头的设计来分配正负样本，如RPN ROI池在较快的RCNN中，检测输出为分类和边界框。VID和MOT是关于无人机视频数据的，它们之间的区别在于如何利用时间信息。前者侧重于利用相邻帧的时间上下文修正当前帧的遗漏检测结果，后者侧重于预测下一帧的轨迹，从而获得目标的运动状态。

图3.基于深度学习方法的三个无人机主题的插图。

3.无人机机载图像中的目标检测

虽然基于深度学习的无人机遥感图像目标检测方法主要借鉴了计算机视觉领域的传统数字图像，但由于小型无人机平台和成像采集条件的限制，不可避免地存在视角特殊、背景复杂、尺度和方向多样性以及与小尺寸相关的问题。下面，根据最近的文献，总结了一些基于DL方法的解决方案。图6显示了SOD（静态目标检测）的典型方法的发展。其中，表1中列出了一些专门针对无人机数据设计的方法。本文简要介绍了其他可以解决上述问题的方法，但不是专门针对无人机数据的。这一部分的其余部分介绍了基于DL的SOD方法，以解决数据处理、尺度多样性、小目标、方向多样性和检测速度等五个具有代表性的问题。

图6.从视频中检测无人机目标的典型方法的发展。

表1 基于DL的无人机专属静态目标检测方法

A.数据处理

通常采用两种类型的数据处理：数据采集前的预处理和数据采集后的后处理。

后者更常用于基于DL的技术中。现有的无人机遥感工作大多提供了实验数据集和合适的数据处理技术[46]-[48]，都是在图像采集后进行图像后处理，如增加训练样本数量、扩大样本大小和方向的多样性、扩大样本光照变化等。然而，它们的有效性是多种多样的。

由于无人机飞行高度和载荷的限制，不可避免地会出现地物重叠、覆盖和位移。夏等人[49]以光学相机为例，重点分析了无人机遥感数据采集过程中的各种难点和问题，系统论述了数据处理的关键技术。

B.基于尺度多样性的目标检测

无人机遥感图像可以在不同的高度获取，即使是类内地面物可以是任意大小。因此，规模多样性的解决方案在本综述中被交叉引用。有两种主要的方法可以通过深度学习解决这个问题，如图5(A)所示。最常用的是多尺度特征地图[23]，它是多个特征地图(MFM)上的多个过滤器或单个特征地图(SFM)[22]、[24]、[50]-[59]上的多个过滤器的输出。另一种是膨胀/可变形的卷积核[60]-[63]。它指出，系统扩展支持在不损失分辨率或覆盖范围的情况下接收野的指数扩展。Chen等人[60]在ResNeXt[64]结构的基础上，引入扩展卷积滤波器，得到ResNeXt-d组合结构，扩展了接收范围。

C.小目标上的目标检测

无人机飞行高度不可避免地导致大多数目标呈现出尺度多样性、尺寸小、排列密集等特点，导致可提取的特征信息较少。许多工作通过针对规模多样性的相同网络设计，处理小目标检测问题，包括RRNet[53]、HRDNet[70]、Cascade Network[62]、UAV-YOLO[16]、MPFPN[73]、深度可分离注意引导网络(DAGN)[75]、GANET[76]和FSSSD[66]、ResNeXt-d[60]等。在这些方法中，小目标学习到的准确特征信息是非常重要的。此外，一些新的网络是基于YOLOv4或Eifficientdet-D7网络的，例如DNOD[79]，它们是为了提高检测速度而开发的。

为了进一步提高对小目标的分辨能力，Li等人[82]提出了一种感知GAN来生成小目标的超分辨表示。该方法利用大小物体的结构相关性，增强了小物体的表现力，并给出了与大物体相似的表达方式。Hu等人。[83]发现拼合后小对象的结构明显失真，提出了一种新的上下文感知感兴趣区域拼合方法。Chen等人。[60]提出了一种ResNeXtd组合结构，以增强对小尺寸物体的感知能力。为了提高小而密集目标的检测性能，还可以通过改变锚点信息或从原始高分辨率图像中裁剪多个子集瓷砖等方法来提高检测性能。贾达夫等人。[77]修正了锚定量表和唐等人的研究成果。[84]针对密集小目标检测问题，设计了一种粗无锚点检测器(CPPEN)。在[85]-[87]中，作者提出了从原始高分辨率图像中裁剪多个子集瓷砖，并在不降低分辨率的情况下利用CNN网络学习它们，从而有效地从高分辨率图像中检测小目标的解决方案。

或者，相机的灵活移动会导致捕获对象的密度不均匀。图像中紧密堆积的物体，尤其是较小尺寸的地面物体，不可避免地会重叠。Mekhalfi等人。[88]引入Capsnet对对象之间的关系进行建模。

D.基于方向分集的目标检测

光学遥感图像的目标方向与其实际停车位置有关。经典的CNN得益于使用矩形卷积核，对目标方向很敏感。图5(B)显示了基于深度学习的四种常用解决方案。

图5.基于深度学习的尺度多样性和方向多样性策略。 (B)方向多元化战略

最简单、最常用的解决方案是数据扩充，它通过不同角度的旋转变换来扩展训练集[22]、[89]、[90]，使CNN具有旋转不变性。程等人[89]在现有CNN结构的基础上增加正则化约束，构建旋转不变CNN(RICNN)。随着研究的深入，人们提出了与Fisher判别CNN相关的旋转不变网络RIFD-CNN，以进一步提高目标检测性能[91]，[92]。Laptev等人。[90]向倒数第二个输出层添加了旋转不变的池运算符。数据增强的缺点是增加了网络训练的成本和过度拟合的风险。

一些工作直接使用附加的网络模块(如定向建议框)来实现目标检测[93]、[94]，或者将一般卷积滤波器升级为定向通道滤波器以实现纹理的旋转不变性[95]。区域建议网络(RPN)[96]-[98]以多角度添加到锚盒中以覆盖定向对象。另外，受文本检测方法[99]-[102]的启发，夏等人提出了一种新的文本检测方法。[103]通过在快速RCNN中加入方向盒检测子网络，设计了一种方向不敏感的FR-O网络。Li等人[104]建议RADET获得一个带有形状蒙版的旋转边界框。然而，附加网络模块的缺点是变换参数估计是非自适应的。

像定向响应网络(ONS)[105]、极性变压器网络(PTN)[106]和等变变压器网络(ETN)[107]这样的方法，是为了对于来自自然场景的目标检测而提出来的，还对旋转不变特征进行了定性或定性分析。在这些技术的基础上，周等人[108]提出了一种新的方法开发了一种基于编码器-编码器结构的旋转特征网络(RFN)，用于遥感图像中的目标检测。值得一提的是，一些基于理论分析的旋转不变方法可以覆盖旋转的固有性质[109]、[110]来提取真实的旋转不变特征。到目前为止，这些方法还没有在深度学习中得到广泛应用。

E.基于检测速度的目标检测

受飞行稳定性和微型无人机承载能力的限制，机载遥感传感器的高度需要进行快速、准确的实时调整，使地面目标始终处于监控视野内。同时，对无人机系统获取的高质量遥感图像进行实时快速处理和分析是小型化无人机遥感的关键。

在考虑所有深度学习方法时，最直接的方法是选择正确的平台，包括ARM、移动和嵌入式平台，或者修剪经典的网络架构，以最大限度地减少卷积层中不必要的信道。在[68]，[85]，[86]中，作者采用了YOLO，甚至是微型YOLO网络来实现实时目标检测。张等人[65]裁剪了YOLOv3的更新，提出了slimYOLOv3，平衡了参数数量、内存使用量和推理时间，实现了目标的实时检测。[78][87]修改了轻量级Pelee网络[111]的特征分辨率以满足实时需求。由于YOLOv4的效率和功能，许多目标检测模型[44]、[112]都是基于该网络的。Ammar等人。[44]使用YOLOv3和最新发布的YOLOv4检测车辆，推理处理速度从12fps(608×608)到23fps(320×320)。此外，Wang等人[113]设计了一种基于YOLOv5的带状YOLO网络瓶颈(SPB-YOLO)，用于工程应用。

此外，从图像中实时检测目标也是基于检测的视频目标检测和跟踪的必要条件，这将在第四节和第五节分别讨论。

F.基于其他的目标检测

除了上述的主要挑战之外，本文还讨论了无人机图像中目标检测的其他问题，如针对大量细粒度域的扰民解缠特征变换(NDFT)[69]，用于精确定位和精确分类的D2Det[74]，用于模糊边缘和低对比度的组合神经网络(Comnet)[72]，用于类别失衡问题和缩放问题的集成网络(SyNet)[71]，以及长期使用的双采样器和头部检测网络(DSHNet)。

4.无人机载视频中的目标检测

在2015年ImageNet VID挑战赛之后，视频对象检测(VID)成为热门话题。它在2017年之前一直被广泛用于无人机数据，但也带来了一些新的挑战，例如无人机平台中的相机更换和运动模糊。下面，根据最近的文献，总结了一些基于DL方法的解决方案。图6显示了VID的典型方法的开发。其中，表2列出了专门针对无人机数据设计的方法。文中描述了其他可以解决上述问题但不是专门针对无人机数据的方法。

图6.从视频中检测无人机目标的典型方法的发展

表2 基于DL的无人机专属视频对象检测方法

VID的主要步骤总结如下。

单帧图像目标检测：静态目标检测或图像目标检测。视频中的每一帧都是一幅独立的图像，使用第三节中的方法可以实现图像中的目标检测。

检测结果修正：利用视频的时间信息和上下文信息对上述漏检结果进行补偿。

VID的早期主流方法是多级流水线方法，例如无管卷积神经网络(TCNN)[122]、[123]和序列非最大抑制(Seq-NMS)[124]，其是从每个帧进行目标检测，其中使用时间上下文的修改的检测结果被单独执行。随着研究的深入，许多方法开始将视频检测作为一个经典的目标检测问题。例如，为了提高小尺寸VID的准确性，提出了一种称为综合特征增强的SSD(CFE-SSDv2)[125]的特征增强模块集成网络模型。F-SSD[114]在SSD和FCOS的基础上，通过对每帧检测结果的决策融合，提高了模型的鲁棒性。EODST[126]基于SSD，采用ECO跟踪方法关联单帧中的目标检测。类似地，得益于一些先进的检测器，如HRDet[127]，Cascade R-CNN[128]，Centernet[129],RetinaNet[130]，以及FPN[131]，统计卷积神经网络(SCNN)[115]，已经提出了几种专门为VID开发的网络。一些文献把重点放在这些网络的性能和实时性上，以便在移动[117]或嵌入式系统[116]上开发它们。然而，这些方法很难覆盖视频的上下文信息。虽然有一些时空信息集成的方法，如基于STDnet的时空神经网络(STDnet-ST)[121]，但是漏检和误检问题依然存在。

介绍了三种主流的基于DL的视频检测方法，包括基于光流的网络、基于记忆网络的网络和基于跟踪的网络，它们将时间上下文信息融入到基于DL的方法中，以获得更好的VID检测性能，并纠正虚警和漏检。

A.基于光流的网络

为了建立连续帧之间的关系，一些研究人员估计运动信息。最常用的运动估计方法是光流法。

[118]和[120]分别使用有效的光流CNN模型(PWC-Net)[132]方法和空间金字塔网络(SpyNet)[133]来获取两个相邻帧的运动信息。朱等人[134]设计了融合特征映射，通过特征提取学习关键帧的特征映射和使用流网学习非关键帧的特征映射，从而实现基于深度特征流(DFF)的视频识别。FlowNet比Mobilenet快11.8倍，即使是最小的FlowNet-Xception也快1.6倍。MSRA视觉计算小组提出的流引导特征聚集(FGFA)[135]也是基于光流的早期尝试。FGFA通过聚合多帧的特征来增强每一帧的特征，最后利用FlowNet对特征进行扭曲来解决视频质量下降的问题。虽然FGFA对中速和快速VID有帮助，但对低速VID效果较差。随后，FGFA+融合了多个数据扩展策略，取得了较好的效果。Ref[136]提出了一种能够在稀疏关键帧之间进行多帧特征融合的印象网络，解决了视频识别中的散焦、运动、模糊等问题，同时兼顾了检测速度和检测精度。在[134]、[135]的基础上，朱等人[137]提出了一种新的方法，调整了流网络以学习多帧特征并估计跨帧运动。朱等人[138]随后设计了一种更轻量级的移动光流网络。整个网络都经过端到端的训练，VID的平均精度(MAP)达到60.2，在华为Mate 8手机上的运行速度为25帧。由于使用多帧进行大量的光流计算，网络在训练阶段不能进行反向传播修正。

B.基于记忆网的网络

由于视频序列具有很强的长期相关性，研究人员引入了记忆网络来完全学习视频序列中的时间信息，例如递归神经网络(RNN)[139]、长短期记忆(LSTM)和门控递归单元(GRU)。

在[140]中，Lu等人提出了一种关联LSTM，它从根本上模拟了连续帧之间的目标关联，并促使LSTM提供高质量的关联特征。Rsfs[136]和[141]都使用了ConvLSTM进行多帧特征的高效融合，在保证实时性的同时提高了视频目标检测的准确性。特别是，[141]开发了一种新的交叉框架，该框架使用两个特征提取器在不同的帧上运行，以提高检测器的鲁棒性。Liu等[142]提出了一种交织递归卷积结构，通过设计瓶颈-LSTM层来保证实时检测。受[137]和[136]的启发，蒋等人[143]采用脑启发记忆机制，设计了一种局部加权可变形邻域视频目标检测方法。Tripathi等人[144]通过相邻帧的内容信息训练RNN，优化VID。与相邻帧的运动信息学习不同，肖等[145]提出了一种时空记忆网络(STMN)，通过学习多帧信息，以端到端的方式对目标的长期序列外观和运动动力学进行建模和对齐。Wang等人[145]提出了一种运动感知网络(MANET)，通过融合多帧特征直接学习长时间的运动信息。

C.基于跟踪的网络

鉴于VID和下一节讨论的视频中的目标跟踪之间的高度相似性，仍然有一些方法可以通过跟踪方法来实现VID[114]或者同时实现目标检测和跟踪[146]。[114]提出了一种新的基于跟踪的时空上下文感知无人机视频对象检测方法。[146]在这篇文章中，作者设计了一个调度器网络，将其作为Siamese追踪器的泛化，确定在某一帧进行检测或跟踪。实际上，在实际场景中，检测和跟踪总是并存的。

5.基于无人机视频的多目标跟踪

无人机视频多目标跟踪(MOT)由于无人机平台摄像机的灵活性，近年来引起了越来越多的研究兴趣。流行的基于DL的MOT方法对于无人机视频数据通常不是最优的，因为新的挑战，例如无人机平台中的大视点变化和尺度。图7显示了阐明VID和MOT之间区别的简要流程。VID(SectionIV)和MOT都需要精确的目标定位，而MOT的不同之处在于预测下一帧的轨迹，以获得目标的运动状态。相反，VID只需要利用相邻帧中的时间上下文来修改当前帧的检测结果。下面根据最近发表的文献对基于DL的解决方案进行总结。图8显示了MOT的典型方法的发展。其中，专门为无人机数据设计的方法在表III中列出。其他可以解决上述问题但不是专门针对无人机数据的方法在本段中直接描述。这一部分的其余部分介绍了三种主流的基于DL的多目标检测方法，即检测跟踪方法、单目标跟踪辅助方法和记忆网络方法。

图7.VID和MOT在上行/下行帧中的区别图解

图8.从视频中跟踪无人机目标的典型方法的发展

表3 基于DL的无人机专属多目标跟踪方法

A.Tracking-by-Detection

Tracking-by-Detection(TBD)是MOT的主流方法[147]、[159]、[164]-[167]、[167]、[168]。TBDS的主要步骤是首先检测当前帧的所有感兴趣对象，然后执行与前一帧相关的数据进行跟踪。该方法具有跟踪整个视频中新出现的目标的优点，但检测精度对跟踪结果有决定性的影响。在TBD方法中，MOT被认为是一个与数据相关的问题。

常用的TBD是CMOT[164]、MDP[165]、SORT[169]和DSORT[77]、[147]、[160]、GOG[166]、CEM[170]、SMOT[167]和IOUT[151]、[168]。对于这些方法，DL只负责目标检测，而传统的数据关联方法主要负责数据关联。近年来，人们提出了许多基于学习的数据关联方法。例如，Schulter等人[171]设计了端到端网络来解决关联问题。Son等人[172]提出了一种四重卷积神经网络(Quad-CNN)，该网络通过四重丢失来学习帧间的数据关联。Feichtenhofer等人[173]引入相关特征，结合帧级检测产生数据关联交叉帧，可同时实现目标检测和跟踪。Sun等人[127]采用深度网络实现端到端的特征提取和数据关联。贾达夫等人[174]提出了通过训练自定义深度关联网络实现多目标跟踪的方法。张等人[152]开发了集RetinaNet和TrackletNet Tracker(TNT)于一体的无人机跟踪系统。黄等人[163]提出了一种分层深度高分辨率网络(HDHNet)来实现端到端的在线MOT系统。Stadler等人的研究成果[161]提出了一种PAS跟踪器，该跟踪器采用了一种新的相似性度量和级联RCNN来充分利用对象表示。Yang等人[154]设计了密集光流轨迹投票来度量相邻帧中对象的相似度，并集成YOLOv3实现了MOT。

另一种优化轨迹关联的方法是Siamese网络[175]，这是一种相似性度量方法，特别适用于目标类别较多但每个类别中数量较少的对象分类。它在多目标跟踪中得到了广泛的应用[176]-[181]。
例如，Lee等人[176]提出了一种基于规则提取的Siamese随机森林在线目标跟踪方法。金等人[177]建议采用Siamese网络和光流的在线MOT(Siamese-OF)。帅等人[178]提出了Siamese Track-RCNN的MOT方法。Bea等人[179]提出了一种改进的Siamese网络来学习MOT的区分深度特征表示。Leal-taxe等人[‘180]通过使用Siamese网络学习RGB图像和光流图的局部特征，开发了一种多模式MOT方法。Al-Shakarji等人[148]采用三级级联数据关联方案，设计了一种基于时效性检测的多目标跟踪系统。戴克等人[162]提出了一种从拥挤环境中跟踪预测对象的四元组网络。Yu等人[157]提出了一种综合外观相似度和运动一致性的自平衡方法。Youssef等人[80]通过级联基于区域的卷积神经网络和特征金字塔网络实现MOT。

需要注意的是，如果直接利用无人机在飞行过程中采集的视频数据进行MOT，由于无人机运动的变化、不可避免的“抖动”和环境光线的影响，检测结果往往含有高噪声、虚警和漏检。因此，有必要对无人机视频进行预处理。此外，当视频中对象的前后帧移动过快时，检测跟踪将无法有效匹配。

B.单目标跟踪辅助多目标跟踪

轨迹预测可以很好地解决上述跟踪方法的缺陷，最常用的方法是单目标跟踪(SOT)辅助方法[153]、[165]、[182]-[185]。近年来，随着这种方法的显著进展，SOT已经成功地应用于复杂场景[186]-[188]，但是直接将SOT应用于MOT会遇到由于遮挡造成的计算效率低下以及跟踪偏移的问题。出于这个原因，潘等人[153]提出了一种结合SOT和卡尔曼滤波的分层多目标跟踪器(HMTT)，以提高多目标跟踪的性能。Li等人[182]设计了一种多车辆跟踪方法，将基于SOT的前方位置预测与IOUT有效结合，提高关联阶段的检测结果。严等人[183]将关联的探测器和SOT跟踪器作为候选对象，然后通过集成框架选择候选对象。香等人[165]采用马尔可夫决策过程(MDP)方法对跟踪状态下的目标进行光流跟踪。Chu等人[184]将所有检测输出视为SOT建议，并考虑多目标交互作用设计了MOT网络结构，显著提高了MOT的性能。Ref[189]提出了一种新的实例感知跟踪器，有效地将SOT集成到MOT中。[190]在研究中，作者采用了SiameseRPN[191]SOT追踪器和再识别(ReID)网络来分别提取短期和长期线索。在此基础上，提出了一种更好的数据关联方法--开关感知分类(SAC)，在解决偏移问题的同时提高了跟踪效果。在上述方法中，SOT跟踪器独立于数据关联，这提出了一个潜在的问题，即这两个步骤不能很好地协作以相互加强。为此，朱等人提出了自己的观点。[192]针对类内干扰和对象间频繁交互的问题，提出了双匹配注意力网络(DMAN)，通过单对象ECO跟踪和数据关联来集成统一的框架，以解决类内干扰和对象间频繁交互的问题。

此外，对于SOT辅助方法的实时分析，像Siamese-RPN这样经过离线训练的SOT跟踪器可以实现每秒80帧以上的高速精度，而在线SOT更新则会消耗大量CPU资源。

C.基于记忆网络的多目标跟踪

与VID类似，MOT可以通过历史轨迹信息来判断新目标的状态。因此，设计一种能够记忆历史信息并基于这些历史信息学习匹配相似性度量的网络结构来提高MOT[193]的性能是一种可行的框架。在所有的RNN中，LSTM网络在许多序列问题上表现出了可靠的性能，并且可以克服标准RNN的梯度消失和爆炸问题。LSTM的特殊结构使其能够长时间记忆信息。最近，一些方法[194]-[196]在LSTM网络上取得了令人印象深刻的性能。米兰等人[193]训练了用于在线MOT的端到端LSTM网络。Sadehian等人[185]将外观、动作和交互线索集成到一个统一的RNN中，并设计了基于LSTM的特征融合来表示运动交互，以学习轨迹历史信息与当前检测之间的匹配相似度。在对LSTM中的各个门函数进行设计和分析后，Kim等人[197]提出了一种新的设计方案，为了提高长期外观模型的学习能力，提出了一种新的基于乘法的双线性LSTM神经网络模型。Yu等人[159]利用LSTM和Siamese网络估计个体运动和全局运动。[190]通过引入Siamese-RPN网络获取的短期线索和里德获取的长期线索来应对复杂场景，实现了最先进的跟踪性能。

D.基于其他的多目标跟踪

除了前述方法之外，还可以使用用于多目标跟踪的其他方法，例如用于网络流优化的广义图差异(GGD)[155]，其具有图之间差异的有效表示、具有离线建议生成的上下文感知IOU引导跟踪器(COMET)[156]以及多任务两流网络。还有一些文献关注于无人机视频的MOT巡逻[149]或移动[117]系统的设计。

6.基于无人机的基准数据集

随着数据驱动的深度学习方法的发展，研究人员为无人机遥感中的目标检测(包括图像和视频)和跟踪开发了各种参考数据集，以帮助进一步的研究和性能比较。在这一部分中，我们回顾了一些最常用的开放和经典的基于无人机的遥感数据集，用于检测和跟踪。

斯坦福无人机数据集[209]：斯坦福无人机数据集是斯坦福大学于2016年公布的大规模目标跟踪数据集。这些视频序列是由一架四轴飞行器上的4k摄像头在真实的校园环境中拍摄的，它在飞行高度约80米的校园各个十字路口上空盘旋。此数据集包含10种对象类型，超过19,000个对象，包括112,000名行人、64,000辆自行车、13,000辆汽车、33,000名滑板运动员、22,000辆高尔夫球车和11,000辆公交车，所有这些对象都可用于多个目标跟踪。虽然这个数据集只有一个大学校园的视频，但数据具有足够的多元性，可以应用于各种场景。

Computational Vision and Geometry Lab

UAV123数据集[207]：UAV123数据集是一个长期的空中目标跟踪数据集，于2016年被阿卜杜拉国王科技大学指定为公开数据集。它包含123个视频序列和超过11万个代表性帧。每个序列的标签信息采用水平边界框(即左上角和右下角)，边界框大小和纵横比与第一帧明显不同。这些视频序列是由三种不同的无人机拍摄的：一架飞行高度为5-25米的离岸专业级无人机(DJIS1000)，一架小型低成本无人机，以及一架无人机模拟器。UAV123数据集具有多种场景、对象及其相应态度的变体，使其更适合深度学习框架。

A Benchmark and Simulator for UAV Tracking (Dataset) | IVUL | Image and Video Understanding Lab

无人机跟踪基准(DTB70)[208]：DTB70数据集包括短期和长期空中目标，于2017年被香港科学与技术大学公开。它包含70个视频序列。其中一些视频序列是由一架DJI Phantom 2 Vision无人机在真实的户外环境中拍摄的，它在飞行高度低于120米的大学校园上空盘旋。其他人是通过YouTube截获的，以增加样本的多样性。每帧包含1280×720，其标签信息采用水平边界框(即左上角和右下角)。

GitHub - flyers/drone-tracking: DTB70 -- A Drone Tracking Benchmark

停车场数据集(CARPK)[198]：CARPK数据集是一个大规模的车辆检测和计数数据集，2017年被台湾大学指定为公开数据集。特别是，它是无人机视图获取的第一个也是最大的停车场数据集，用于计算停放在不同停车场的车辆数量。该数据集是由一架飞行高度为40米的幻影3专业无人机获得的，覆盖了四个不同停车场的近9万辆汽车。CARPK数据集中车辆的最大尺寸远远大于64×64，CARPK数据集中单个场景的最大汽车数为188辆。每辆车的标签信息采用水平边界框(即左上角和右下角)。

Drone-based Object Counting by Spatially Regularized Regional Proposal Networks

Okutama-Action Dataset[206]：Okutama数据集是一个大规模的人体动作检测数据集，2017年被慕尼黑工业大学、瑞典皇家理工学院等五所大学指定为公共数据集。它包含43个视频序列，具有77,365个代表性帧。这些视频序列在45度或90度的摄像角度，使用两架飞行高度为10-45米的无人机捕捉。此外，无人机的位置和方向是灵活多变的，以获得目标的多样化。此数据集涵盖12种动作类型，如阅读、握手、饮酒和携带。录制视频的速度为30帧/秒(Fps)，图像大小为3840×2160。Okutama-Action | Okutama-Action: An Aerial View Video Dataset for Concurrent Human Action Detection

无人机检测与跟踪(UAVDT)数据集[199]：UAVDT数据集是大规模的车辆检测与跟踪数据集，于2018年被中科院大学指定为公开数据集。它包含100个视频序列，8万个代表性帧，大约2700辆汽车和84万个包围盒，涵盖了一系列天气条件、遮挡和飞行高度。此数据集显示了各种常见场景，包括广场、主干道、收费站、高速公路、交叉口和丁字路口。录制视频的速度为30帧/秒(Fps)，图像大小为1080×540像素，可用于车辆检测、单车辆跟踪和多车辆跟踪等多项任务。

DAC-SDC数据集[200]：设计自动化会议(DAC)是由无人机收集的具有挑战性的物体检测数据集，该数据集于2018年被圣母大学指定为公共数据集。它包含95个类别和15万张从不同无人机视角拍摄的图像。每个提取的帧包括640×360像素。https://github.com/xyzxinyizhang/2018-DAC-System-Design-Contest

VisDrone2018数据集[21]：VisDrone2018数据集是一个大规模的视觉目标检测和跟踪数据集，于2018年被天津大学、GE全球研究院和天普大学三所高校指定为公共数据集。它包含263个视频序列，具有179,264个代表性帧和10,209个静态图像。这些视频序列是由各种摄像设备使用多架无人机(即大疆Mavic和幻影系列(3，3A，3SE，3P，4，4A，4P)拍摄的)，它们在中国14个城市上空盘旋。此数据集涵盖多个常见对象，如行人、汽车、自行车和三轮车。每个视频的最大图像大小远远大于2000×1500，可以用于多个任务，特别是目标检测、单目标跟踪和多目标跟踪。在水平边界框中有超过250万个对象及其标签信息。https://github.com/VisDrone/VisDrone-Dataset

VisDrone2019数据集[201]：与VisDrone2018相比，VisDrone2019增加了25个长期跟踪视频序列，共计82644帧，其中12个片段在白天采集，其余在夜间采集。因此，该数据集包含288个视频序列，具有261,908个代表性帧和10,209个静态图像。对于每个目标，标度要小得多，而干扰因子要大得多。https://github.com/VisDrone/VisDrone-Dataset

移动对象识别(MOR-UAV)数据集[119]：MOR-UAV数据集是用于无人机视频中的移动对象识别的大规模视频数据集，该数据集于2020年被马拉维亚国家理工学院斋浦尔指定为公开的。它包含30个视频序列，具有10,948帧的代表性帧，以及大约89,783个运动对象实例，涵盖了各种具有挑战性的场景，如夜间、遮挡、摄像机运动、天气条件、摄像机视图等。MOR-UAV可以作为无人机视频中MOR和运动目标检测(MOD)的基准。视频以每秒30帧的速度录制，图像大小从1280×720到1920×1080像素不等。移动对象使用Yolo-Mark1工具进行标记，并对表示移动车辆的大约10,948帧进行了注释。车辆分为两类：轿车和重型车辆。https://arxiv.org/abs/2008.01699

无人机数据集[202]：无人机数据集是一个大规模的目标检测和计数数据集，其中包含配备摄像头的无人机拍摄的RGB和热红外(RGBT)图像，该数据集于2020年被天津大学指定为公开。它包含15,532对图像，即RGB和红外图像，涵盖了照明、遮挡和比例变化等具有挑战性的场景。无人机数据集可以作为无人机平台上目标检测和计数的基准。该数据集中的图像是从白天到黑夜在不同的城市区域拍摄的，包括城市道路、居民区、停车场、高速公路等。图像大小为840×712像素。https://github.com/VisDrone/DroneVehicle

AU-AIR数据集[203]：多用途航空数据集(AU-AIR)是由配备摄像头的无人机捕获的多模态传感器(即视觉、时间、位置、高度、IMU、速度)的大规模目标探测数据集，该数据集于2020年被奥胡斯大学指定为公共数据集。它包含8个视频序列，32,823个提取的帧，在Skejby Nordlandsvej和P.O Pederensvej(丹麦，奥胡斯)的交叉点，在各种照明和天气条件下的无风天气。该数据集包含8种对象类型，包括人、轿车、公交车、面包车、卡车、自行车、摩托车和拖车，所有这些对象类型都可以用于静态或视频对象检测。每帧包含1920×1080像素。

AU-AIR : Multi-modal UAV Dataset for Low Altitude Traffic Surveillance

BIRDSAI数据集[204]：空中情报监视的基准红外数据集(BIRDSAI)是使用安装在非洲多个保护区的固定翼无人机上的TIR相机收集的具有挑战性的目标探测和跟踪数据集，该数据集于2020年被哈佛大学指定为公共区域。它包含48个不同长度的真实航空TIR视频和124个由AirSim-W生成的合成航空TIR视频。该数据集包含具有比例变化、背景杂乱、相机大旋转和运动模糊等特征的人和动物。每帧包含640×480像素。https://sites.google.com/view/elizabethbondi/dataset

MOHR数据集[205]：基准红外数据集是通过使用DJI Phantom 4Pro、Sonny RX1rM2和Nikon D800三台摄像机在不同高度收集的大规模基准对象检测数据集。该数据集包括3,048幅大小为5482×3078的图像、5,192幅大小为7360×4912的图像和2,390幅大小为8688×5792的图像。它包含90,014个带有标签和边界框的对象实例，其中包括25,575辆汽车、12,957辆卡车、41,468栋建筑、7,718处洪水破坏和2,296处坍塌，涵盖了比例变化的挑战。

UVSD数据集[210]：基于无人机的车辆分割数据集(UVSD)是一个大规模基准对象检测、计数和分割数据集。该数据集包括5874幅图像，其中98600个对象实例具有高质量的实例级语义标注。这些图像是由DJI Matrice 200四轴飞行器与Zenmuse X5s万向架和相机集成在一起拍摄的，图像大小从960×540到5280×2970像素不等。特别是，UVSD有多种格式注释，包括像素级语义、OBB和HBB。https://github.com/liuchunsense/UVSD

7.实验结果与分析

在这一部分中，我们使用四个基准数据集，包括VisDrone、UAVDT、Okutama-Action和Stanford无人机数据集，来说明典型的目标检测和跟踪方法的性能。图9显示了这四个数据集中带注释的图像示例。

图9.从Benchmark数据集中获取的带注释的图像的可视示例。第一、第二和第三行分别代表UAVDT、VisDrone和Okutama-Action数据集。

A.无人机机载图像目标检测方法评价

对于无人机图像中的目标检测，常用的性能指标有平均准确率(AP)和平均召回率(AR)。AP被用作全局度量。更准确地说，AP和AR的值与探测边界框和背景真相框的重叠率超过一定百分比有关。最常用的是 $AP^{IoU=0.50:0.05:0.95}$ ， $AP^{IoU=0.50}$ ， $AP^{IoU=0.75}$ ， $AR^{max=1}$ ， $AR^{max=10}$ ， $AR^{max=100}$ ， $AR^{max=500}$ 。具体地说， $AP^{IoU=0.50:0.05:0.95}$ 表示平均精度(MAP)，即步长为0.05的所有类别的多个交集超过并集(IOU)阈值的平均值，该阈值定义为预测与地面事实之间的几何重叠。所有类别的 $AP^{IoU=0.50}$ 和 $AP^{IoU=0.75}$ 都是在一定的IoU阈值下计算的。 $AP^{s}=AP^{small}$ ， $AP^{m}=AP^{medium}$ ， $AP^{l}=AP^{large}$ 代表不同尺度下的平均精度。 $AR^{max=1}$ ， $AR^{max=10}$ ， $AR^{max=100}$ 以及 $AR^{max=500}$ 是每个图像中检测到的1、10、100和500个对象的最大召回次数。更多详情请参考[21]、[201]。

表5列出了几种最先进的检测方法的定量结果。他们的实验结果分布在不同的无人机目标检测数据集上，大多数只使用 $AP=AP^{IoU=0.50:0.05:0.95}$ 作为唯一的评价标准。公平地说，这些作品的性能是根据它们在特定数据集下的AP值进行比较的。

表5 无人机专用探测网络与经典探测网络的性能比较。最佳表现者用粗体突出显示

Visdrone数据集：此数据集存在严重的样本失衡和小对象之间的遮挡问题。具有域稳健功能的NDFT通过UAVDT将学习到的NDFT传输到VisDrone数据集，在所有比较方法中取得了最好的性能，即VisDrone-Det验证集上的52.77%的AP分数，因为测试集在ICCV2019会议之后已经关闭。这可能是因为NDFT对无人机特有的各种干扰，如飞行高度变化、恶劣天气条件、动态变化的视角等都有很大的鲁棒性。SAMFR采用空间细化模块和感受野扩展块(RFEB)，并行分支的MPFPN以33.72%和29.05%的AP得分位居第二和第三位。

表V显示了VisDrone-DET2019挑战赛中10种基线方法的结果，即FPN[131]、R-FCN[19]、Faster R-CNN(FRCNN)[20]、SSD[24]、Cascade CNN[128]、RetinaNet[130]、CornetNet[211]、RefineNet[212]、DetNet[213]和Light Fast R-CNN(Light-RCNN)[214]。样本严格符合，其中6471个样本用于训练，548个样本用于验证，1580个样本用于测试。对于这些网络的参数，我们在合理的范围内进行调整或直接采用默认值。Corner性能最好，SSD∗性能最差。

UAVDT数据集：UAVDT与VisDrone数据集位置不同，但环境相似，由于其图像收集自各种场景，因此具有更高的复杂性。此外，天气条件会增加单个、多个或重叠小目标检测的难度。在CVPR2020中发表的D2Det与稠密局部回归相结合的方法在所有方法中取得了最好的性能，即在测试集上获得了56.92%的AP得分。具有域稳健功能的NDFT，采用ResNet101的FPN分别以52.03%和49.05%的AP得分位居第二和第三。我们还报告了8个基于DL的基线网络的检测结果，包括R-FCN[19]、Faster R-CNN(FRCNN)[20]、FRCNN加FPN[131]、SSD[24]、Cascade CNN[128]、反 $AR^{max=10}$ 向连接客观先验网络(RON)[130]、ClusDet[215]和DMDet[216]，如表VI所示。其中UAVDT的图像大小为1024×540像素，而样本大小为。网络参数与VisDrone数据集相同。FPN的性能最好，而RON的性能最差。

表VI UAVDT-DET测试装置上的目标检测结果。最佳者用粗体突出显示

B.无人机视频中的目标检测方法评价

对于无人机视频目标检测，评价目标检测方法的常用指标与无人机图像相同，包括 $AP^{IoU=0.50:0.05:0.95}$ 、 $AP^{IoU=0.50}$ 、 $AP^{IoU=0.75}$ 、 $AR^{max=1}$ 、 $AR^{max=10}$ 、 $AR^{max=100}$ 、 $AR^{max=500}$ 。表5列出了一些最先进的和基线检测工作的公开定量结果。其中，有四项工作是无人机遗迹目标检测工作，实验结果主要集中在Visdrone数据集上。TDFA采用双流精化FlowNet(SpyNet)管道，对小规模对象具有健壮性，可在所有比较方法中实现最佳性能，即在VisDrone-VID验证集上获得27.27%的AP得分。分支平行的MPFPN分别以33.72%和29.05%的AP得分位居第二和第三位。

我们还总结了9种基线方法在VisDrone-VID挑战中的结果，包括CFE-SSDv2 [219],FGFA∗ [135], RefineDet [212], [220], RetinaNet [130], detection and tracking (D&T) [173], FPN∗ [131], CornerNet∗[211], CenterNet∗ [129], and Faster R-CNN∗ [20]。实验结果根据三个互不重叠的子集，56个视频序列(24198帧)用于训练集，16个视频序列(6322帧)用于测试，其余的序列用于验证。显然，视频中目标检测的检测性能可以更好地检测图像中的目标，而上下文信息对检测结果的修正起着决定性的作用。此外，小目标是视频目标检测中不可避免的问题。因此，CFE-SSD具有小对象友好性，FGFA采用前后帧信息辅助当前帧，D&T通过感兴趣区域跟踪来关联相邻帧，获得更好的检测性能。

除了VisDrone数据集，还使用了其他一些数据集，如Okutama-Action和UAVDT。与表VIII中的五个基线工作相比，TDFA实验的Okutama-Action数据集获得了最好的检测性能，即在Okutama-Action测试数据集上的AP50值为87.18%。STDnet-ST使用时空ConvNet和STDnet实验的Okutama-Action数据集，对于16×16像素以下的对象，获得了34.60%的AP。

表VIII Okutama-ACTION和UAVDT测试集上的视频对象检测结果。“#vid”是发送到检测器的视频数量。最佳者用粗体突出显示

C.基于无人机视频的目标跟踪评估

对于无人机视频中的目标跟踪，评价目标检测方法的常用方法包括多目标跟踪精度(MOTA)、多目标跟踪精度(MOTP)、识别精度(IDP)、识别F1得分(IDF1)、每帧虚警(FAF)、跟踪最多的目标数(MT，80%以上的轨迹被地面真实覆盖)、丢失最多的目标数(ML，地面真实覆盖的轨迹不到20%)、假阳性数(FP。以及轨迹被分割的次数(FM)。

IDF1分数定义为

其中，IDTP是真阳性ID的数量，IDFP是假阳性ID的数量，IDFN是假阴性ID的数量。此外，一些文献仍然采用检测评估指标，包括 $AP^{IoU=0.50:0.05:0.95}$ ， $AP^{IoU=0.25}$ ， $AP^{IoU=0.50}$ ， $AP^{IoU=0.75}$ 。

表IX-XII总结了几种多目标跟踪方法在具有挑战性的公共无人机数据集上的定量比较。在表IX中，使用10个指标(即MOTA、MOTP、IDF1、FAF、MT、ML、FP、FN、IDS和FM)的平均排名来对这些方法进行排名。TrackletNet Tracker(TNT)以最高的MOTA、IDF1、FP、IDS赢得VisDrone-MOT挑战数据集。我们还在表X中报告了AP中的跟踪器以及不同对象类别(包括AP CAR、AP Bus、AP trk、AP PED和AP VAN)的准确性。PAS跟踪器和Trackingby检测范例取得了最好的性能，即在Visdrone-MOT测试集上获得了50.80%的AP得分。基于SOT的HMTT在VisDroneMOT验证集上获得28.67%的AP分数。除了VisDrone数据集之外，IPGAT通过将对象运动和无人机运动分别估计为单独运动和全局运动，在IDF1、MT、ML和FN方面为表XI和XII中的UAVDT和Stanford无人机测试数据集实现了最佳跟踪性能。

表IX 以MOTA、MOTP等为评价指标，对VISDRONE-MOT测试集无人机专用跟踪网和经典跟踪网的性能进行了比较。最佳者用粗体突出显示

表X 以AP为评价指标，对VISDRONE-MOT测试集无人机专用跟踪网和经典跟踪网的性能进行了比较。最佳者用粗体突出显示。

表XI 以MOTA、MOTP等为评价指标，对斯坦福无人机数据集上的无人机专用跟踪网和经典跟踪网的性能进行了比较。最佳者用粗体突出显示

表XII 以MOTA、MOTP等为评价指标，对无人机专用跟踪网和经典跟踪网在UAVDT数据集上的性能进行了比较。最佳者用粗体突出显示

表IX至XII的其余部分是三个MOT数据集的基线方法的结果。为了便于比较，结果基于更快的RCNN检测输入。对于VisDrone-MOT数据集，总共由79个视频序列组成，其中56个视频序列用于训练集，16个视频序列用于测试，其余的用于验证。在这些设置下，在VisDrone测试数据集中，在IDF1、MT、ML和FN方面，CTrack结合恢复拥挤场景中的长期失踪对象取得了最好的跟踪性能。对于在来自无人机的交通场景中记录的50个序列以下的UAVDT数据集，60%用于训练，40%用于测试。从表XII可以看出，排序优于大多数指标。虽然这些结果与实际应用的要求相去甚远，但它们可以为未来的研究提供可行的方向(如运动对象的关联)和可靠的理论基础。对于Stanford Drone数据集，列出的基线方法的性能差距很小，可能会稍好一些。

D.计算成本的估算

在这次调查中，所有被回顾的方法都有自己的实验环境、实验数据，甚至还有源代码。考虑到计算成本与速度、GPU和主干机型直接相关，我们在表13-15中列出了针对上述三个主题的无人机独占方法的这三个指标。根据NVIDIA的GPU15的计算能力，可以用相应的方法在骨干网中估算计算成本。

表XIII 无人机排他性统计目标检测方法的计算代价

表XIV 基于DL的无人机专属视频对象检测方法的计算代价

XV 基于DL的无人机专属多目标跟踪的计算代价

8.讨论和结论

本文系统地根据三个无人机主题进行分析研究了遥感领域中目标跟踪的深度学习方法，即SOD、VID和MOT。得出的结论如下。

无人机数据：用于目标检测和跟踪的公共无人机机载数据集主要是可见数据，最大图像大小为3840×2160(Visdrone数据集)。只有一个称为车辆数据集的多源数据配备无人机的可见光红外摄像机。在标签术语中，边界框不限于强烈依赖于对方向的稳健性的水平边界框，甚至在例如车辆数据集中具有定向边界框。

DL方法：本综述从三个方面综述了基于DL的无人机目标检测与跟踪方法。一般来说，大多数经典的DL方法，通过附加可用于无人机挑战的额外模块，可以应用于这三个主题。具体地说，考虑到对精度和速度的不同要求，现有的针对无人机的静态目标检测方法主要基于YOLO(如UAV-YOLO、Comnet、SlimYOLOv3、DAGN等)、Faster RCNN(如Dshnet、NDFT、D2det等)和SSD(如FS SSD)。其中，基于YOLO和SSD的方法在速度上具有优势。对于VID和MOT，几乎没有专门针对无人机数据设计的方法。大多数文献仍然是关于自然场景数据的经典方法，如用于VID的Flownet、LSTM和用于MOT的DeepSort、SiamRPN。因此，它们的性能远不尽如人意，例如，VisDrone-VID的最高AP仅为65.2%，VisDrone-MOT的最高AP仅为50.80%。要解决地面目标的交互和跟踪场景的复杂性，还需要进一步的努力。在系统方面，现有的无人机目标检测与跟踪系统主要基于经典的DL方法，在保证速度的同时，精度还有待提高。

计算机平台：本综述中无人机获取的图像/视频主要属于遥感领域。在这个社区，基于DL的方法主要在各种NVIDIA系列图形处理器上进行，如Titan XP，RTX2080Ti，GTX1080Ti等，它们的处理速度大致在0：2fps∼50fps的范围内，不同的图像大小。尽管文献[116]中对该研究进行了综述，但文献[117]使用Raspberry Pi 2小型机进程进行目标检测，速度为11fps，或使用Jetson TX2嵌入式平台进行目标检测，速度为8.5fps，甚至4.5fps[227]，目标跟踪速度为15fps，设计了目标检测与跟踪系统，但缺乏通用性。

目标检测与跟踪是工程实践中的完美结合。有了跟踪辅助，检测变得稳定，没有抖动。同时，还给出了同类物体的精细标签和ID信息。通过对轨迹特征的自动分析和提取，可以显著降低误检率和漏检率。在不久的将来，无人机遥感中的目标检测和跟踪将会有新的发展，新的技术将会出现，以进一步改善这些指标。此外，高效处理海量多源无人机遥感数据也是值得考虑的问题。配备了可见光、红外、热红外、多光谱、高光谱传感器等不同传感器的无人机可以集成多种传感方式，利用它们的互补特性，进一步实现更稳健、更准确的目标跟踪和检测。

Deep Learning for UAV-based Object Detection andTracking: A Survey（论文翻译)相关推荐

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译摘要 1.介绍 2.相关工作 3.Sparse R-CNN ...
ECCV2020 AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling论文翻译
ECCV2020 AABO论文翻译摘要 1.介绍 2.相关工作 3.提出的方法 3.1 初步分析 3.2 anchors的搜索空间优化 3.3 通过子抽样的贝叶斯锚优化 4.实验 4.1数据集,指标 ...
【学习】Deep Learning for Deepfakes Creation and Detection
论文题目:Deep Learning for Deepfakes Creation and Detection 翻译:基于深度学习的Deepfake创建与检测作者: Thanh Thi Nguyen ...
论文复现-《LUCID: A Practical, Lightweight Deep Learning Solution for DDoS Attack Detection》
这篇论文作者在github上有相对详细的指导. 一.搭建环境 1.在linux下安装miniconda,已经做好了. 2.创建一个新的conda环境,命名为python38,基于python3.8以及 ...
论文精度笔记(五)：《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
作者单位:港大, 同济大学, 字节AI Lab, UC伯克利文章目录论文以及源码获取论文题目参考文献 1. 研究背景 2. 贡献 3. 相关工作 3.1 DSConv 3.2 MBConv 3 ...
论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection
论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...
【论文阅读】【三维目标检测】VoteNet：Deep Hough Voting for 3D Object Detection in Point Clouds
文章目录 Hough Voting VoteNet 网络结构 Voting in Point Clouds Object Proposal and Classification from Votes ...
论文解读《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
论文:Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model 基于CNN的目标检测模 ...
AI：《DEEP LEARNING’S DIMINISHING RETURNS—深度学习的收益递减》翻译与解读
AI:<DEEP LEARNING'S DIMINISHING RETURNS-深度学习的收益递减>翻译与解读导读:深度学习的收益递减.麻省理工学院的 Neil Thompson 和他的 ...
Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读
Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读摘要介绍相关工作方法 Dynamic Head 扩展到现存的检 ...

Deep Learning for UAV-based Object Detection andTracking: A Survey（论文翻译)

摘要

1.引言

2.相关调查和简要统计

A.无人机飞机统计数据

B.挑战

C.贡献

3.无人机机载图像中的目标检测

A.数据处理

B.基于尺度多样性的目标检测

C.小目标上的目标检测

D.基于方向分集的目标检测

E.基于检测速度的目标检测

F.基于其他的目标检测

4.无人机载视频中的目标检测

A.基于光流的网络

B.基于记忆网的网络

C.基于跟踪的网络

5.基于无人机视频的多目标跟踪

A.Tracking-by-Detection

B.单目标跟踪辅助多目标跟踪

C.基于记忆网络的多目标跟踪

D.基于其他的多目标跟踪

6.基于无人机的基准数据集

7.实验结果与分析

A.无人机机载图像目标检测方法评价

B.无人机视频中的目标检测方法评价

C.基于无人机视频的目标跟踪评估

D.计算成本的估算

8.讨论和结论

Deep Learning for UAV-based Object Detection andTracking: A Survey（论文翻译)相关推荐

最新文章

热门文章