感知算法论文（十）：Towards Universal Object Detection by Domain Attention（2019）

文章目录

摘要
1. 引言
2. 相关工作
3. 多域目标检测
- 3.1 通用目标检测基准
- 3.2 单域检测器组
- 3.3 自适应多域检测器
- 3.4 SE 适配器
4. 通用目标检测器
- 4.1 通用检测器
- 4.2 Domain-attentive 通用检测器
- 4.3 通用 SE 适配器组
- 4.4 域注意力
5. 实验
- 5.1 数据集和实验验证
- 5.2 单域检测
- 5.3 多域检测
- 5.4 SE 适配器个数的影响
- 5.5 在所有 benchmark 上的结果
- 5.6 最终测试评估
6. 总结

摘要

本文提出了一种高效的通用目标检测系统，能够处理从人脸和交通标志甚至医学图像的各类图像。

不同于多领域模型，本文的通用模型不需要任何该领域的先验知识，而是使用引入一个新的适应层家族来实现的，基于压缩和激励的原理，以及一个新的注意力机制。

在提出的通用检测器中，所有的参数和计算都是跨域共享的，并且一个单一的网络始终处理所有的域。

在11个基准数据集上进行了多组实验，实验表明本文的方法总体由于现有的一组单独的检测器、一组多域检测器和一组基线通用检测器，其参数比单域基准检测器提高了1.3倍。

1. 引言

目前已有很多针对目标检测的方法，但是其通常是基于特定领域的，在单个类型的数据集上进行实验所得的较好的网络。

这可能是由于目标检测数据集是由很大的不一致性的，并且没有合适的域来进行统一转换。

如图1所示，检测任务可以依据类别（人脸、马、医学图像等）、拍摄方向（航拍、直接拍摄等）、图像风格（漫画、剪纸和医学图像）等来划分。

一般情况下，高性能检测器需要专门针对特定目标数据集的检测器。

这给实际应用程序带来了一个重要的问题，实际应用程序通常不局限于图1中的任何一个域，所以就需要一个系统能够检测到不受类别限制的图像的目标。

一个简单的解决方法是针对每个域都设计一个特殊的检测器，即使用从D 个数据集上训练得到的 D 个检测器，并且在每个时间点加载适应于特定域的检测器。

但该方法有些不切实际，原因有两点：

在大多数涉及自治系统的应用程序中，感兴趣的领域可以频繁地更改，而且不一定是预先知道的。
整个模型的大小随着域数D的增加而线性增加

目前主流的方向是通用 AI ，使用一个通用的模型来解决多任务问题，或在多个域中执行相同的任务。

然而，目前的很多方法都是真的图像分类的，流行的目标检测是复杂系统，由 backbone 网络、区域提议、b-box 回归和分类器构成等，故通用的目标检测器有很大的挑战。

本文中，我们考虑设计一个能够在多个领域工作的通用目标检测器设计。

首先，建立一个新的通用对象检测基准，称为 UODB，由11个不同的目标检测数据集构成（图1）。

该基准数据集比多领域识别基准数据集——Decathlon [40] 更具有挑战性。

我们是第一个使用深度学习来研究通用目标检测的，我们预计这个新的基准将在该领域鼓励更多的方法出现。

我们提出了一些结构，如图2所示，以解决通用/多领域检测问题。

图2左边的两个结构是多域检测器，需要目标的先验知识，右边的两个结构是通用检测器，没有先验知识。

对于一个未知的领域，多域检测器需要使用不同领域的特定参数来重复推理过程，而通用检测器仅仅执行一次推理。

图2（a）的检测器是一系列的特定域的检测器，没有参数共享或计算共享，多域学习（Multi-domain learning，MDL）通过多域参数共享来提升这个过程，并且添加了小的特定域的层级。

[40,1] 中，昂贵的卷积层是共享的，并且辅以轻量级特定领域的适应层。

在此基础上，我们提出了一种基于“压缩和激励”机制的新型检测适配器，称为 SE 适配器。

这就导致出现了图2（b）所示的多域检测器，在整个网络中引入特定域的SE适配器来补偿域转移。

UODB 上进行实验，这个检测器的性能优于图2 (a)，参数减少了约5倍。

相反，图2（c）所示的通用检测器的所有域能够共享所有的参数和计算（除过输出层）。

该通用检测器由单个的网络构成，该网络总是被激活的，就参数共享而言，这是最有效的解决方案，但是对于单个模型来说，要覆盖多个具有非平凡域转移的域是很困难的。所以该解决方法没有图2（d）所示的多域检测器效果好。

这利用了一个新的域注意(DA)模块，其中首先添加了一组新的通用SE适配器(始终处于激活状态)，然后引入一个基于特征的注意机制来实现域敏感性。

该模块学习通过通用SE适配器库将网络激活分配到不同的域，并通过域注意机制软化它们的响应，这使适配器能够专门针对各个域。

由于该过程是数据驱动的，所以域的数量不是必须和数据集的数量匹配，而数据集可以跨多个域。这允许网络利用跨域的共享知识，而这在公共单域检测器中是不可用的。我们在新建立的UODB上进行的实验表明，这种数据驱动的参数/计算共享形式比图2中的其余体系结构能够显著提高多域检测性能。

2. 相关工作

目标检测：

目前已有很多单阶段或多阶段的目标检测器，但是没有哪个检测器可以在多于一个类型的数据集或没有微调的情况下仍然保持良好的效果，在前深度学习时代，[23]提出了一种通用的DPM[8]检测器，通过在DPM中添加数据集的特定偏差。但是这种解决方案是有限的，因为DPM不能与深度学习检测器相比较。

多任务学习：

多任务学习（Multi-task learning，MTL）研究了如何同时进行多任务的联合学习。

多域学习/适应：

MDL 学习多域表示，作为先验[20,36]。其将域间共享的参数和特定域的参数进行组合，特定域的参数是自适应参数，从域自适应而来，从原域中学习到的模式是适应于目标域的。

[1]表明，通过简单地向共享网络中添加特定于域的BN层，多域学习是可行的。[40]使用剩余适配器学习多个可视域，而[41]则通过经验研究有效的参数化。但是，由于检测器训练的批量限制，它们建立在BN层之上，不适合检测。相反，我们提出了一个替代的SE适配器，灵感来自“压缩和激励”[15]，以解决这个问题。

注意力机制：

[49] 提出了机器翻译的自注意力机制，[51] 对视频分类提出了一个非局部网络，基于空域注意力机制。[15] 主要研究通道间的关系，引入 SE 模型自适应地重新校准信道特征响应，在图像网络识别中取得了良好的效果。

本文中，我们引入了一个域注意模块，该模块受SE的启发，对网络激励进行数据驱动的领域分配，以解决更具有挑战性的通用对象检测问题。

3. 多域目标检测

3.1 通用目标检测基准

为了训练和评估通用/多领域目标检测系统，我们用11个数据集构建了一个新的通用目标检测基准（Universal Object Detection Benchmark, UODB）：Pascal VOC [6], WiderFace [58], KITTI [9], LISA [33], DOTA [53], COCO [27], Watercolor [17], Clipart [17], Comic [17], Kitchen [10] and DeepLesions [55]。

该数据集包含了流行的 VOC 和 COCO 数据集，由普通的目标物体（自行车、人类、动物等）组成。

20 VOC 数据集类别由三种跨领域的目标组成，包括水彩画、剪纸和动画目标。

Kitchen[10] 由普通的厨房物体组成，是通过手持Kinect采集的。

WiderFace[58]则包含了通过网络采集的人脸。

KITTI 和 LISA 由交通场景组成，源于行车记录仪。KITTI 由车辆、行人和骑自行车的人组成，LISA 是由交通场景组成。

DOTA[53] 是有个检测类型的数据集，由车辆、飞机、船和海港组成，源于航拍。

DeepLesion[55] 是由医学 CT 病变图像组成的，例子见图1，详细介绍见表1。

总之， UODB 覆盖了广泛的类型、拍摄角度、图像类别等，适用于目标检测算法效果的衡量。

3.2 单域检测器组

Faster R-CNN [44] 被作为本文中所有检测器的一个基线结构。

Faster R-CNN 通过两个阶段来实现：

区域提议网络产生了初步的类别未知的检测假设
使用感兴趣的区域检测网络处理这些数据，输出最终的检测结果

如图2（a）所示，最简单的解决多域检测的方法是使用不依赖于每个数据集的检测器，我们使用检测器组作为多域检测基线。

该解决方式很昂贵，因为这就需要给所有的检测器幅值相同的参数。

图3展示了11个检测器的卷积激活后的统计分布（均值和方差），可以得到以下结论：

第一，这些统计结果根据不同的数据集是不同的非平凡解，但 VOC 和 COCO 的激活分布是类似的，DOTA, DeepLesion 和 CrossDomain 的分布有较大的不同。
第二，这些分布根据网络层的不同而变化，前面的层比后面的层有更明显的差异，他们负责校正区域偏移。这倾向于支持输出层。它们负责将图像分配到不同的类别，当然也会有所不同。有趣的是，这种行为也适用于RPN层，即使它们是独立于类别的。
第三，许多层具有跨数据集的类似统计信息。这对于中间层来说尤其如此，这表明它们至少可以由一些域共享。

3.3 自适应多域检测器

受图3的启发，我们提出了一个适应域的检测器，见图2（b）。

该模型中，RPN 层的输出是特定域的，其余的层（所有的卷积层）都是共享的。

然而，为了适应于新的域，我们引入了一些额外的 domain-specific layer，如 MDL 中那样[40,1]。

这些额外的层应该是：

有足够的的能力来应对领域偏移
足够轻量，有最小化的参数和计算量

[40,1] 中的添加的层是依赖于 BN 层的，这实际上在检测上是很难实施的，因为检测任务的训练中允许使用小的 batch size ，故检测中 BN 层是被冻结的。

我们使用如图4（a）所示的 squeeze-and-excitation（SE）模块来代替上述的额外模块。

原因如下：

基于特征的注意力机制广泛的应用于哺乳类视觉的目标识别和场景辨别，所以使用基于特征的注意力机制是很正常的。
SE 是一个模块，用于解释通道之间的相互依赖关系，以调节通道响应。可被看成一个基于特征的注意力机制。
SE 模块被用于 SENet，并且取得了 ImageNet 上最好的分类效果。
本文网络是一个轻量级模块，即使添加到ResNet[14]的每个残差块中，它也只会使总参数计数增加约10%。这与[40]对基于bnb的适配器的报告非常接近。

基于上述原因，我们使用SE模块作为适应单元，用于构建本文提出的所有域自适应检测器，并用SE适配器表示。

3.4 SE 适配器

根据[15]，SE 适配器由图4（a）中所示的原件构成：

全局池化层
全连接层
RELU 层
全连接层

公式化如下：

XSE=FSE(Favg(X))X_{SE}=F_{SE}(F_{avg}(X)) XSE=FSE(Favg(X))

其中：

FavgF_{avg}Favg 是全局平均池化
FSEF_{SE}FSE 是结合了 FC+RELU+FC 的层

通道维数降低因子是 rrr，如图4，该因子被设为16。

为了能够进行多域目标检测，SE 适配器被推广为图4（b）的结构，叫做 SE adapter bank。

该结构是给每个域添加一个 SE adapter 分支和一个域间转换器，允许选择与感兴趣域相关联的SE adapter。

注意到，这个结构假设域的类别是先验已知的，它导致了如2（b）的多域检测器，与图2（a）相比，该模型小了5倍，同时在 11 个数据集上实现了更好的整体性能。

4. 通用目标检测器

前面所说的检测器需要感兴趣目标的先验知识，但这会限制一些系统的效果，例如自动驾驶，其需要确定待解决的问题属于哪个域。

本节中，我们考虑设计通用检测器来解决该问题。

4.1 通用检测器

最简单的通用检测器的设计如图2（c）所示，其在所有的任务上共享单个检测器。

该检测器的输出是特定域的，但我们可以发现使用特定任务的 RPN 层也是有好处的，如图3所示。这不是一个难以解决的问题，因为需要检测的物体类别通常是已知的。

通用性是指检测器处理的输入图像的域，在图2 ©中不需要知道。除了通用性之外，完全共享检测器是最有效的解决方法，因为它没有领域特定的参数。

另一方面，通过在所有域中强制使用相同的参数/表示集，处理图3的统计变化几乎没有灵活性。

在我们的实验中，该检测器的性能通常低于图2 (a)和(b)中的多域检测器

4.2 Domain-attentive 通用检测器

理想情况下，通用检测器需要对域具有敏感性，并且要能够适应不同的域。虽然这与多域检测有很多共同点，但有两个主要区别。

其一，域的类别需要自行推断
其二，无需关联特点的域和任务

例如，图1中的交通任务是一个普通的视觉领域，“交通场景” 下有很多的子领域，如天气条件、环境等，依赖于特定操作环境，任何任务都可以被当做任意一个域来解决。

实际上，这些域可能没有明确的实例，即其可能是基于数据驱动的。这种情况下，不需要要求每个检测器都在单个域中运行，而软域分配更有意义。

考虑到所有这些，虽然仍然可以使用图4 (a)中的SE适配器实现域适应，但是图4 (b)中的硬注意机制(强制网络完全关注单个域)可能不是最优的。为了解决这个限制，我们提出了图5中的域适应(DA)模块。它有两个组件，一个通用SE适配器库和一个域注意机制，这将在接下来进行讨论

4.3 通用 SE 适配器组

通用 SE 适配器组如图5所示，是由类似于图4（b）所示的 SE adapter bank 构成的，其主要的不同在于没有域转换开关，也就是 SE adapter bank 是通用的。这是通过连接各个域适配器的输出来实现的，以形成一个通用表示空间

XUSE=[XSE1,XSE2,...,XSEN]∈RC×NX_{USE}=[X_{SE}^1, X_{SE}^2, ..., X_{SE}^N] \in R^{C\times N}XUSE=[XSE1,XSE2,...,XSEN]∈RC×N

其中，N是适配器个数，XSEiX_{SE}^iXSEi 是每个适配器的输出，如公式（1）所示。

可以注意到，N 并非一定要和待检测任务的个数一致，USE 适配器组可以被看成常用于信号处理的滤波器组的一个非线性泛化。

每个分支（非线性）沿着与特定域的统计信息匹配的子空间投影输入。然后，注意力机制生成一组领域敏感的权重，用于以数据驱动的方式组合这些预测。在这种情况下，不需要预先知道操作域。事实上，可能不是单个的域，因为一个输入图像可以激发多个SE适配器分支。

4.4 域注意力

图5中的注意力组件，产生了一系列对域敏感的权重，将 SE bank 的投影进行组合，受SE 模块启发，域注意力模块首先对输入特征图使用一个全局的池化层，来移除空域维度，之后使用 softmax 层（线性层加 softmax 函数）：

SDA=FDA(X)=softmax(WDAFavg(X))S_{DA}=F_{DA}(X)=softmax(W_{DA}F_{avg}(X))SDA=FDA(X)=softmax(WDAFavg(X))

其中，WDAW_{DA}WDA是 softmax 层的权重矩阵，SDAS_{DA}SDA 之后被用来权衡 USE bank 的输出 XUSEX_{USE}XUSE，来产量一个域激活响应：

XDA=XUSESDA∈RC×1X_{DA}=X_{USE} S_{DA} \in R^{C \times 1}XDA=XUSESDA∈RC×1

和 [15] 中的 SE 模型相同，最后使用 XDAX_{DA}XDA 对适应的激活 X∈RC×H×WX ∈ R^{C×H×W}X∈RC×H×W 进行通道重调：

X^=Fscale(X,σ(XDA))\hat X=F_{scale}(X, \sigma (X_{DA}))X^=Fscale(X,σ(XDA))

其中，Fscale(⋅)F_{scale}(\cdot)Fscale(⋅) 是通道间的乘法，σ\sigmaσ 是 sigmoid 函数

用此方法， USE bank 能够捕捉跨越所有域的特征子空间，DA 机制柔性传递了 USE 投影。

两个操作都是数据驱动的，且没有任何先验知识。

不同于图4（b）的硬性注意力机制，DA 模块能够进行域间信息分享，使得表达更加高效。

实验中，域注意力通用检测器比图2中其他检测器效果都好。

5. 实验

所有的实验都使用 PyTorch 来实现，使用基于SE-RestNet-50 的在 ImageNet上预训练的 Faster R-CNN 网络作为 backbone。

训练：

初始学习率：前 10 个迭代，学习率为 0.01,另外两次迭代变为 0.001，
GPUs：8个同时工作，每个处理2个图像

一个batch的数据来自于同一个dataset，每次迭代时，所有的数据都被进行了一次预处理。

和检测过程相同，训练时，第一层卷积层，第一个残差模块和所有的 BN 层都被冻结。

Faster R-CNN 有很多超参数，原文中的网络是在一个单个域中测试的，是目标数据集，获得了好的效果。

以此来实现对 11 个类别的数据集进行分割有一定的难度，我们使用相同的超参数，除非这对性能非常重要且相对容易，例如选择锚。表1显示了主要的数据集特定超参数。

5.1 数据集和实验验证

我们使用 UODB 基准数据集来进行实验。

对 Watercolor [17], Clipart [17], Comic [17], Kitchen [10] 和 DeepLesion [55]，使用官方的 trainval 来训练，使用 test 来测试。

对 Pascal VOC [6] 在 VOC2007 和 VOC2012 的 trainval 进行训练，在 VOC2007 test 上进行测试。

对 WiderFace [58]，在 train 上训练，在 val 上测试。

对 KITTI[9] ，使用原本的train/val 划分方法，在trainval 上训练，在 test 上测试。

对 LISA[33]，在 train 上训练，在 val 上测试。

对 DOTA[53] ，使用和 [53] 相同的预处理，在train 上训练，在 val 上测试。

对 MS-COCO[27]，在 COCO 2014 valminusminival 上训练，minival 测试。

所有的检测器都是在每个数据集上单独测试，PASCAL VOC mean average precision （mAP）被用于所有情况下的实验评估。

average mAPs 被作为通用/多域检测性能的总体度量。使用各数据集的官方评估工具对领域关注通用检测器进行评估，并与文献进行比较。

5.2 单域检测

表1展示了单域检测器组在图2（a）中所有数据集的测试结果。

基于 SE-ResNet-50 的 VOC baseline 是78.5，比基于 ResNet-101 的Faster R-CNN 的76.4 要好。

表中的其他条目与文献不可比拟，在文献中，不同的评估指标/工具用于不同的数据集。检测器组是多域检测的一个较强基线(平均mAP为59.4)。

5.3 多域检测

表2 对比了多域目标检测性能。

为了简化，本节只使用了五个数据集来进行实验（VOC, KITTI, WiderFace, LISA和 Kitchen）。

多域检测只增加了11M 的参数，比单域检测的效果好 0.7 个点。注意，后者是一个强基线，表明多域检测器可以用一小部分计算击败单独训练的模型。

表2还显示，所提议的SE适配器的性能显著优于[1]的BN适配器(BNA)和先前提议的用于分类的剩余适配器(RA)或[40]。鉴于上面讨论的BN作为对象检测的自适应机制的不足，这并不奇怪。

最后，域注意力通用检测器(“通用+DA”)具有最好的性能。每个域的参数增加约7%，也就是说，与多域检测器相比，它的性能比单域bank基线高出1.6个百分点。

为了评估图5 (b)中数据驱动的域注意机制的重要性，我们在训练和推断期间固定了软域分配，简单地平均SE适配器响应。

这(表示“universal+DA†”)导致性能下降0.5个点。

最后，表2显示了五个数据集上的所有方法在域未知时的相对运行时间。

可以看出，“universal+DA”比多域检测器(“single domain”和“adaptive”)快4倍左右，仅比“universal”慢1.33倍。

5.4 SE 适配器个数的影响

对于图5 (b)的 USE bank，SE适配器的数量N不必与检测任务的数量匹配。

表4总结了域注意力通用检测器的性能和 N 的关系。

为简便起见，我们在本实验中再次使用了5个数据集。

对于一个单适配器，DA模块简化为标准SE模块，域注意力的通用检测器简化为通用检测器。这是最差的表现。适配器数量越多，性能越好。

另一方面，参数的数量与适配器的数量成线性关系。在这些实验中，性能和参数之间的最佳权衡大约是5个适配器。

这表明，虽然一个好的经验法则是使用“与域一样多的适配器”，但是当复杂性较高时，可以使用更少的适配器。

5.5 在所有 benchmark 上的结果

表3呈现了在整个 benchmark 上的结果，参数设置如上，前10个迭代时学习率为0.1，之后的4次迭代学习率为0.01，在8个GPUs上进行实验，每个 GPU 处理2个图像。

通用检测器和单域检测器效果对比，通用检测器参数比单域的少10倍。

域注意力通用检测器（universal+DA）的性能比基准性能提升了 4.4 个点，参数量减少了5倍。

域注意力通用检测器在DeepLesion、Comic和Clipart上有很大的性能提升(>5个点)。这是因为Comic/Clipart包含人口较为稀少的类，可以从其他领域的信息中获益。

考虑到医学CT图像与其他数据集的RGB图像之间的非平凡域转移，DeepLesion的巨大增益是相当有趣的。

VOC、KITTI、Kitchen、WiderFace 和 WaterColor 的涨幅不大(1∼5个点)，COCO、LISA和DOTA的涨幅则为零。

相比之下，对于通用探测器来说，联合训练并不总是有益的。这说明了区域灵敏度对通用检测的重要性。

为了研究图5 (b)中的域注意模块学习了什么，我们在图6中展示了每个数据集的软赋值(在其验证集上取平均值)。

表中仅展示了第四和第五个残差阶段的的第一个和最后一个块。

一些数据集，例如VOC和COCO，具有非常相似的分配分布，这一事实表明存在大量的领域重叠。

另一方面，DOTA 和 DeepLesion 的分布与其余的分布非常不同。

例如，在块“DA_4_1”上，DeepLesion完全占用一个域。这些观察结果与图3一致，表明所提议的DA模块能够学习领域特定的知识。

比较每个剩余阶段的第一个和最后一个块，例如“DA 4 1”和“DA 4 6”，可以发现后者比前者对域的敏感性要低得多，这表明可以使它们具有普遍性。

为了验证这个假设，我们为11个数据集训练了一个只有6个SE适配器的模型，并且只在第一和中间块中，例如“DA 4 1”和“DA 4 3”。

该模型“通用+DA*”比11个适配器的“通用+DA”检测器参数少得多，性能最佳。它比单一领域基准高出4.5个百分点。

5.6 最终测试评估

本文的方法是第一个在 11 个数据集上进行目标检测的方法，没有与已有的方法来进行效果的对比，

因此，我们使用针对每个数据集的官方评估将表3中的“universal+DA*”检测器与文献进行了比较。

这是一个不公平的比较，因为通用检测器必须记住11个任务。

在 VOC 上，我们训练了两个模型，有/没有COCO。结果如表5a所示，其中所有方法均采用Pascal VOC 07+12 trainval进行训练。

注意，我们的 Faster R-CNN基线(SEResNet-50主干)比[14](ResNet- 101)更强。
添加通用域适配器比基线提高了1.1个百分点以上。

添加COCO 能够增加 3.1点。

注意：

这种通用的训练不同于[45]的训练方案(以COCO为训练对象，然后对VOC进行微调的网络)，[45]的训练中，最终的模型只针对VOC进行优化
仅使用COCO2014 valminusminival的35k张图片。

基线是默认的 Faster R-CNN，最初用于VOC，具有最小的数据集特定更改，如表1。

表5e显示，这在KITTI上执行得很弱。但是，添加适配器后，获得6.4个点的提升(中等设置)。这类似于在KITTI上显式优化的检测器，例如MSCNN[2]和F-PointNet[39]。

对于具有足够训练face实例的WiderFace，共享知识的收益更小(见表5b)。另一方面，在DeepLesion和cross - domain (Clipart、Comic和Watercolor)上，分别见表5c和表5d，领域关注通用检测器的性能明显优于目前的技术水平。

总体而言，这些结果表明，在11个数据集上运行的单个检测器，与VOC或KITTI等高度研究的数据集中的单域检测器相比具有竞争力，并且显著优于在较少研究领域中的最新技术。

这是通过相对较小的参数增加实现的，远远小于部署11个单一任务检测器所需的参数。

6. 总结

我们研究了未被探索和具有挑战性的通用/多领域目标检测问题。

我们提出了一种不需要先验领域知识的通用检测器，它由一个活动于所有任务的单一网络组成。

该检测器通过一个新的数据驱动的域自适应模块实现了域敏感性，并在一个新建立的基准测试上表现出优于多个通用/多域检测器，甚至优于针对单个任务优化的单个检测器。