参考Container: Context Aggregation Network - 云+社区 - 腾讯云

摘要

卷积神经网络(CNNs)在计算机视觉中无处不在，具有无数有效和高效的变化。最近，Container——最初是在自然语言处理中引入的——已经越来越多地应用于计算机视觉。早期的用户继续使用CNN的骨干，最新的网络是端到端无CNN的Transformer解决方案。最近一个令人惊讶的发现表明，一个简单的基于MLP的解决方案，没有任何传统的卷积或Transformer组件，可以产生有效的视觉表示。虽然CNN、Transformer和MLP-Mixers可以被视为完全不同的架构，但我们提供了一个统一的视图，表明它们实际上是在神经网络堆栈中聚合空间上下文的更通用方法的特殊情况。我们提出了Container(上下文聚合网络)，一个用于多头上下文聚合的通用构建块，它可以利用Container的长期交互作用，同时仍然利用局部卷积操作的诱导偏差，导致更快的收敛速度，这经常在CNN中看到。我们的Container架构在ImageNet上使用22M参数实现了82.7%的Top-1精度，比DeiT-Small提高了2.8，并且可以在短短200个时代收敛到79.9%的Top-1精度。比起相比的基于Transformer的方法不能很好地扩展到下游任务依赖较大的输入图像的分辨率,我们高效的网络,名叫CONTAINER-LIGHT,可以使用在目标检测和分割网络如DETR实例,RetinaNet和Mask-RCNN获得令人印象深刻的检测图38.9,43.8,45.1和掩码mAP为41.3，与具有可比较的计算和参数大小的ResNet-50骨干相比，分别提供了6.6、7.3、6.9和6.6 pts的较大改进。与DINO框架下的DeiT相比，我们的方法在自监督学习方面也取得了很好的效果。

1、简介

卷积神经网络(CNNs)已经成为提取视觉表示的事实上的标准，并且在许多下游任务中被证明是非常有效的，比如目标检测[36]、实例分割[22]和图像字幕[1]。同样，在自然语言处理中，Transformers占据主导地位[13,42,41,4]。它们在获取短期和长期信息方面的有效性，已经在诸如回答问题[44]和语言理解[56]等任务上取得了最先进的成果。

在计算机视觉中，Transformers最初被用作跨越空间(例如，在目标检测[5])和时间(例如，在视频理解[59])的远程信息聚合器，但这些方法继续使用CNN[34]来获得原始的视觉表示。然而，最近，使用Transformer模块的无CNN视觉骨架[52,14]在图像分类基准(如ImageNet[33])上显示了令人印象深刻的性能。取代cnn的竞争现在已经开始扩展到变形金刚之外——最近一个意想不到的结果显示，多层感知器(MLP)专用网络[50]在图像分类方面同样有效。

在表面上，CNNs[34, 8, 61, 23]，Vision Transformers(Vision Transformers, ViTs)[14, 52]和MLP-mixers[50]通常被认为是不同的架构。然而，退一步分析这些方法可以发现，它们的核心设计非常相似。这些方法中有许多采用级联神经网络块。每个块通常由聚合模块和融合模块组成。聚合模块通过模块输入的预定义上下文窗口共享和积累信息(例如，Transformer编码器中的自注意操作)，而融合模块结合位置特征并产生模块输出(例如，ResNet中的前馈层)。

在本文中，我们展示了许多流行体系结构的主要差异是由于它们聚合模块的变化造成的。实际上，这些差异可以被描述为聚合器中亲和矩阵的变体，该聚合器用于确定查询向量及其上下文之间的信息传播。例如，在ViTs[14,52]中，该亲和矩阵是使用键和查询计算动态生成的;但是在Xception体系结构[8](采用深度卷积)中，相似矩阵是静态的——相似权值在任何位置都是相同的，并且在所有输入图像中无论大小都是相同的。最后，MLP-Mixer[50]还使用了一个静态亲和矩阵，它会随着输入的变化而变化。

根据这个统一的视图，我们提出了Container(上下文聚合网络)，一个用于多头上下文聚合的通用构建块。 Container块既包含静态亲和性，也包含基于动态亲和性的聚合，它们使用可学习的混合系数进行组合。这使得Container块能够处理远距离信息，同时仍然利用局部卷积操作的归纳偏差。容器块很容易实现，可以很容易地被替换到当今的许多神经结构中，从而产生高性能的网络，同时收敛速度更快，数据效率更高。

我们提出的容器体系结构使用22M参数在ImageNet上获得了82.7%的Top-1精度，比使用相同数量参数的DeiT-S[52]提高了+2.8点。它的收敛速度也更快，仅在200个时代就达到了DeiT-S的79.9%的准确率，而在300个时代。我们还提出了一种更有效的模型，名为CONTAINER-LIGHT，它在早期仅使用静态亲和矩阵，但在计算的后期阶段使用静态和动态相似矩阵的可学习混合。与在处理大量输入时效率低下的vit相比，CONTAINER-LIGHT可以扩展到需要高分辨率输入图像的下游任务，如检测和实例分割。使用CONTAINER-LIGHT主干和12个时代的训练，RetinaNet[36]可以实现43.8 mAP，而Mask-RCNN[22]在box上可以实现45.1 mAP，在实例掩码预测上可以实现41.3 mAP，与ResNet-50主干相比分别提高了+7.3、+6.9和+6.6。最新的DETR及其变体SMCA-DETR和可变形的DETR[5, 19, 70]也受益于CONTAINER-LIGHT，达到38.9,43.0和44.2 mAP，显著优于其ResNet-50骨干baseline。

CONTAINER-LIGHT是数据高效的。我们的实验表明，仅使用10%的训练数据，它就可以获得61.8的ImageNet Top-1精度，明显优于DeiT获得的39.3的精度。与DeiT(69.6)相比，在DINO自我监督训练框架[6]下，CONTAINER-LIGHT收敛速度更快，获得了更好的kNN精度(71.5)

CONTAINER的统一和框架使我们能够轻松地再现几个过去的模型，甚至只需要更改一些代码和参数就可以扩展它们。我们扩展了多个过去的模型并展示了改进的性能——例如，我们生成了一个分层DeiT模型、一个多头MLP-Mixer并向DeiT体系结构添加了一个静态相似矩阵。我们的代码库和模型将公开发布。最后，我们分析了一个包含静态和动态相似的CONTAINER模型，并展示了在网络的早期层中出现的类似卷积的局部相似。

总之，我们的贡献包括:(1)一个流行的视觉输入架构的统一视图- CNN，变压器和mlp混频器。 (2)一种新的网络块- CONTAINER，它通过可学习的参数和相应的结构，混合使用静态和动态的亲和力矩阵，在图像分类中取得了较好的效果。 (3)具有较强检测和分割效果的高效扩展CONTAINER-LIGHT。重要的是，我们看到许多并发工作的目标是融合CNN和Transformer架构[35,62,39,24,53,67,62,46]，验证我们的方法。我们希望我们的统一视图有助于将这些不同的并行建议放在上下文中，并导致对这些方法的更好理解。

2、相关工作

Visual Backbones.

自从AlexNet[33]革命性地改变了计算机视觉，一系列基于CNN的架构在精度方面提供了进一步的改进，包括VGG [45]， ResNet [23]， Inception Net [47]， SENet [28]， ResNeXt[61]和Xception[8]和效率，包括Mobile-net v1 [26]， Mobile-net v2[26]和Efficient-net v2[49]。随着BERT[13]和GPT[42]等Transformers[54]在自然语言处理中的成功，研究者开始将其应用于解决计算机视觉中的远程信息聚集问题。 ViT [14]/DeiT[52]是在ImageNet上比CNN实现更好性能的变压器。最近，一些并发的工作探索了卷积与Transformers的集成，并取得了很好的结果。 ConViT[11]探索了软卷积归纳偏置增强DeiT。 CeiT[64]直接将CNN整合到Transformers的前馈模块中，以增强学习到的特征。 PVT[58]提出了一个金字塔视觉Transformers，以有效地转移到下游任务。然而，纯Transformers模型，如ViT/DeiT，需要大量的GPU内存和计算来检测[58]和分割[68]任务，这需要高分辨率的输入。 MLP- mixer[50]表明，简单地执行换位MLP，然后执行MLP可以获得接近最先进的性能。我们提出了CONTAINER，这是一种新的视觉中枢，它提供了这些不同架构的统一视图，并在多个视觉任务(包括需要高分辨率输入的任务)中表现良好。

Transformer Variants.

原始Transformers无法扩展到长序列或高分辨率的图像由于二次计算的自我注意。几种方法已被提出，使Transformers计算更有效的高分辨率输入。 Reformer[32]、Clusterform[55]、Adaptive Clustering Transformer[68]和非对称聚类[10]提出使用局部敏感性哈希聚类键或查询，并将二次计算减少为线性计算。轻量级卷积[60]探索了替代Transformers的卷积架构，但只探索了在自然语言处理中的应用。 RNN变压器[31]建立了RNN和Transformers之间的连接，结果与线性计算的注意。 Linformer[57]通过删除softmax的归一化层，将键、查询、值的乘法顺序改为查询、值、键，实现线性复杂度。表演者[9]使用正交随机特征来近似满秩softmax注意力。 MLIN[18]执行潜在编码节点之间的交互，其复杂度与输入长度成线性关系。 Bigbird[3]将全秩关注分为局部关注、随机选择关注和全局关注。因此，计算复杂度变成线性的。 Longformer[66]使用本地变压器来解决长序列的大量GPU内存需求问题。 MLP- mixer[50]是一个纯MLP架构的图像识别。在我们提供的统一公式中，MLP-Mixer可以被视为具有静态亲和矩阵权重的单头变压器。 MLP-Mixer可以提供比普通转换器更高效的计算，因为不需要使用键查询乘法计算亲和矩阵。高效的转换器通常使用近似的消息传递，这会导致任务间的性能下降。我们的CONTAINER统一使用混合亲和性矩阵同时执行全局和局部信息交换，而CONTAINER- light关闭动态亲和性矩阵，用于高分辨率特征映射，以减少计算量。尽管关闭动态关联矩阵会略微阻碍分类性能，但与ViT和ResNet等流行的主干相比，CONTAINER-LIGHT仍然为下游任务提供了有效和高效的泛化。

Transformers for Vision.

Transformers支持高度的并行性，并能够捕获输入中的长期依赖关系。因此，Transformers在图像[14,5]、音频[2]、多模态[17,21,20]和语言理解[13]等方面逐渐超过了CNN[34]和RNN[25]等架构。在计算机视觉中，非局部神经网络[59]被提出用于捕获远距离交互，以补偿神经网络捕获的局部信息，用于目标检测[27]和语义分割[16,29,71,65]。但是，这些方法使用Transformers作为细化模块，而不是将Transformers作为一等citizen。 ViT[14]在计算机视觉中引入了第一个纯Transformer模型，并在非公开的JFT数据集上进行了大规模的预训练，从而超越了CNN。 DeiT[52]在ImageNet-1k上从头训练ViT，取得了比CNN更好的性能。 DETR[5]使用Transformer作为编码器和解码器架构来设计第一个端到端目标检测系统。 Taming Transformer[15]使用矢量量化[40]GAN和GPT[42]生成高质量的高分辨率图像。由于DETR在目标检测方面的成功，变形器被广泛应用于语义分割[69]、姿态估计[63]、轨迹估计[38]、3D表示学习以及使用MOCO v3[7]和DINO[6]的自我监督学习等任务。

3、方法

在本节中，我们首先提供目前神经网络中常用的邻域/上下文聚合模块的概括性观点。然后我们回顾了三个主要的架构——transformer [54]， deep - wise Convolution[8]和最近提出的MLP-Mixer[50]，并表明它们是我们一般观点的特殊情况。然后我们在第3.3节介绍了我们的CONTAINER模块，以及它的有效版本——CONTAINER- light在第3.5节。

3.1 Contextual Aggregation for Vision

考虑输入图像，其中C和H×W分别表示输入图像的通道和空间维度。首先将输入图像平坦化为一个令符序列，其中N = HW，输入到网络。视觉网络通常堆叠多个构建块与剩余连接[23]，定义为：

其中，X和Y为考虑的层的输入和输出向量，Wi为可学习参数。F决定如何聚合X中的信息来计算特定位置的特征。我们首先定义一个相似矩阵，它表示上下文聚合的邻域。公式1可改写为:

其中，是X通过线性投影得到的变换。和为可学习参数。是和之间的相似值。将亲和矩阵与V相乘，根据亲和值跨特征传播信息。这种上下文聚合模块的建模能力可以通过引入多个亲和矩阵来提高，允许网络有多条途径通过x获取上下文信息。使为V的切片，其中M为亲和矩阵的个数，也称为头的个数。方程2的多头版本是：

其中为每个head的相似矩阵。不同的可以潜在地捕获特征空间内的不同关系，从而与单头版本相比，增加上下文聚合的表示能力。请注意，在使用关联矩阵进行上下文聚合时，只传播空间信息;在亲和矩阵乘法内不发生跨通道信息交换，也不存在非线性激活函数。

3.2 The Transformer, Depthwise Convolution and MLP-Mixer

Transformer[54]、深度卷积[30]和最近提出的MLP-Mixer[50]是计算机视觉中使用的三个不同的构建块。这里，我们展示了通过定义不同类型的if关联矩阵，它们可以在上面的上下文聚合框架中表示。

Transformer.

在变形金刚的自注意机制中，亲和矩阵是由投影查询键对之间的相似性来建模的。对于M个头，头M中的亲和矩阵可以写成：

其中是对应的键，分别在头m中查询。自注意中的关联矩阵是动态生成的，可以捕获实例级信息。然而，这引入了二次计算，对于高分辨率的特征，需要大量的计算。

Depthwise Convolution.

卷积算子同时融合空间信息和信道信息。这与上面定义的上下文聚合块不同。但是，深度卷积[30]是群卷积的一种极端情况，它执行的是解纠缠卷积。考虑到上下文聚合块的头部数与通道大小C相等，我们可以在给定一维核的情况下定义卷积亲和矩阵：

其中是和是在头m上的相关值。从self-attention获得与亲和矩阵的值为条件的输入功能,卷积的亲和力值是静态的,他们不依赖于输入功能,稀疏,只有涉及到本地连接和共享关联矩阵。

MLP-Mixer

最近提出的MLP-Mixer[50]不依赖于任何卷积或自注意算子。MLP- mixer的核心是MLP的转置运算，可以记为。我们可以把亲和矩阵定义为：

其中表示可学习参数。这个简单的方程表明，转置mlp算子是具有密集亲和矩阵的单个特征组上的上下文聚合算子。相对于自注意和深度卷积，转置- mlp亲和矩阵是静态的，密集的，没有参数共享。以上简单的统一揭示了Transformer、深度卷积和MLP-Mixer之间的异同。每一个构建块都可以通过不同的公式获得不同的亲和矩阵。这一发现引导我们为视觉任务创建了一个强大而有效的构建块——CONTAINER。

3.3 The CONTAINER Block

正如第3.2节中详细介绍的那样，以前的体系结构使用了静态或动态生成的亲和矩阵——每种亲和矩阵都有其独特的优点和特性。我们提出的构建块名为CONTAINER，通过一个可学习的参数将两种类型的亲和矩阵结合起来。单头容器定义为：

A(X)是从X动态生成的，而A是一个静态相似矩阵。现在我们介绍一些CONTAINER块的特殊情况。下式中，L为可学习参数。

•α = 1， β = 0, ：有自我注意的原始Transformer块(表示sa)。

•α = 0， β = 1, M = C,：一个深度卷积块。在深度卷积中，每个通道都有不同的静态亲和矩阵。当时，所得到的块体可视为一个多头深度卷积块(MH-DW)。MH-DW共享内核权值。

•α = 0， β = 1, M = 1, ：一个MLP-Mixer块。当时，我们将模块命名为Multi-head MLP (MH-MLP)。MH-MLP将通道分成M组，并执行独立的换位MLP来捕获不同的静态令牌关系。

•α = L， β = L, , ：该CONTAINER块融合了动态和静态信息，但静态亲和性类似于MLP-Mixer矩阵。我们将此块称为CONTAINER-PAM(注意MLP)。

•α = L， β = L, ：该CONTAINER块融合了动态和静态信息，但静态亲和类似于深度卷积矩阵。该静态亲和矩阵包含一个移动不变的局部约束，使其更适合于视觉任务。这是我们实验中使用的默认配置。

CONTAINER块易于实现，并且可以很容易地交换到现有的神经网络中。上述版本的CONTAINER提供了结果体系结构及其性能的变体，并显示出不同的优点和局限性。CONTAINER块的计算成本与普通Transformer相同，因为静态和动态矩阵是线性组合的。

3.4 The CONTAINER network architecture

现在我们介绍了实验中使用的基本架构。上面解释的过去工作的统一使我们能够轻松地比较自我关注、深度卷积、MLP和CONTAINER块的多种变体，并且我们使用一致的基础架构来执行这些比较。在过去的作品[23,58]中，我们的基础架构包含了4个阶段。与ViT/DeiT将图像降采样到一个较低的分辨率并保持这个分辨率不变相比，我们架构中的每个阶段都将图像分辨率逐渐降采样。逐步降采样可以保留图像的细节，这对于诸如分割和检测等下游任务很重要。这4个阶段中的每个阶段都包含一个块级联。每个块包含两个子模块，第一个子模块用于空间信息聚合(称为空间聚合模块)，第二个子模块用于信道信息融合(称为前馈模块)。本文将信道融合模块固定在[54]中提出的2层MLP上。设计一个更好的空间聚合模块是本文的重点。4个阶段分别包含2、3、8和3个区块。每个阶段都采用块嵌入，将大小为p × p的空间块融合成一个向量。对于这4个阶段，p的值分别为4、4、2、2。阶段内的特征维数保持不变——四个阶段的特征维数分别设置为128、256、320和512。这个基础架构增加了CONTAINER块，其参数大小与DeiT-S[52]类似。

3.5 The CONTAINER-LIGHT network

我们还提出了一个名为CONTAINER- light的有效版本，它使用与CONTAINER相同的基本架构，但在前3个阶段关闭了动态亲和矩阵。在计算的早期阶段缺少大量的计算动态关注，这有助于有效地扩展模型以处理大图像分辨率，并在下游任务(如检测和实例分割)上获得卓越的性能。

α和β是可学习参数。在网络阶段1,2,3,CONTAINER-LIGHT将关闭。

4、实验

我们现在用CONTAINER用于ImageNet，用CONTAINER- light用于目标检测、实例分割和自我监督学习。我们还提出了适当的基线。具体型号、培训和设置请见附件。

4.1 ImageNet Classification

Top-1 Accuracy.

表1比较了CNN、Transformer、MLP、Hybrid和我们提议的CONTAINER系列中的几个高性能模型。CONTAINER和CONTAINER- light优于纯Transformer模型ViT[14]和DeiT[52]，尽管参数少得多。它们的性能优于PVT[58]，而PVT[58]采用了类似于我们的基本架构的分层表示。它们的表现也优于最近发布的最先进的SWIN[39](它们优于拥有更多参数的SWIN -t)。表现最好的模型仍然是来自效率网[48]家族，但我们注意到效率网[48]和RegNet[43]应用了广泛的神经结构搜索，而我们没有。最后要注意的是，CONTAINER-LIGHT不仅实现了很高的精度，而且在较低的FLOPs下实现了这一点，而且比具有同等容量的模型的吞吐量要快得多。CONTAINER框架允许我们轻松地重现过去的架构，但也允许我们在过去的工作(在第3.3节中概述)上创建有效的扩展，表2对其中的一些进行了比较。H-DeiT-S是DeiT-S的分层版本，只需在我们的分层架构中使用Asa即可获得，并提供1.2增益。con -3 (3 × 3核的朴素卷积(conv))聚集空间和通道信息，而Group con -3分割输入特征，并使用不同的核执行conv -它更便宜和更有效。DW-3是一个具有3 × 3内核的深度卷积，它只聚合空间信息。信道信息融合采用1 × 1卷积。MH-DW-3是DW-3的多头版本。MH-DW-3在同一组中共享内核参数。通过更少的内核，MH-DW-3实现了与DW-3相当的性能。MLP是用于空间传播的换位MLP的实现。MLP- lr表示具有低秩分解的MLP。MLP-LR以更少的参数提供更好的性能。MH-MLP-LR在MLP-LR上增加了一个多头机制，并提供了进一步的改进。与原来的MLP-Mixer[50]相比，我们没有像上下文聚合方程中指定的那样在CONTAINER中添加任何像GELU这样的非线性。

Data Efficiency.

CONTAINER-LIGHT有一个内置的位移不变性和参数共享机制。因此，与DeiT[52]相比，它的数据效率更高。表3显示，在10%的低数据条件下，CONTAINER-LIGHT的表现比DeiT高出22.5个百分点。

Convergence Speed.

图1(左)用CNN和Transformer (DeiT)[52]比较了两种CONTAINER的收敛速度。CNN中的归纳偏差使得它比DeiT[52]收敛得更快，但它们最终在300个时代表现得相似，这表明动态的、长期的上下文聚合是强大的，但收敛得很慢。CONTAINER结合了两者的优点，并通过快速收敛来提高精度。容器光收敛速度一样快，精度略有下降。

Emergence of locality.

在我们的CONTAINER框架中，我们可以很容易地向DeiT体系结构添加静态关联矩阵。这个简单的更改(增加一行代码)，可以提供+0.5的Top-1改进，从79.9%提高到80.4%。这表明静态和动态关联矩阵提供了补充信息。如第3.3节所述，我们将其命名为CONTAINER-PAM。将学习到的不同网络层的静态亲和度可视化是一件有趣的事情。图1(右)显示了这两个层。每个矩阵表示单个位置的静态亲缘关系，重新塑造成二维网格，以类似于相邻区域的景观。在第1层中，我们通过增强源像素(位置)附近的亲和值，有趣地观察到局部操作的出现。这些类似于卷积运算。此外，源像素的亲和值非常小，即在每个位置，上下文聚合器不使用其当前的特征。我们假设这是残留连接[23]的结果，因此减轻了在上下文中包含源特性的需要。注意，与动态亲和相比，学习到的静态矩阵对所有输入图像都是共享的。注意，Layer 12显示了一个更全局的亲和矩阵，没有任何特定的可解释的局部模式。

4.2 Detection with RetinaNet

由于CONTAINER-LIGHT的注意复杂度在高图像分辨率(初始层)时是线性的，然后是二次的，因此它可以用于通常需要高分辨率特征图的下游任务，如目标检测。表4比较了用于COCO数据集[37]上的视网膜网络检测器[36]的几个骨干。与流行的ResNet-50[23]相比，CONTAINER-LIGHT实现了43.8 mAP，在具有相同参数和成本的APS、APM和APL上分别提高了7.0、7.2和10.4。通过我们模型中的动态全局亲和矩阵，对大型对象的显著增加显示了全局关注的好处。此外，在PVT-S[58]、ViL-S[67]和swit - t[39]等参数数量相似的大型基于卷积的骨干结构X-101-64[61]和纯Transformer模型中，containter - light也有较大的优势。与大型变压器骨干(如ViL-M[67]和ViL-B[67])相比，我们在显著减少参数和FLOPs的情况下实现了相当的性能。

4.3 Detection and Segmentation with Mask-RCNN

表4还比较了几种使用Mask R-CNN网络[22]进行检测和实例分割的骨干。与视网膜网络[36]的研究结果一样，CONTAINER-LIGHT优于基于卷积和变压器的方法，如ResNet [23]， X-101 [61]， PVT [58]， ViL[67]和最近最先进的swit -t[39]和最近的混合方法BoT[46]。它获得了与更大的ViL-B相当的数字[67]。

4.4 Detection with DETR

表5显示，在使用DETR[5]进行端到端对象检测时，与ResNet-50[23]骨干(可比较的参数和计算量)相比，我们的模型可以持续提高对象检测性能。我们演示了使用DETR[5]、DDETR[70]以及SMCA-DETR[19]的巨大改进。APS、APM和APL编号见附录。

4.5 Self supervised learning

我们使用DINO框架[6]对DeiT[52]和CONTAINER-LIGHT进行了100个时代的视觉表示学习自我监督任务训练。表6比较了两个骨干在不同训练时期的top-10 kNN精度。CONTAINER-LIGHT的表现明显优于DeiT，它有很大的改进，最初演示了更有效的学习。

5 Conclusion

在本文中，我们展示了不同的体系结构，如转换器、深度cnn和基于mlp的方法，通过用于上下文聚合的亲和矩阵紧密相关。利用这个视图，我们提出了CONTAINER，这是一个通用的上下文聚合构建块，它使用可学习的参数结合了静态和动态亲和矩阵。我们所提出的网络，CONTAINER和CONTAINER- light在图像分类、目标检测、实例分割和自我监督表示学习方面表现出优越的性能。我们希望这种统一的观点能够激发未来在设计有效和高效的视觉骨干方面的研究。

限制:CONTAINER在图像分类方面非常有效，但不能直接应用于高分辨率输入。高效版CONTAINER-LIGHT，可用于各种任务。然而，它的局限性在于它是部分手工制作的——动态亲和矩阵在前3个阶段被关闭。未来的工作将解决如何使用手头的任务来学习这一点。

负面社会影响:本研究没有直接的负面社会影响。然而，我们应该意识到，强大的神经网络，特别是图像分类网络可以用于有害的应用，如人脸和性别识别。

Container: Context Aggregation Network相关推荐

【Gated Context Aggregation Network for Image Dehazing and Deraining用于图像去雾和去雨的门控上下文聚合网络】，个人笔记，勿喷
摘要图像去雾旨在从模糊图像中恢复未损坏的内容.我们没有利用传统的低级或手工图像先验作为恢复约束,例如暗通道和增加的对比度,而是提出了一个端到端的门控上下文聚合网络来直接恢复最终的无雾图像.在这个网络 ...
论文阅读：Target Adaptive Context Aggregation for Video Scene Graph Generation
Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合论文地址:https:// ...
膨胀卷积--Multi-scale context aggregation by dilated convolutions
Multi-scale context aggregation by dilated convolutions ICLR 2016 https://arxiv.org/abs/1511.07122 C ...
【Dilated Conv】《Multi-Scale Context Aggregation by Dilated Convolutions》
ICLR-2016 文章目录 1 Background and Motivation 2 Advantages / Contributions 3 Method 3.1 Dilated Convolu ...
Towards Ghost-free Shadow Removal via Dual Hierarchical Aggregation Network and Shadow Matting GAN
Towards Ghost-free Shadow Removal via Dual Hierarchical Aggregation Network and Shadow Matting GAN论文 ...
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection 引入方法网 ...
Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation 信息在神经网络中的传播方式是非常重要的.在本文中,我们提出了PANet(Path Aggregat ...
显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection
Global Context-Aware Progressive Aggregation Network for Salient Object Detection 文章目录 Global Contex ...
深度学习论文: Efficient Multi-order Gated Aggregation Network及其PyTorch实现
深度学习论文: Efficient Multi-order Gated Aggregation Network及其PyTorch实现 Efficient Multi-order Gated Aggre ...

Container: Context Aggregation Network

摘要