目录

  • 摘要
  • 1.介绍
  • 2.相关工作
  • 3.DenseNets
  • 4.实验
    • 4.1.数据集
    • 4.2.训练
    • 4.3.CIFAR and SVHN的分类结果
    • 4.4.ImageNet的分类结果
  • 5.讨论
  • 6.结论

论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8099726

摘要

  最近的工作表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含更短的连接,则它们可以更深入、更准确、更有效地进行训练。在本文中,我们接受了这一观察并介绍了密集卷积网络(DenseNet),它以前馈方式将每一层连接到其他每一层。具有L层的传统卷积网络有L个连接——每层与其后续层之间有一个连接——而我们的网络有L(L−1)2\frac{L(L-1)}{2}2L(L−1)​个直接连接。对于每一层,所有先前层的特征图用作输入,其自身的特征图用作所有后续层的输入。DenseNets有几个引人注目的优点:它们缓解了梯度消失问题,加强了特征传播,鼓励特征重用,并大大减少了参数的数量。我们在四个竞争激烈的目标识别基准任务(CIFAR-10、CIFAR-100、SVHN和ImageNet)上评估了我们提出的架构。DenseNets获得比大多数最先进的模型的显著改进,同时需要更少的计算来实现高性能。代码和预训练模型可从 https://github.com/liuzhuang13/DenseNet获得。

1.介绍

  卷积神经网络(CNN)已成为视觉对象识别的主要机器学习方法。尽管它们最初是在20多年前推出的[18],但直到最近,计算机硬件和网络结构的改进才使真正深度CNN的训练成为可能。最初的LeNet5[19]由5层组成,VGG有19层[29],仅在去年,Highway Networks[34]和 Residual Networks (ResNets)[11]超过了100层的限制。
  随着CNN变得越来越深,一个新的研究问题出现了:当有关输入或梯度的信息经过许多层时,它可能会在到达网络的末尾(或开头)时消失并“洗掉”。许多最近的作品解决了这个或相关的问题。ResNets[11]和Highway Networks[34]通过identity连接将信号从一层绕过到下一层。随机深度[13]通过在训练期间随机丢弃层来缩短ResNets,以允许更好的信息和梯度流。FractalNets[17]反复组合多个具有不同卷积块数量的并行层序列,以获得较大的标称深度,同时在网络中保持许多短路径。尽管这些不同的方法在网络拓扑和训练过程上有所不同,但它们都有一个关键特征:它们创建了从早期层到后期层的短路径。

  在本文中,我们提出了一种架构,将这种见解提炼为一种简单的连接模式:为了确保网络中各层之间的信息流最大化,我们将所有层(具有匹配的特征图大小)直接相互连接。为了保持前馈性质,每一层从所有前面的层获得额外的输入,并将它自己的特征图传递给所有后续层。图1示意性地说明了这种布局。至关重要的是,与ResNets相比,我们从来没有在将特征传递到层之前通过求和来组合特征;相反,我们通过连接特征来组合特征。因此,“第l\mathcal{l}l层”有l\mathcal{l}l个输入,由所有前面卷积块的特征图组成。它自己的特征图被传递到所有L−lL-\mathcal{l}L−l后续层。这在L层网络中引入了L(L−1)2\frac{L(L-1)}{2}2L(L−1)​个连接,而不仅仅是传统架构中的L。由于其密集的连接模式,我们将我们的方法称为密集卷积网络 (DenseNet)。
  这种密集连接模式的一个可能违反直觉的影响是,它比传统卷积网络需要更少的参数,因为不需要重新学习冗余特征图。传统的前馈架构可以被视为具有状态的算法,该状态在层与层之间传递。每一层从其前一层读取状态并将其写入后续层。它会改变状态,但也会传递需要保留的信息。ResNets[11]通过附加的identity转换使这种信息保存变得明确。ResNets[13]的最新变化表明,许多层贡献很小,实际上可以在训练期间随机丢弃。这使得ResNets的状态类似于(展开的)循环神经网络[21],但ResNets的参数数量要大得多,因为每一层都有自己的权重。我们提出的DenseNet架构明确区分添加到网络的信息和保留的信息。DenseNet层非常窄(例如,每层12个过滤器),只将一小组特征映射添加到网络的“集体知识”中,并保持其余特征映射不变——最终分类器根据网络中的所有特征图作出决定。
  除了更好的参数效率之外,DenseNets的一大优势是改进了整个网络的信息流和梯度,这使得它们易于训练。每一层都可以直接访问来自损失函数和原始输入信号的梯度,从而导致隐式的深度监督[20]。这有助于训练更深的网络架构。此外,我们还观察到密集连接具有正则化效果,这减少了对具有较小训练集大小的任务的过度拟合。
  我们在四个竞争激烈的基准数据集(CIFAR-10、CIFAR-100、SVHN和ImageNet)上评估DenseNets。我们的模型往往需要比具有可比精度的现有算法少得多的参数。此外,我们在大多数基准任务上的表现明显优于当前最先进的结果。

2.相关工作

  自最初发现以来,网络架构的探索一直是神经网络研究的一部分。最近神经网络的重新流行也使这个研究领域重新焕发了活力。现代网络中层数的增加放大了架构之间的差异,并激发了对不同连接模式的探索和对旧研究思想的重新审视。
  在1980年代的神经网络文献中已经研究了类似于我们提出的密集网络布局的级联结构[3]。他们的开创性工作侧重于以逐层方式训练的全连接多层感知器。最近,提出了用批量梯度下降训练的全连接级联网络[40]。尽管对小数据集有效,但这种方法仅适用于具有几百个参数的网络。在[9, 23, 31, 41]中,已发现通过跳过连接在CNN中利用多级特征对各种视觉任务都很有效。与我们的工作并行,[1]为具有类似于我们的跨层连接的网络推导出了一个纯理论框架。
  Highway Network[34]是最早提供一种方法来有效训练具有100多个层的端到端网络的架构之一。使用旁路路径和门控单元,可以毫不费力地优化具有数百层的Highway Network。旁路路径被认为是简化这些非常深网络的训练的关键因素。ResNets[11]进一步支持这一点,其中identity映射用作旁路路径。ResNets在许多具有挑战性的图像识别、定位和检测任务(例如ImageNet和COCO对象检测[11])上取得了令人印象深刻、破纪录的性能。最近,随机深度被提出作为一种成功训练1202层ResNet[13]的方法。随机深度通过在训练期间随机丢弃层来改进深度残差网络的训练。这表明并非所有层都需要,并强调深度(残差)网络中存在大量冗余。我们的论文部分受到了这一观察的启发。具有预激活功能的ResNet还有助于训练具有>1000层的最先进网络[12]。
  使网络更深的正交方法(例如,在跳跃连接的帮助下)是增加网络宽度。GoogLeNet[36, 37]使用“Inception模块”,该模块连接由不同大小的过滤器生成的特征图。在[38]中,提出了一种具有宽泛化残差块的ResNets变体。事实上,只要深度足够,简单地增加每层ResNet中的过滤器数量就可以提高其性能[42]。FractalNets还使用广泛的网络结构在多个数据集上取得了有竞争力的结果[17]。
DenseNets不是从极深或极宽的架构中汲取表征能力,而是通过特征重用来利用网络的潜力,产生易于训练且参数效率高的浓缩模型。连接不同层学习的特征图会增加后续层输入的变化并提高效率。这构成了DenseNets和ResNets之间的主要区别。与也连接来自不同层的特征的Inception网络[36, 37]相比,DenseNets更简单、更高效。
  还有其他显着的网络架构创新已经产生了竞争结果。网络中的网络(NIN)[22]结构将微型多层感知器包含在卷积层的过滤器中以提取更复杂的特征。在深度监督网络(DSN)[20]中,内部层由辅助分类器直接监督,可以增强较早层接收到的梯度。梯形网络[27, 25]将横向连接引入自动编码器,在半监督学习任务上产生令人印象深刻的准确性。在[39]中,提出了深度融合网络(DFN),通过组合不同基础网络的中间层来改善信息流。具有最小化重建损失的路径的网络增强也被证明可以改进图像分类模型[43]。

3.DenseNets

  考虑通过卷积网络的单个图像。该网络由L层组成,每一层都实现了一个非线性变换 (·),其中 代表了层。(·)可以是诸如批量归一化(BN)[14]、整流线性单元(ReLU)[6]、池化[19]或卷积(Conv)等操作的复合函数。我们将第层的输出表示为xlx_\mathcal{l}xl​。
ResNets。传统的卷积前馈网络将第l\mathcal{l}l层的输出作为输入连接到第l+1\mathcal{l}+1l+1层[16],从而产生以下层转换:xl=Hl(xl−1)x_\mathcal{l}=H_\mathcal{l}(x_\mathcal{l}-1)xl​=Hl​(xl​−1)。ResNets[11]添加了一个跳过连接,它绕过了具有恒等函数的非线性变换:

ResNets的一个优点是梯度可以直接通过恒等函数从后面的层流到前面的层。然而,恒等函数和的输出是通过求和组合的,这可能会阻碍网络中的信息流动。

密集连接。为了进一步改善层之间的信息流,我们提出了一种不同的连接模式:我们引入了从任何层到所有后续层的直接连接。图1示意性地说明了生成的DenseNet的布局。因此,第l\mathcal{l}l层接收所有先前层的特征图,[x0,x1,...,xl−1][x_0, x_1, ..., x_{\mathcal{l}-1}][x0​,x1​,...,xl−1​],作为输入:

其中[x0,x1,...,xl−1][x_0, x_1, ..., x_{\mathcal{l}-1}][x0​,x1​,...,xl−1​]指的是层0到xl−1x_{\mathcal{l}-1}xl−1​中产生的特征图的串联。由于其密集的连接性,我们将这种网络架构称为密集卷积网络 (DenseNet)。为了便于实现,我们将等式(2)中 Hl(⋅)H_\mathcal{l}(·)Hl​(⋅)的多个输入串联起来转化为单个张量。
复合功能。受[12]的启发,我们将Hl(⋅)H_\mathcal{l}(·)Hl​(⋅)定义为三个连续操作的复合函数:批量归一化(BN)[14],然后是整流线性单元(ReLU)[6]和3×3卷积(Conv)。
池化层。等式(2)中使用的连接操作,当特征图的大小改变时是不可行的。然而,卷积网络的一个重要部分是改变特征图大小的下采样层。为了在我们的架构中进行下采样,我们将网络划分为多个密集连接的密集块;参见图2。我们将块之间的层称为过渡层,它们进行卷积和池化。我们实验中使用的过渡层由一个批量归一化层和一个1×1卷积层和一个2×2平均池化层组成。
增长率。如果每个函数产生kkk个特征图,那么第层有k0+k×(l−1)k_0+k\times(\mathcal{l}-1)k0​+k×(l−1)个输入特征图,其中k0k_0k0​是输入层中的通道数。DenseNet和现有网络架构之间的一个重要区别是DenseNet可以具有非常窄的层,例如,k=12k=12k=12。我们将超参数k称为网络的增长率。我们在第4节中表明,相对较小的增长率足以在我们测试的数据集上获得最先进的结果。对此的一种解释是,每一层都可以访问其块中的所有先前特征图,因此可以访问网络的“集体知识”。人们可以将特征图视为网络的全局状态。每层都将自己的k个特征图添加到这个状态。增长率调节每一层对全局状态的贡献有多少新信息。全局状态一旦写入,就可以从网络内的任何地方访问,并且与传统网络架构不同,不需要在层与层之间复制它。
瓶颈层。虽然每一层只产生k个输出特征图,但它通常有更多的输入。在[37, 11]中已经注意到,可以在每个3×3卷积之前引入1×1卷积作为瓶颈层,以减少输入特征图的数量,从而提高计算效率。我们发现这种设计对DenseNet特别有效,我们将我们的网络称为具有这样一个瓶颈层的网络,即HlH_\mathcal{l}Hl​的BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)版本,作为 DenseNet-B。在我们的实验中,我们让每个1×1卷积产生4k个特征图。
压缩。为了进一步提高模型的紧凑性,我们可以减少过渡层的特征图的数量。如果一个密集块包含m个特征图,我们让下面的过渡层生成└θm┘\llcornerθm\lrcorner└θm┘输出特征图,其中0 <θ ≤1被称为压缩因子。当θ=1时,跨过渡层的特征图数量保持不变。我们将θ<1的DenseNet称为DenseNet-C,我们在实验中设置θ=0.5。当同时使用θ<1的瓶颈层和过渡层时,我们将我们的模型称为DenseNet-BC。
实施细节。在除ImageNet之外的所有数据集上,我们实验中使用的DenseNet具有三个密集块,每个块都有相同的层数。在进入第一个密集块之前,对输入图像执行具有16个(或 DenseNet-BC增长率的两倍)输出通道的卷积。对于内核大小为3×3的卷积层,输入的每一侧都用一个像素进行零填充,以保持特征图大小固定。我们使用1×1卷积,然后是2×2平均池化作为两个连续密集块之间的过渡层。在最后一个密集块的末尾,执行全局平均池化,然后附加一个softmax分类器。三个密集块中的特征图大小分别为32×32、16×16和8×8。我们使用基本DenseNet结构配置进行实验{L=40, k=12},{L = 100, k = 12}和{L = 100, k = 24}。对于DenseNet-BC,网络的配置{L = 100, k=12},{L=250, k = 24}和{L = 190, k = 40} 被评估。
  在ImageNet上的实验中,我们在224×224输入图像上使用具有4个密集块的DenseNet-BC结构。初始卷积层包括2k个大小为7×7、步幅为2的卷积; 所有其他层中的特征图数量也来自设置k。我们在ImageNet上使用的确切网络配置如表1所示。

4.实验

  我们凭经验证明了DenseNet在几个基准数据集上的有效性,并与最先进的架构进行了比较,特别是与ResNet及其变体。

4.1.数据集

CIFAR。两个CIFAR数据集[15]由32×32像素的彩色自然图像组成。CIFAR-10(C10)由来自10个类别的图像组成,CIFAR-100(C100)来10个类别的图像组成。训练集和测试集分别包含50,000和10,000张图像,我们保留5,000张训练图像作为验证集。我们采用广泛用于这两个数据集的标准数据增强方案(镜像/移位)[11、13、17、22、28、20、32、34]。我们在数据集名称(例如,C10+)的末尾用“+”标记表示这个数据增强方案。对于预处理,我们使用通道均值和标准差对数据进行归一化。对于最终运行,我们使用所有50,000张训练图像并在训练结束时报告最终测试错误。
SVHN。街景房屋号码(SVHN)数据集[24]包含32×32彩色数字图像。训练集中有73,257张图像,测试集中有26,032张图像,还有531,131张用于额外训练的图像。按照惯例[7, 13, 20, 22, 30]我们使用所有训练数据而不进行任何数据增强,并将包含6,000张图像的验证集从训练集中拆分。我们在训练期间选择验证错误最低的模型并报告测试错误。我们遵循[42]并将像素值除以255,使它们在[0, 1]范围。
ImageNet。ILSVRC 2012分类数据集[2]包含120万张用于训练的图像和50,000张用于验证的图像,一共1000种类别。我们采用与[8, 11, 12]中相同的数据增强方案来训练图像,并在测试时应用大小为224×224的单次或10次裁剪。按照[11, 12, 13],我们报告了验证集的分类错误。

4.2.训练

  所有网络都使用随机梯度下降(SGD)进行训练。在CIFAR和SVHN上,我们分别使用批量大小64进行300和400轮训练。初始学习率设置为0.1,并在训练epoch总数的50%和75%处除以10。在ImageNet上,我们训练模型90个epoch,批量大小为256。学习率最初设置为0.1,并在30和60个epoch降低10倍。请注意,DenseNet的幼稚实现可能包含内存效率低下的问题。为了减少GPU上的内存消耗,请参阅我们关于DenseNets[26]内存高效实现的技术报告。
  遵循[8],我们使用的权重衰减和0.9没有阻尼的Nesterov 动量[35]。我们采用[10]引入的权重初始化。对于没有数据增强的三个数据集,即 C10、C100 和 SVHN,我们在每个卷积层(第一个除外)之后添加一个 dropout 层[33],并将 dropout 率设置为 0.2。对于每个任务和模型设置,测试错误仅评估一次。

4.3.CIFAR and SVHN的分类结果

  我们训练具有不同深度L和增长率k的DenseNets。CIFAR和SVHN的主要结果如表2所示。为了突出总体趋势,我们将所有优于现有最新技术的结果用黑体标出,将总体最佳结果标为蓝色。

准确性。可能最明显的趋势可能源自表2的底行,这表明L= 190和k=40的DenseNet-BC在所有CIFAR数据集上始终优于现有的最新技术。它在C10+上的错误率为3.46%,在C100+上为 17.18%,明显低于宽ResNet架构[42]所达到的错误率。我们在C10和C100(没有数据增强)上的最佳结果更加令人鼓舞:两者都比使用drop-path正则化的FractalNet低近30%[17]。在SVHN上,使用dropout,L=100和k=24DenseNet也超过了宽ResNet实现的当前最佳结果。然而,与较短的对应物相比,250层DenseNet-BC并没有进一步提高性能。这可能是因为SVHN是一项相对容易的任务,极深的模型可能会过度拟合训练集。
容量。如果没有压缩或瓶颈层,DenseNets会随着L和k的增加而表现得更好。我们将这主要归因于模型容量的相应增长。C10+和C100+列最好地证明了这一点。在C10+上,随着参数数量从1.0M、超过7.0M增加到27.2M,误差从5.24%下降到4.10%,最终下降到3.74%。在C100+上,我们观察到类似的趋势。这表明DenseNets可以利用更大更深模型的增强表示能力。它还表明它们没有过拟合或残差网络的优化困难[11]。

参数效率。表2中的结果表明DenseNets比替代架构(特别是ResNets)更有效地利用参数。在过渡层具有瓶颈结构和降维的DenseNet-BC参数效率特别高。例如,我们的250层模型只有1530万个参数,但它始终优于其他模型,例如FractalNet和Wide ResNets等参数超过3000万的模型。我们还强调,L=100和k=12的DenseNet-BC实现了与使用90%更少的参数。图4(右图)显示了这两个网络在C10+上的训练损失和测试误差。1001层深度ResNet收敛到较低的训练损失值,但具有类似的测试错误。我们将在下面更详细地分析这种影响。
过拟合。更有效地使用参数的一个积极副作用是DenseNets不太容易过度拟合。我们观察到,在没有数据增强的数据集上,DenseNet 架构相对于先前工作的改进特别明显。在C10上,改进表示错误相对减少了29%,从7.33%到5.19%。在C100上,减少约30%,从28.20%到19.64%。在我们的实验中,我们在单个设置中观察到潜在的过度拟合:在C10上,通过将k =12 增加到k =24产生的参数增长4倍导致误差从5.77%适度增加到5.83%。DenseNet-BC瓶颈和压缩层似乎是应对这一趋势的有效方法。

4.4.ImageNet的分类结果

  我们在ImageNet分类任务上评估具有不同深度和增长率的DenseNet-BC,并将其与最先进的ResNet架构进行比较。为了确保两种架构之间的公平比较,我们通过采用[8]的ResNet公开可用Torch实现来消除所有其他因素,例如数据预处理和优化设置的差异。我们简单地用 DenseNet-BC 网络替换ResNet模型,并保持所有实验设置与用于ResNet的完全相同。

  我们在表3中报告了ImageNet上DenseNets的单次裁剪和10次裁剪验证错误。图3显示了DenseNets和ResNets的单次裁剪top-1验证错误作为参数数量(左)和FLOP(对)。图中显示的结果表明,DenseNets的性能与最先进ResNets相当,同时需要更少的参数和计算来实现可比的性能。例如,具有20M参数的DenseNet-201模型产生与具有超过40M参数的101层ResNet类似的验证错误。从右侧面板可以观察到类似的趋势,该面板将验证误差绘制为FLOP数量的函数:需要与ResNet-50一样多的计算DenseNe与需要两倍的 ResNet-101执行相同计算。

  值得注意的是,我们的实验设置意味着我们使用针对ResNet优化但未针对DenseNet优化的超参数设置。可以想象,更广泛的超参数搜索可能会进一步提高DenseNet在ImageNet上的性能。

5.讨论

  从表面上看,DenseNets与ResNets非常相似:等式(2)与等式(1)的不同之处仅在于(·) 的输入是连接而不是求和的。然而,这种看似很小的修改的含义导致两种网络架构的行为截然不同。
模型紧凑。作为输入连接的直接结果,任何DenseNet层学习的特征图都可以被所有后续层访问。这鼓励在整个网络中重用特征,并导致更紧凑的模型。
  图4中左侧的两个图显示了一个实验的结果,该实验旨在比较DenseNets(左)和可比较的ResNet架构(中)的所有变体的参数效率。我们在C10+上训练多个不同深度的小型网络,并将它们的测试精度绘制为网络参数的函数。与其他流行的网络架构(例如AlexNet[16]或VGG-net[29])相比,具有预激活功能的ResNet使用更少的参数,同时通常会获得更好的结果[12]。因此,我们将DenseNet(k=12)与此架构进行比较。DenseNet的训练设置与上一节保持相同。
  该图显示DenseNet-BC始终是DenseNet参数效率最高的变体。此外,为了达到相同的精度水平,DenseNet-BC只需要ResNets参数的1/3左右(中间图)。这个结果与我们在图3中展示ImageNet上的结果一致。图4中的右图表明,只有0.8M可训练参数的DenseNet-BC能够达到与1001层(预激活)相当的精度具有10.2M参数的ResNet[12]。
隐性深度监督。密集卷积网络精度提高的一种解释可能是单个层通过较短的连接从损失函数中获得额外的监督。人们可以将DenseNets解释为执行一种“深度监督”。深度监督的好处之前已经在深度监督网络(DSN; [20]) 中得到证明,该网络在每个隐藏层都附加了分类器,强制中间层学习判别特征。
DenseNets以隐式方式执行类似的深度监督:网络顶部的单个分类器通过最多两个或三个转换层为所有层提供直接监督。然而,DenseNets的损失函数和梯度要简单得多,因为所有层共享相同的损失函数。
随机与确定性的联系。密集卷积网络和残差网络的随机深度正则化之间存在有趣的联系[13]。在随机深度中,残差网络中的层被随机丢弃,从而在周围层之间创建直接连接。由于池化层永远不会被丢弃,因此网络会产生与DenseNet类似的连接模式:如果所有中间层都被随机丢弃,则同一池化层之间的任何两层直接连接的可能性很小。尽管这些方法最终完全不同,但DenseNet对随机深度的解释可能会提供有关此正则化器成功的见解。

功能重用。根据设计,DenseNets允许层访问来自其所有前面层的特征图(尽管有时通过过渡层)。我们进行了一项实验,以调查训练有素的网络是否利用了这个机会。我们首先在L=40和k=12的C10+上训练DenseNet。对于块内的每个卷积层,我们计算分配给层s连接的平均(绝对)权重。图5显示了所有三个密集块的热图。平均绝对权重用作卷积层对其前一层的依赖性的替代。位置(, s)中的红点表示层平均而言,强烈使用了之前生成的s层的特征图。从图中可以得出几个观察结果:

  1. 所有层将它们的权重分布在同一块内的许多输入上。这表明由非常早的层提取的特征确实直接被整个同一个密集块中的深层使用。
  2. 过渡层的权重也将它们的权重分散到前一个密集块内的所有层,表明信息从DenseNet的第一层到最后一层通过很少的间接传输。
  3. 第二个和第三个密集块内的层一致地为过渡层的输出(三角形的顶行)分配最小的权重,表明过渡层输出了许多冗余特征(平均权重较低)。这与DenseNet-BC的强大结果一致,其中这些输出被压缩。
  4. 虽然最右边显示的最终分类层也使用了整个密集块的权重,但似乎集中在最终特征图上,这表明可能在后期产生了一些更高级的特征网络。

6.结论

我们提出了一种新的卷积网络架构,我们将其称为密集卷积网络(DenseNet)。它在具有相同特征图大小的任何两层之间引入了直接连接。我们展示了DenseNets自然地扩展到数百层,同时没有表现出优化困难。在我们的实验中,DenseNets倾向于随着参数数量的增加而在准确性上持续提高,而没有任何性能下降或过度拟合的迹象。在多种设置下,它在多个竞争激烈的数据集上取得了最先进的结果。此外,DenseNets需要更少的参数和更少的计算来实现最先进的性能。由于我们在研究中采用了针对残差网络优化的超参数设置,因此我们相信可以通过更详细地调整超参数和学习率计划来进一步提高DenseNets的准确性。
  在遵循简单的连接规则的同时,DenseNets自然地集成了identity映射、深度监督和多样化深度的特性。它们允许在整个网络中重用特征,因此可以学习更紧凑,根据我们的实验,更准确的模型。由于其紧凑的内部表示和减少的特征冗余,DenseNets可能是各种基于卷积特征的计算机视觉任务的良好特征提取器,例如[4, 5]。我们计划在未来的工作中使用DenseNets研究这种特征转移。

【翻译】Densely Connected Convolutional Networks相关推荐

  1. 论文翻译-Densely Connected Convolutional Networks

    Densely Connected Convolutional Networks/密集连接卷积网络 摘要: 第一段:denseNet的连接方式和优点 最难研究表明:如果网络中包含接近输入层和接近输出层 ...

  2. 深度学习论文翻译解析Densely Connected Convolutional Networks

    在开始学习之前推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力.FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台.每周免费提供项目开源算法样例,支持 ...

  3. Densely connected convolutional networks(密集连接的卷积网络)

    本文是 CVPR 2017 论文 Densely connected convolutional networks. 的翻译学习,因为作者本人水平有限,如有不准确的地方还望读者不吝赐教. 摘要 最近的 ...

  4. 【图像分类】(DenseNet)Densely Connected Convolutional Networks

    论文名称:Densely Connected Convolutional Networks 论文下载地址:https://arxiv.org/pdf/1608.06993.pdf 论文代码地址:htt ...

  5. 网络模型--Densely Connected Convolutional Networks

    Densely Connected Convolutional Networks CVPR2017 best paper Code: https://github.com/liuzhuang13/De ...

  6. 论文笔记:Densely Connected Convolutional Networks (2017 CVPR)

    [引用格式]:G. Huang, Z. Liu, L. Van Der Maaten and K. Q. Weinberger, "Densely Connected Convolution ...

  7. 【Network Architecture】Densely Connected Convolutional Networks 论文解析

    [Network Architecture]Densely Connected Convolutional Networks 论文解析 目录 0. Paper link 1. Overview 2. ...

  8. 论文笔记:Densely Connected Convolutional Networks(DenseNet模型详解)

    [ 转载自http://www.yyliu.cn/post/7cabb4ff.html ] CVPR 2017上,清华大学的Zhuang Liu.康奈尔大学的Gao Huang和Kilian Q.We ...

  9. Densely Connected Convolutional Networks(论文解读三)

    目录 DenseNet:论文解读 1. Abstract 2. Related work 2.1 通过级联来加深网络 2.2 通过 shortcut 连接来加深网络 2.3 通过加宽网络来使网络更深 ...

  10. 《Densely Connected Convolutional Networks》论文心得

    <Densely Connected Convolutional Networks>论文心得 作者及其所在团队在国内外相关领域所处水平: 黄高:美国康奈尔大学计算机系博士后主要研究领域为深 ...

最新文章

  1. SpringCache与redis集成,优雅的缓存解决方案
  2. java 查询线程_Java多线程查询
  3. BZOJ-1057: [ZJOI2007]棋盘制作(单调栈)
  4. jprofiler_windows-x64_9_1注册码
  5. DedeCMS四类核心表
  6. JS-面向对象--创建具有私有属性的对象(2个方法)
  7. Xamarin.Android开发实践(一)
  8. pluto.ctl_Apache Pluto,Portlet Bridge和JSF 2.0集成示例教程
  9. python樱桃小丸子_appium+python自动化框架搭建
  10. 7-3 组个最小数 (20 分)
  11. BPA仿真软件需要购买吗,BPA电力仿真软件教程
  12. Tableau+财务领域数据分析+应用
  13. 基于遗传算法的TSP算法
  14. 计算机音乐专业学什么软件有哪些内容,电脑音乐入门装备(软件篇)
  15. 去除AuotoCAD学生版水印的办法
  16. 理解t检验的一个简单技巧和手动计算P值
  17. 实用的截屏、录屏、图片识字工具推荐
  18. 有什么方法可以免费查重呢?
  19. docker swarm和docker service
  20. 使用HTML5自制视频控件

热门文章

  1. 不安分的 Go 语言开始入侵 Web 前端领域了!
  2. 高德拉特:约束理论(TOC)和最优生产技术(OPT)相关
  3. AE+c#开发之输出地图(输出当前视图中的地图)
  4. socket.io搭建分布式Web推送服务器
  5. Pytorch 中的数据类型 torch.utils.data.DataLoader 参数详解
  6. 按键精灵大漠插件自动寻路自动打怪代码片段
  7. 网络结构拓扑图(3层交换机)
  8. 二阶常系数非齐次线性微分方程的特征方程的选取技巧
  9. 嵌入式linux使用ros,ARM平台基于嵌入式Linux部署ROS
  10. 如何在线将CAD转成PDF格式