语义分割--(DeepLabv3+)Encoder-Decoder with Atrous Separable Convolution for Semantic ..

y[i]=∑kx[i+r⋅k]w[k]y[i]=\sum_{k}x[i+r·k]w[k]y[i]=k∑x[i+r⋅k]w[k]
其中速率rrr在采样点之间引入r−1r-1r−1个零，有效的将感受野从k×kk×kk×k扩展到ke=k+(k−1)(r−1)k_e=k+(k-1)(r-1)ke=k+(k−1)(r−1)，而不增加参数和计算量。

Depthwise separable convolution：

深度分离卷积在MobileNet里面重点讲过，这里简单说一下：

深度可分离卷积干的活是：把标准卷积分解成深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)。深度卷积对每个通道独立使用空间卷积，逐点卷积用于结合深度卷积的输出。深度分离卷积可以大幅度降低参数量和计算量。

我们将扩张卷积核深度分离卷积结合到一起，即扩张分离卷积。扩张分离卷积能够显著的减少模型的计算复杂度并维持相似的表现。

Modified Aligned Xcetpion

论文受到近期MSRA组在Xception上改进工作可变形卷积(Deformable-ConvNets)启发，Deformable-ConvNets对Xception做了改进，能够进一步提升模型学习能力，新的结构如下：

摘自MSRA COCO Detection & Segmentation Challenge 2017 Entry。

论文进一步改进了MSRA的工作以适应语义分割任务，具体如下：

更深的Xception结构，不同的地方在于不修改entry flow network的结构，为了快速计算和有效的使用内存
所有的最大池化操作替换成带下采样的深度分离卷积，这能够应用扩张分离卷积扩展feature的分辨率
在每个3×33×33×3的深度卷积后增加BN层和ReLU

改进后的Xception整体结构如下：

改进后的Xception为encodet网络主体，替换原本DeepLabv3的ResNet101.

Experiment

论文使用modified aligned Xception改进后的ResNet-101，在ImageNet-1K上做预训练，通过扩张卷积做密集的特征提取。采用DeepLabv3的训练方式(poly学习策略，crop513×513513×513513×513).注意在decoder模块同样包含BN层。

Decoder Design Choise

用DeepLabv3作为encoder，对于fff个k×kk×kk×k的卷积操作记为[k×k,f][k×k,f][k×k,f]，先前DeepLabv3是在输出结果上继续双线性上采样16倍得到预测结果，这在PASCAL VOC2012 验证集上达到了77.21%。论文在此基础上，提出了改进的decoder模块。关于decoder的设计有多个方案：

ResNet-101 as Network Backbone

以ResNet为encoder模型，测试了以下几种变体：

Baseline：在下表的第一组。都没有使用decoder。测试了不同output_strideoutput\_strideoutput_stride，多尺度输入，左右翻转操作。
Adding decoder：下表的第二组。采用的encoder。平均多增加了20B的计算消耗。
Coarser feature maps：测试了使用output_stride=32output\_stride=32output_stride=32，这样计算速度更快。但是相对于output_stride=16output\_stride=16output_stride=16准确率下降了1-2%左右。

可以看到使用多尺度MSMSMS计算量计算量增加一个数量级，使用左右翻转FlipFlipFlip计算量翻倍。

Xception as Network Backbone

ImageNet pretraining：改进后的Xception网络在ImageNet-1K上做了预训练。训练设置如下：

选项	配置
优化器	Nesterov momentum optimizer，momentum = 0.9
学习率	初始学习率0.05,2个epochs衰减0.94
weight_decay	4e-5
硬件	同步使用50 GPUs
batchsize	每个GPU取32
image size	299x299

可以看到Modified Xception性能要好点。

整体的使用Modified Xception做为网络骨架，使用如下几种变体:

Baseline: 不使用decoder.
Adding decoder: 添加了decoder.
Using depthwise separable convolution: 在ASPP和decoder中使用深度分离卷积。计算量下降了30-40%.
Pretraining on COCO: 在MS-COCO数据集上预训练
Pretraining on JFT: 在IamgeNet-1K和JFT-300M上预训练

可以看到使用深度分离卷积可以显著降低计算消耗。

与其他先进模型在VOC12的测试集上对比：

在目标边界上的提升

使用trimap实验测量模型在分割边界的准确度。计算边界周围扩展频带(称为trimap)内的mIoU。结果如下：

与双线性上采样相比，加decoder的有明显的提升。trimap越小效果越明显。

加了decoder的可视化结果如下：

Conclusion

论文提出的DeepLabv3+是encoder-decoder架构，其中encoder架构采用DeepLabv3，decoder采用一个简单却有效的模块用于恢复目标边界细节。并可使用扩张卷积在指定计算资源下控制feature的分辨率。

论文探索了Xception和深度分离卷积在模型上的使用，进一步提高模型的速度和性能。模型在VOC2012上获得了新的state-of-the-art表现。

转载于:https://www.cnblogs.com/yumoye/p/11306195.html