【论文阅读】结合空洞卷积的 FuseNet变体网络高分辨率遥感影像语义分割

一、论文总体框架

首先，采用 FuseNet变体网络将数字地表模型（digital surface model，DSM）图像中包含的高程信息与红绿蓝（red green blue，RGB）图像的颜色信息融合
其次，在编码器和解码器中分别使用空洞卷积来增大卷积核感受野；最后，对遥感影像逐像素分类，输出遥感影像语义分割结果

高分辨率语义分割图像基本分为：

红绿蓝（red green blue，RGB）信息
数字地表模型（digital surface model，DSM）

文中所提及的在对相应图片处理时

分别提取红绿蓝（red green blue，RGB）信息和数字地表模型（digital surface model，DSM）
信息，并将它们融合集成到 SegNet结构中进行语义分割，获得高分辨率的多模态预测 RGB‐DSM数据用于异构数据源的联合学习

参考文献： Sherrah J. Fully Convolutional Networks for Dense Semantic Labelling of High‐Resolution Aerial Imagery［EB/OL］. （2016‐06‐08）［2020‐06‐22］.

https：//www. doc88. com/p-0704858988942. html

二、数据集的使用

采用的数据集：

国际摄影测量与遥感学会（Interna‐tional Society for Photogrammetry and Remote Sensing，ISPRS），

Potsdam、Vaihingen数据集

数据集介绍：

Potsdam

共38张6000*6000像素无人机影像，分辨率为 5 厘米/像素。

数据集中包含三种不同通道:

影像数据
地形数据
标签数据

TOP RGBIR：真实正射影像，红、绿、蓝、红外四通道；
TOP IRRG：真实正射影像，三通道红外、红、绿；
TOP RGB：真实正射影像，红、绿、蓝三通道；
DSM：数字表面模型；
GT：真实标签

标签数据包括：带边界的和不带边界的

链接：https://pan.baidu.com/s/1fYD6GtGVNt2j5ueYH5wirA
提取码：kwaw

（百度网盘数据，由”小了白了兔_白了又了白“CSDN作者提供）

三、构建模型

使用了两个编码器对 RGB和 DSM进行联合编码，首先将编码后的特征图输入到解码器中进行上采样，然后
由分类器进行弱分类，通过 softmax得到最终分割结果

在整个的cat中对DSM的数据进行融合，并采用了两种融合方式

对主数据源和辅助数据源进行一次卷积运算，从而产生一种虚拟模态。将该虚拟模态作为融合数据源之一，
将 DSM分支提取的特征和 RGB分支提取的特征进行融合

对网络的整体把握如下图所示：

四、细节丢失处理

该数据集包含33幅不同大小的遥感图像，每幅图像都是从一个更大的顶层正射影像图片提取的，图像选择的过程避免了出现没有数据的情况。顶层影像和DSM的空间分辨率为9 cm。遥感图像格式为8位TIFF文件，由近红外、红色和绿色3个波段组成。DSM是单波段的TIFF文件，灰度等级（对应于DSM高度）为32位浮点值编码。

反池化操作是根据索引和特征图进行补 0，这种反池化操作将抽象特征转换为几何特征

反池化操作后，卷积块增加稀疏特征图的密度。重复此过程，直到特征图与输入分辨率一致
利用反池化操作，一定程度上缓解了细节丢失问题，使得该基本结构对于分割小目标地物效果也较好
在连接过程中如果空间分辨率不一致，则将输入特征图通过 1×1的卷积核投影成与输出特征图相同的维度

五、测试过程

测试过程说明：

设置初始学习率为 0.01
每隔 5个迭代次数将学习率除以 10直至 0.00001
动量参数为0.9
权重衰减为 0.0005
归一化大小为 10