用于图像语义分割的GAU与PPM

简单记录一下用于图像语义分割的2个模块

1. GAU(Global Attention Upsample, 全局注意力上采样模块)

全局注意力上采样模块 (GAU)通过全局池化将高层特征作为低层特征的加权计算的指导，提取高层次特征的全局上下文信息。

实现如下所示：

对低层次特征执行3×3的卷积操作，同时减少CNN特征图的通道数；

从高层次特征经过全局平均池化生成的全局上下文信息依次经过 1×1 卷积、批量归一化 (batch normalization) 和非线性变换操作 (nonlinearity)，然后再与低层次特征相乘；

最后，高层次特征与加权后的低层次特征相加并进行逐步的上采样过程；

GAU模块不仅能够更有效地适应不同尺度下的特征映射，还能以简单的方式为低层次的特征映射提供指导信息。

基于keras的代码实现：

# GAU(Global Attention Upsample, 全局注意力上采样模块)
# 低层特征图low_fm进行3*3卷积
# 高层特征图high_fm进行GAP、1*1，再与低层特征图进行相乘操作、批归一化、非线性激活
# 将上述得到的低层特征图与高层特征图进行相加融合
def GAU(low_fm, high_fm, filters):n, h, w, c = low_fm.get_shape().as_list()# 3*3low_fm = Conv2D(filters=filters, kernel_size=3, strides=1, padding='same', use_bias=False, dilation_rate=(1, 1))(low_fm)# GAPhigh_fm_up = GlobalAveragePooling2D()(high_fm)# 1*1high_fm_up = Reshape(target_shape=[1, 1, int(high_fm_up.shape[-1])])(high_fm_up)high_fm_up = tf.image.resize_bilinear(image=high_fm_up, size=[h, w], align_corners=True,name='resize_bilinear')high_fm_up = Conv2D(filters=filters, kernel_size=1, strides=1, padding='same', use_bias=False, dilation_rate=(1, 1))(high_fm_up)# 融合x = Multiply()([low_fm, high_fm_up])x = BatchNormlization()(x)x = Activation('relu')(x)# 输出high_fm = tf.image.resize_bilinear(image=high_fm, size=[h, w], align_corners=True,name='bilinear')out = Add()([x, high_fm])return out

2. PPM(Pyramid pooling module, 金字塔池化模块)

PPM目的是为了聚合不同特征层的上下文信息，以提高网络获取全局信息的能力，在不同的尺度下以保留全局信息使用不同多尺度的pooling操作，比起普通的pooling操作更能保留全局上下文信息；

具体做法为：在原始特征图上使用不同尺度的池化，得到多个不同尺寸的特征图，再在通道维度上拼接这些特征图 (包含原始特征图)，最终输出一个糅合了多种尺度的复合特征图，从而达到兼顾全局语义信息与局部细节信息的目的；

示意图如下所示：

（a）图为单幅原始输入图像；
（b）图为通过CNN提取的原始特征图；CNN模块可以根据需要自行选择，论文中给出的该特征图尺寸为6*6；
（c）图为PPM模块：对（b）特征图进行不同尺度的池化操作，得到多个不同尺寸的特征图，然后对得到的特征图进行上采样操作，恢复至原始特征图大小，最后在通道维度上进行拼接，得到最终的融合了多种尺度的复合特征图；

例如图中为4个不同的池化操作，分别为红、橙、蓝和绿来表示：

红：使用6×6的池化，输出尺寸为1×1，再通过双线性插值上采样至6×6；
橙：使用3×3的池化，输出尺寸为2×2，再通过双线性插值上采样至6×6；
蓝：使用2×2的池化，输出尺寸为3×3，再通过双线性插值上采样至6×6；
绿：使用1×1的池化，输出尺寸为6×6 。

（d）图为最终预测结果，通过1*1卷积调整通道，以实现像素级别的分类。

基于keras的代码实现：

以下代码用于语义分割，其中模型网络使用的是ghostnet作为主干网络实现；

其中的双线性插值上采样可参考GAU模块的代码，以下代码需要根据实际需要进行更改；

# PPM(Pyramid pooling module, 金字塔池化模块)
# bin_size=[]为池化尺寸, 根据需要自行选择
def PPM(inputs, bin_sizes=[5, 9, 13]):n, h, w, c = inputs.get_shape().sa_list()# 1*1降维inputs = Conv2D(filters=c // 4, kernel_size=1, strides=1, padding='same', use_bias=False, dilation_rate=(1, 1))(inputs)inputs = BatchNormlization()(inputs)inputs = Activation('relu')(inputs)concat_list = [inputs]# 池化for bin_size in bin_sizes:x = AvgPool2D(pool_size=[bin_size, bin_size], strides=(1, 1), padding='same')(inputs)concat_list.append(x)net = Concatenate(axis=-1)(concat_list)net = Conv2D(filters=c, kernel_size=1, strides=1, padding='same', use_bias=False, dilation_rate=(1, 1))(net)net = BatchNormlization()(net)net = Activation('relu')(net)return net