pytroch学习笔记六：nn网络层—

通过前面两节的学习，已经知道如何搭建一个网络模型以及搭建模型一个非常重要的类nn.Module和模型容器Containers。搭建网络模型有两个基本的步骤：建立子模块和拼接子模块。建立的子模块就包括卷积层、池化层、激活层和全连接层等。所以这一节就从子模块开始。

一、卷积运算与卷积层

卷积运算：卷积核在输入信号（图像）上滑动，相应位置进行乘加；
卷积层：又称为滤波器，过滤器，可以认为是某种模式，某种特征。

卷积的过程类似于用一个模版去图像上寻找与它相似的区域，与卷积模式越相似，激活值越高，从而实现特征的提取。

1、1d 2d 3d卷积示意

一般情况下，卷积核在几维上滑动就是几维卷积。
一维卷积示意图

二维卷积示意图

三维卷积示意图

二、卷积的基本属性

卷积核(Kernel)：卷积操作的感受野，直观理解是一个滤波矩阵，普遍使用的卷积核大小为3×3、5×5等；
步长（Stride）：卷积核遍历特征图时每步移动的像素，如步长为1则每次移动1个像素，步长为2则每次移动2个像素（即跳过1个像素），以此类推；
填充（Padding）：处理特征图边界的方式，一般有两种，一种是对边界外完全不填充，只对输入像素执行卷积操作，这样会使输出特征图的尺寸小于输入特征图尺寸；另一种是对边界外进行填充（一般填充为0），再执行卷积操作，这样可使输出特征图的尺寸与输入特征图的尺寸一致；
通道（Channel）：卷积层的通道数（层数）。
如下图是一个卷积核（kernel）为3×3、步长（stride）为1、填充（padding）为1的二维卷积：

三、卷积的计算过程

卷积的计算过程非常简单，当卷积核在输入图像上扫描时，将卷积核与输入图像中对应位置的数值逐个相乘，最后汇总求和，就得到该位置的卷积结果。不断移动卷积核，就可算出各个位置的卷积结果。如下图：

四、卷积的各种类型

1、标准卷积

（1）二维卷积（单通道卷积）

在上面的示意图中已经显示过，表示只有一个通道的卷积。如下图是一个卷积核（kernel）为3×3、步长（stride）为1、填充（padding）为0的卷积：

（2）二维卷积（多通道卷积）

拥有多个通道的卷积，例如处理彩色图像时，分别对R, G, B这3个层处理的3通道卷积，如下图：

再将三个通道的卷积结果进行合并（一般采用元素相加），得到卷积后的结果，如下图：

（3）三维卷积

卷积有三个维度（高度、宽度、通道），沿着输入图像的3个方向进行滑动，最后输出三维的结果，如下图：

（4）1x1卷积（1 x 1 Convolution）

当卷积核尺寸为1x1时的卷积，也即卷积核变成只有一个数字。如下图：

从上图可以看出，1x1卷积的作用在于能有效地减少维度，降低计算的复杂度。1x1卷积在GoogLeNet网络结构中广泛使用。

2、反卷积（转置卷积）

卷积是对输入图像提取出特征（可能尺寸会变小），而所谓的“反卷积”便是进行相反的操作。但这里说是“反卷积”并不严谨，因为并不会完全还原到跟输入图像一样，一般是还原后的尺寸与输入图像一致，主要用于向上采样。从数学计算上看，“反卷积”相当于是将卷积核转换为稀疏矩阵后进行转置计算，因此，也被称为“转置卷积”
如下图，在2x2的输入图像上应用步长为1、边界全0填充的3x3卷积核，进行转置卷积（反卷积）计算，向上采样后输出的图像大小为4x4

nn.ConvTranspose2d: 转置卷积实现上采样

参数和卷积运算的参数差不多。
转置卷积的尺寸计算

3、空洞卷积（膨胀卷积）

为扩大感受野，在卷积核里面的元素之间插入空格来“膨胀”内核，形成“空洞卷积”（或称膨胀卷积），并用膨胀率参数L表示要扩大内核的范围，即在内核元素之间插入L-1个空格。当L=1时，则内核元素之间没有插入空格，变为标准卷积。
如下图为膨胀率L=2的空洞卷积：

空洞卷积就可以理解成一个带孔的卷积核，常用于图像分割任务，主要功能就是提高感受野。也就是输出图像的一个参数，能看到前面图像更大的一个区域。

4、可分离卷积

（1）空间可分离卷积

空间可分离卷积是将卷积核分解为两项独立的核分别进行操作。一个3x3的卷积核分解如下图：

分解后的卷积计算过程如下图，先用3x1的卷积核作横向扫描计算，再用1x3的卷积核作纵向扫描计算，最后得到结果。采用可分离卷积的计算量比标准卷积要少。

（2）深度可分离卷积

深度可分离卷积由两步组成：深度卷积和1x1卷积。
首先，在输入层上应用深度卷积。如下图，使用3个卷积核分别对输入层的3个通道作卷积计算，再堆叠在一起。

再使用1x1的卷积（3个通道）进行计算，得到只有1个通道的结果

重复多次1x1的卷积操作（如下图为128次），则最后便会得到一个深度的卷积结果。

完整的过程如下：

图a表示标准卷积，假设输入的特征图尺寸为Df×Df×M，卷积核尺寸为Dk×Dk×M，输出特征图的尺寸为Df×Df×N，标准卷积层的参数量为Dk×Dk×M×N。

图b表示深度卷积，图c表示分点卷积，两者合起来就是深度可分离卷积，深度卷积负责滤波，尺寸为Dk×Dk×1，共M个，作用在输入的每个通道上；逐点卷积负责转化通道，尺寸为1×1×M，共N个，作用在深度卷积的输出特征映射上。

深度卷积的参数量是Dk×Dk×1×M，逐点卷积的参数量是1×1×M×N，所以深度可分离卷积的参数量是标准卷积参数量比值是：

5、扁平卷积（Flattened convolutions）

扁平卷积是将标准卷积核拆分为3个1x1的卷积核，然后再分别对输入层进行卷积计算。这种方式，跟前面的“空间可分离卷积”类似，如下图：

6、分组卷积（Grouped Convolution）

2012年，AlexNet论文中最先提出来的概念，当时主要为了解决GPU显存不足问题，将卷积分组后放到两个GPU并行执行。
在分组卷积中，卷积核被分成不同的组，每组负责对相应的输入层进行卷积计算，最后再进行合并。如下图，卷积核被分成前后两个组，前半部分的卷积组负责处理前半部分的输入层，后半部分的卷积组负责处理后半部分的输入层，最后将结果合并组合。

第一张图是标准的卷积操作，若输入的特征图的尺寸为H×W×c1，卷积核的尺寸为h1×w1×c1，输出特征图的尺寸为H×W×c2,那么标准卷积层的参数量为h1×w1×c1×c2。

第二张图代表的是分组卷积操作，将输入的特征图按通道数分为g组，则每组特征图的尺寸为H×W×（c1/g）,对应的卷积核的尺寸为h1×w1×（c1/g）,每组输出的特征图尺寸为H×W×（c2/g）,将g组的结果拼接（concat），最终输出的特征图的尺寸为H×W×c2，此时分组卷积层的参数量是：
h1×w1×（c1/g）×（c2/g）×g=h1×w1×c1×c2×（1/g）

由此可看出分组卷积的参数量是标准卷积层的（1/g）

7、混洗分组卷积（Shuffled Grouped Convolution）

在分组卷积中，卷积核被分成多个组后，输入层卷积计算的结果仍按照原先的顺序进行合并组合，这就阻碍了模型在训练期间特征信息在通道组之间流动，同时还削弱了特征表示。而混洗分组卷积，便是将分组卷积后的计算结果混合交叉在一起输出。
如下图，在第一层分组卷积（GConv1）计算后，得到的特征图先进行拆组，再混合交叉，形成新的结果输入到第二层分组卷积（GConv2）中：

五、nn.Conv2d实现二维卷积

功能：对多个二维平面信号进行二维卷积
主要参数：

in_channels: 输入通道数
out_channels: 输出通道数，等价于卷积核个数
kernel_size: 卷积核尺寸，这个代表着卷积核的大小
stride: 步长，是指的卷积核滑动的时候，每一次滑动几个像素
padding: 填充个数，通常用来保持输入和输出图像的一个尺寸的匹配，
dilation: 孔洞卷积大小
groups: 分组卷积设置，分组卷积常用于模型的轻量化
bias：偏置

尺寸计算：

下面来看一下卷积核是怎么提取特征的

set_seed(3)  # 设置随机种子,改变随机权值的初始化# ================================= load img ==================================
path_img = os.path.join(os.path.dirname(os.path.abspath(__file__)), "lena.png")
img = Image.open(path_img).convert('RGB')  # 0~255# convert to tensor
img_transform = transforms.Compose([transforms.ToTensor()])
img_tensor = img_transform(img)
img_tensor.unsqueeze_(dim=0)    # C*H*W to B*C*H*W# ================================= create convolution layer ==================================# ================ 2d
flag = 1
# flag = 0
if flag:conv_layer = nn.Conv2d(3, 1, 3)   # input:(i, o, size) weights:(o, i , h, w)nn.init.xavier_normal_(conv_layer.weight.data)# calculationimg_conv = conv_layer(img_tensor)
# ================================= visualization ==================================
print("卷积前尺寸:{}\n卷积后尺寸:{}".format(img_tensor.shape, img_conv.shape))
img_conv = transform_invert(img_conv[0, 0:1, ...], img_transform)
img_raw = transform_invert(img_tensor.squeeze(), img_transform)
plt.subplot(122).imshow(img_conv, cmap='gray')
plt.subplot(121).imshow(img_raw)
plt.show()

输出结果：

左边是原始图片，右边是经过二维卷积之后的图片，可以看出在色彩鲜艳的地方比较亮。改变随机种子的设置，来改变权值随机初始化值，可以看到不同的卷积权值对图像经过卷积之后的图像，如下：

通过设置不同的随机种子，可以看出不同权重的卷积核代表不同的模式，会关注图像上的不同特征，所以通过设置多个卷积核对图像的特征进行提取，就可以得到不同的特征。

另外卷积之后图像的尺寸大小：

卷积前，图像尺寸是 512✖️512, 卷积后，图像尺寸是 510✖️5510。这里的卷积核设置，输入通道 3，卷积核个数 1，卷积核大小 3，无 padding，步长是 1，根据上面的公式，输出尺寸: （512-3）/1 + 1 = 510

参考文章：
https://my.oschina.net/u/876354/blog/3064227