卷积、卷积核的维数、尺寸

一、卷积核的维数

1、二维卷积核（2d）

2D卷积操作如图1所示，为了解释的更清楚，分别展示了单通道和多通道的操作。且为了画图方便，假定只有1个filter，即输出图像只有一个chanel。
针对单通道，输入图像的channel为1，即输入大小为(1, height, weight)，卷积核尺寸为 (1, k_h, k_w)，卷积核在输入图像上的的空间维度（即(height, width)两维）上进行进行滑窗操作，每次滑窗和 (k_h, k_w) 窗口内的values进行卷积操作（现在都用相关操作取代），得到输出图像中的一个value。
针对多通道，假定输入图像的channel为3，即输入大小为(3, height, weight)，卷积核尺寸为 (3, k_h, k_w)，卷积核在输入图像上的的空间维度（即(height, width)两维）上进行进行滑窗操作，每次滑窗与3个channels上的 (k_h, k_w) 窗口内的所有的values进行相关操作，得到输出图像中的一个value。

2、三维卷积核（3d）

3D卷积操作如图2所示，同样分为单通道和多通道，且只使用一个filter，输出一个channel。
其中，针对单通道，与2D卷积不同之处在于，输入图像多了一个 depth 维度，故输入大小为(1, depth, height, width)，卷积核也多了一个k_d维度，因此卷积核在输入3D图像的空间维度（height和width维）和depth维度上均进行滑窗操作，每次滑窗与 (k_d, k_h, k_w) 窗口内的values进行相关操作，得到输出3D图像中的一个value。
针对多通道，输入大小为(3, depth, height, width)，则与2D卷积的操作一样，每次滑窗与3个channels上的 (k_d, k_h, k_w) 窗口内的所有values进行相关操作，得到输出3D图像中的一个value。

二、卷积层尺寸的计算原理

输入矩阵格式：四个维度，依次为：样本数、图像高度、图像宽度、图像通道数
输出矩阵格式：与输出矩阵的维度顺序和含义相同，但是后三个维度（图像高度、图像宽度、图像通道数）的尺寸发生变化。
权重矩阵（卷积核）格式：同样是四个维度，但维度的含义与上面两者都不同，为：卷积核高度、卷积核宽度、输入通道数、输出通道数（卷积核个数）
输入矩阵、权重矩阵、输出矩阵这三者之间的相互决定关系
卷积核的输入通道数（in depth）由输入矩阵的通道数所决定。（红色标注）
输出矩阵的通道数（out depth）由卷积核的输出通道数所决定。（绿色标注）
输出矩阵的高度和宽度（height, width）这两个维度的尺寸由输入矩阵、卷积核、扫描方式所共同决定。计算公式如下。（蓝色标注）

注：以下计算演示均省略掉了 Bias ，严格来说其实每个卷积核都还有一个 Bias 参数。

标准卷积计算举例

以 AlexNet 模型的第一个卷积层为例，

输入图片的尺寸统一为 227 x 227 x 3 （高度 x 宽度 x 颜色通道数），

本层一共具有96个卷积核，

每个卷积核的尺寸都是 11 x 11 x 3。

已知 stride = 4， padding = 0，

假设 batch_size = 256，

则输出矩阵的高度/宽度为 (227 - 11) / 4 + 1 = 55

作者：只为此心无垠
链接：https://www.jianshu.com/p/6e1ef63615f8
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。