目录

前言

卷积的作用

卷积的参数

卷积核大小(kernel_size)

填充(padding)

same

valid

full

卷积核算子(operator)

Robert 算子

Prewitt算子

Sobel 算子

Laplance 算子

卷积核深度与个数(depth、filter)

步长(strides)

搭建卷积层


前言

在神经网络中卷积是最常见的操作,通常情况下它应用在神经网络的Input层后面,所以我们多数情况下称这一层为卷积层或隐藏层,这里提一句什么是隐藏层,在神经网络中有输入层和输出层,这两层对于外界是可见的,并且它接收来自外界的输入或输出到外界里去,当然一个完整的神经网络不可能只有输入层和输出层,就以CNN卷积神经网络来说当图像输入到输入层之后会被传递给下一层做特征提取下一层一般是卷积层,随后卷积层会传递给池化层,在由池化层传递给全连接层,这三层对于外界来说是不可见的,它不能直接接收外界的输入或直接输出到外界,所以通常情况下我们称这些为隐藏层,在神经网络中卷积层一般般称为Conv层,例如处理2维数据一般是conv2d,一维数据就叫conv1d、1d是对时序数据做处理而2d是对空间数据做处理,2d具有x、y。

卷积的作用

卷积的作用就是为了将Input的数据做一次特征提取,例如下图有一组衣服的图片:

我们神经网络的目的是为了判断输入目标是上衣还是裤子,或者裙子,那么我们就不需要考虑颜色分量,因为如果只是判断衣服的类型的话可以通过外形判断,那么在输入到全连接层之前可以利用卷积来提取我们想要的数据,过滤掉不需要的数据,这样可以大幅度提升神经网络的准确性以及网络大小,如下图是经过卷积和池化后的一组图片:

可以看到经过卷积和池化后已经将图像的颜色过滤掉了,只保留的轮廓特征,这样的话就过滤掉我们不需要的颜色特征,这样的特征输入到全连接层里会更加符合我们的业务需求。

如果需要判断衣服的品牌那么就需要颜色特征,所以我们就需要对卷积做一次优化,让卷积操作尽可能的去提取到图片里的颜色分量,例如修改卷积核的数量。

卷积的目的就是为了从输入数据中提取我们需要的特征,一般情况下卷积是配合池化层一起使用的,池化层的目的是将卷积提取的特征进行一次筛选,保留最优质的特征,例如如下图片:

从左到右分别是:原图、卷积、池化

卷积的参数

卷积核大小(kernel_size)

卷积核的大小是用来控制卷积在提取时的维度,例如下面动图表示当卷积核大小为3x3:

通过上图可以看到卷积在每次提取数据时都以3*3的维度进行提取,一般卷积核的尺寸是根据padding(填充)方式来决定是奇数还是偶数。

填充(padding)

通常情况下当我们在做卷积操作时最常见的卷积核尺寸是:3 x 3、5 * 5、7 * 7,其实这些数是和padding有关,那什么是padding?

padding是卷积在进行操作时对边缘进行填充的一种方式,例如下图:

上图的蓝色部分代表输入数据,维度是4 x 4,淡绿色是卷积后的数据,卷积核大小是3 x 3,可以明显看到卷积后的维度变成了2 x 2导致了卷积维度与原图像维度不一致了,所以我们需要进行一次填充,padding有两种常用的填充方式:

same

same是尺寸不变的一种卷积方式,它会保证输出维度与输入维度一致,但不是百分百保证,它会在输入数据边缘填充数据,这些数据通常为0,即填充空白数据,以便让卷积输出尺寸与输入尺寸一致,它是根据你的参数来决定的,下图会更直观的表示same的原理:

可以看到输入数据的周围出现了白色的方块,这些方块就是same填充的数据,目的是为了保证卷积时输出尺寸与输入尺寸一致,这也意味着边缘特征会被提取多次,保证了特征的准确性。

同时也可以看到same卷积时锚点在中心位置,只有中心位置与数据重叠交汇时才会进行卷积:

而奇数刚好拥有天然的中心点,所以如果卷积核的大小是偶数,那么就会扩大运算量,使得神经网络变得慢起来。

这也就意味着无论当你的卷积核多大,它最终扩大padding时都会以上面的方式来进行卷积,所以卷积核的大小并不会影响输出尺寸,但受到strides的影响。

下面是它计算输出矩阵大小的C实现:

 case Padding::SAME:*new_height = ceil(in_height / static_cast<float>(row_stride));*new_width = ceil(in_width / static_cast<float>(col_stride));const int pad_needed_height = (*new_height - 1) * row_stride + filter_height - in_height;*pad_top = pad_needed_height / 2;CHECK_GE(pad_needed_height, 0);*pad_bootom = pad_needed_height - *pad_top;const int pad_needed_width = (*new_width - 1) * col_stride + filter_width - in_width;*pad_left = pad_needed_width / 2;CHECK_GE(pad_needed_width, 0);*pad_right = pad_needed_width - *pad_left;break;

现在我们假设输入是5 x 5,卷积核大小为3 x 3,步长为1, 1来解释上面这段代码

最开始的这段代码的作用就是先求出新的高宽,这里是求中心卷积的大小(row_stride、col_stride为高和宽的移动步数,详细在stride章节解释)

*new_height = ceil(in_height / static_cast<float>(row_stride));
*new_width = ceil(in_width / static_cast<float>(col_stride));

代入实数就是:

new_width  = 5 / 1 = 5
new_height  = 5 / 1 = 5

所以这里的new_height和new_width = 5,这里会发现尺寸没有变是因为还没有把卷积核大小带进来

*new_height = ceil(in_height / static_cast<float>(row_stride));
*new_width = ceil(in_width / static_cast<float>(col_stride));

这一段代码会形成这样的卷积矩阵:

然后就是求要扩充上下方向的padding大小,这里会代入卷积核的大小,首先求上下

const int pad_needed_height = (*new_height - 1) * row_stride + filter_height - in_height;
*pad_top = pad_needed_height / 2;
CHECK_GE(pad_needed_height, 0);
*pad_bootom = pad_needed_height - *pad_top;

代入实数就是:

pad_needed_height = (5 - 1) * 1 + 3 - 5 = 2
pad_top = 2 / 2 = 1
pad_bootom = 2 - 1 = 1

所以上下两个方向填充1的padding大小,此时卷积矩阵如下:

然后就是求它的左右两个方向要填充的padding大小

const int pad_needed_width = (*new_width - 1) * col_stride + filter_width - in_width;
*pad_left = pad_needed_width / 2;
CHECK_GE(pad_needed_width, 0);
*pad_right = pad_needed_width - *pad_left;

代入实数计算如下:

pad_needed_width  =  (5 - 1) * 1 + 3 - 5 = 2
pad_left = 2 / 2 = 1
pad_right = 2 - 1 = 1

所以左右方向填充1的padding大小,通过上面的code可以看出来填充的大小和你的卷积核大小是有关联的,卷积核越大,填充的padding就越大,这会导致卷积量也变大,所以合理的选择一个卷积核的大小也是很关键的,这里顺便从代码角度解释一下为什么常用的是奇数,这里把卷积核尺寸换成偶数(3换成4)看下结果:

pad_needed_width  =  (5 - 1) * 1 + 4 - 5 = 3
pad_left = 3 / 2 = 1.5
pad_right = 1.5 - 1 = 0.5

可以看到得到的结果出现了小数点,导致左右两个值不对成了,那么分配的结果也就不对了,不过现代的cnn内置的神经网络算法可以忽略这个问题,只不过内部会进行更多的运算来纠正这个问题,这样就会导致计算量增加,最后矩阵就是下图这样:

以上就是same对左右上下填充的方式,它是先填充上下,在填充左右,这样就保证了高度的一致性,最终从5 x 5变成了7 x 7,边缘扩充的数据都为0,只有中心的5 x 5部位是原始数

上下两个维度填充的数据和原始维度保持一致,左右填充时维度大小和H一致

valid

valid就最好理解了,只有卷积核完全与输入数据交汇时才会进行卷积,这种计算量最少,同时它不会进行填充,所以valid输出的尺寸会变小,同时valid有一个坏处,若输入尺寸不满足卷积核要求,则不会进行卷积,例如输入尺寸是5 x 5,卷积核大小是5 x 5,那么输出大小就是1 x 1,若卷积核大小为10 x 10由于不会边缘填充valid会舍弃卷积,导致输出为0 x 0,提取不到任何特征,同时也会出现丢失信息的情况:例如输入5 x 5,卷积核大小为3 x 3,输出大小为3 x 3,会导致一些不满足卷积条件的数据被舍弃掉,这是因为Vilid的锚点以左上角为锚点,只有左上角与输入数据完全交汇重叠才会进行卷积:

下面是它的输出矩阵的C实现:

case Padding::VALID:*new_height = ceil((in_height - filter_height + 1.f) / static_cast<float>(row_stride));*new_width = ceil((in_width - filter_width + 1.f) / static_cast<float>(col_stride));*pad_top = 0;*pad_bottom = 0;*pad_left = 0;*pad_right = 0;

这里只是计算了一下新的输出尺寸,其公式是:H/Wout = (H/Win - KH/W + 1) / R/Cs

可以看到它并没有进行填充,pad参数一律设置为0

full

full模式一般在神经网络算法里没有实现,这个模式与same类似,都是边缘填充,唯一不同的区别就是卷积时full以右下角为锚点,只有右下角的锚点与输入数据交汇时开始卷积,这也就意味着输出的尺寸可能会更大,并且会进行更多的计算

动图如下:

卷积核算子(operator)

首先看一张图:

通过这个图可以看到每次卷积时都会将卷积到的元素值依次与中间的卷积核算子进行一次加权计算,然后在输入到输出矩阵里:

可以把卷积核算子理解为加权数组,每次卷积的元素都会和卷积核里的元素进行一次相乘并相加输出到输出矩阵里,这么做的目的是为了增强特征,卷积核里的数据也叫卷积算子,它是根据观测输入图像的数据来进行计算的,卷积算子常用的有如下几种:

Robert 算子

Robert算子,又称Roberts边缘检测算子,是一种利用局部差分算子寻找边缘的算子

Prewitt算子

Prewitt算子是一种一阶微分算子的边缘检测,利用像素点上下、左右邻点的灰度差,在边缘处达到极值检测边缘,去掉部分伪边缘,对噪声具有平滑作用

Sobel 算子

Sobel算子是一种常用的边缘检测算法,是一种离散性差分算子,用差分近似代替梯度。对x求1阶差分用来检测竖直边缘,同样的对y求1阶差分用来检测水平边缘,它是对Prewitt算子的一种优化

Laplance 算子

在二阶导数的时候,最大变化处的值为零即边缘是零值,通过二阶导数计算边缘


通过卷积算子提取边缘加权值,来对卷积后的值进行一次加权然后输出到卷积矩阵里,可以说卷积是对提取的特征在进行一次增强来保证提取特征的准确性,尤其是在图像上会更加有效,因为不同的卷积算子可以起到颜色增强、边缘提取的作用,例如上面提到的填充方式,在最初难免会出现提取到0的情况,这样就会导致部分边缘颜色为0,通过算子增强可以弥补这个问题。

卷积核深度与个数(depth、filter)

卷积核深度与输入数据的通道有关,例如一副RGB真彩图的尺寸维度是8 x 8 x 3,分别对应高度、宽度、通道数,其中通道数是与卷积核深度对应的:

通过上图可以看到卷积核是3 x 3的,但是可以看到每组卷积核算子有三层,RGB分别对这三层做一次加权计算,所以卷积在对多通道做深度提取时是这样的:

首先提取R通道与卷积核算子进行运算,这里有一点需要注意,卷积核算子里的值也是通过不同通道的值来取的

那么依次类推G、B也是如此:

这代表卷积每次提取时都是按通道提取的:

卷积核个数代表输出的维度,在上图中我们可以看到卷积核算子有5组,每组有3个卷积核算子,这里的5组就对应了卷积核个数,这里接上图:

通过这张完整的图我们可以看到它在进行卷积之后输出的6 x 6是特征尺寸,输出5组特征尺寸,最后会将这五组特征尺寸输入到一个1 x 1 x 5的向量里,也就意味着无论你的通道是多少,RGB或者RGBA或者灰度图,最总都会变成一个1 x 1的向量维度,卷积核个数越多也就意味着提取的信息就越多,特征就越多,但也意味着卷积层会越大。

步长(strides)

步长是卷积里最容易理解的一个参数,它代表着卷积每次挪移的长度,比如把输入理解成一个格子,移动的格子数就是卷积的步长,下图是一个步数为1的卷积过程:

下图是步长为2的移动动图:

可以看到它的移动格子数是2:

还有一种就是我们通常搭建卷积层的时会看见这样的写法:

keras.layers.Conv2D(18, (3, 3), strides = (2, 2), padding="same")

strides分别有两个整数组成:row_stride、col_stride,分别对应行、高,下图演示一下卷积移动:

首先这是一个卷积核为3x3、步数为row_stride:2, col_stride:3的卷积过程:

第一次卷积

开始移动row_stride(2)

当移动到边缘部分时,需要向下移动

此时则会将col_stride代入计算:

可以看到以顶点为坐标向下移动了两格,row_stride在向右移动时会计算在内,当移动到边缘地方需要向下移动时会将col_stride在代入计算,它们俩不是在一起进行运算的。

通常情况下strides给的是1,这样的赋值是:1, 1(row_stride/col_stride)

keras.layers.Conv2D(18, (3, 3), strides = 1, padding="same")

搭建卷积层

这里用keras作为演示,下列代码演示了使用keras搭建了一个Sequential模型的第一层,卷积层:

格式如下:

输入层:5 x 5 x 1

卷积层:3 x 3 x 8 x 1,pandding:same

import tensorflow as tf
from tensorflow import kerasmodel = keras.Sequential()
model.add(keras.layers.Input(shape = (5, 5, 1)))
model.add(keras.layers.Conv2D(filters = 8, kernel_size = (3, 3), strides = 1, padding = "same"))
model.summary()

输出:

_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
conv2d (Conv2D)              (None, 5, 5, 8)          180
=================================================================

在换一个场景,假设输入层是56 x 56 x 3图像数据,那么我们根据这个输入层来设计我们的卷积层。

1. 首先根据输入是图像数据,所以我们要尽可能的将图像数据保留下来,所以使用same进行填充卷积方式,保证边缘能够被有效的提取到:

padding:same

2. 根据输入是图像56 x 56、那么又得知了padding方式是same,所以我们可以进行一次计算:

代入之前计算same的公式就可以了:

计算3 * 3:

上下为1

(56 - 1) * 1 + 3 - 56) = 2
top = 2 / 2 = 1
pad_bootom = 2 - 1 = 1

左右和上下公式一样,所以这里直接给出得数左右也是填充1行,然后56 x 56变成了58 x 58

然后计算58 x 58 / 3 x 3 = 373.77,所以3 x 3的卷积过程大约需要373次,但是出现了小数,说明这样的padding可能会导致丢失数据

那么计算7 x 7的

(56 - 1) * 1 + 7 - 56) = 6
top = 6 / 2 = 3
pad_bootom = 6 - 3 = 3

左右也是一样,padding大小都为3

然后填充之后大小为62 x 62 (56 x 3 + 56 x 3 + 62 x 3 + 62 x 3)

然后在计算62 x 62 / 7 x 7 = 78.44

7 x 7大约需要78次,但是也出现了小数,虽然卷积次数变少了,但是可能会丢失特征,并不能保证完整的特征性

所以在计算5 x 5:

(56 - 1) * 1 + 5 - 56) = 4
top = 4 / 2 = 2
pad_bootom = 4 - 2 = 2

左右依然一样,都是2组,填充之后的大小就是(上:56 x 2 + 下:56 x 2 + 左60 x 2 + 右 60 x 2) = 60 x 60

然后计算 60 x 60 / 5 x 5 = 144

这次没有了小数,说明5 x 5的卷积核大小可以完整的卷积所有的特征,因此得到卷积核大小为5 x 5

最后filters在处理图像时给8是最合适的,这是许多神经网络开发者在经过无数次调参给出的最合适的处理多通道时特征提取最完美的值,因为filters越多卷积的次数会增加,可能会出现重复特征,会拉跨神经网络造成过拟合的问题,同时yolo里使用的filters也是8

所以最后我们得到下面最适合我们的卷积层:

import tensorflow as tf
from tensorflow import kerasmodel = keras.Sequential()
model.add(keras.layers.Input(shape = (56, 56, 3)))
model.add(keras.layers.Conv2D(filters = 8, kernel_size = (7, 7), strides = (1, 1), padding = "same"))
model.summary()

这些参数都需要自己去代入分析计算,一步一步调整出来,如果想自己调整出来需要明白卷积这些是如何工作的,调出最时候自己当前应用场景的神经网络。

卷积神经网络中卷积的作用与原理相关推荐

  1. 深入学习卷积神经网络中卷积层和池化层的意义(转)

    为什么要使用卷积呢? 在传统的神经网络中,比如多层感知机(MLP),其输入通常是一个特征向量:需要人工设计特征,然后将这些特征计算的值组成特征向量,在过去几十年的经验来看,人工找到的特征并不是怎么好用 ...

  2. 深入学习卷积神经网络中卷积层和池化层的意义

    为什么要使用卷积呢? 在传统的神经网络中,比如多层感知机(MLP),其输入通常是一个特征向量:需要人工设计特征,然后将这些特征计算的值组成特征向量,在过去几十年的经验来看,人工找到的特征并不是怎么好用 ...

  3. 卷积神经网络中卷积层、反卷积层和相关层

    卷积层.反卷积层和相关层三个层之间有很大的相似之处,现在好好分析一下. 1.卷积层 下图较大网格表示一幅图片,有颜色填充的网格表示一个卷积核,卷积核的大小为33.假设我们做步长为1的卷积操作,表示卷积 ...

  4. 卷积神经网络中卷积层、池化层、全连接层的作用

    1. 卷积层的作用 卷积层的作用是提取输入图片中的信息,这些信息被称为图像特征,这些特征是由图像中的每个像素通过组合或者独立的方式所体现,比如图片的纹理特征,颜色特征. 比如下面这张图片,蓝色框框住的 ...

  5. 卷积神经网络中卷积层和池化层的作用

    假如有一幅1000*1000的图像,如果把整幅图像作为向量,则向量的长度为1000000(10610^6106).在假如隐含层神经元的个数和输入一样,也是1000000:那么,输入层到隐含层的参数数据 ...

  6. 对卷积神经网络中卷积层、激活层、池化层、全连接层的理解

    文章目录 卷积神经网络 输入层 卷积层 激励层 池化层 全连接层 卷积神经网络 举一个卷积神经网络识别汽车的例子如下: 其中数据输入的是一张图片(输入层),CONV表示卷积层,RELU表示激励层,PO ...

  7. 卷积神经网络中卷积和池化特征图的维度变化(不能被整除问题)

    在卷积的过程中,卷积核大小kernel_sizekernel\_sizekernel_size,填充PaddingPaddingPadding,步长StrideStrideStride.都会影响卷积输 ...

  8. 卷积神经网络中卷积运算的前向传播与反向传播推导

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  [简书](http://www.jianshu.com/users/7731e83f3a4e/latest_articl ...

  9. 卷积神经网络的一般步骤,卷积神经网络采用卷积

    1.卷积神经网络cnn究竟是怎样一步一步工作的 用一个卷积核滑动图片来提取某种特征(比如某个方向的边),然后激活函数用ReLU来压制梯度弥散.对得到的结果用另一个卷积核继续提取+reLU,然后池化(保 ...

最新文章

  1. 有关于Matlab的regionprops函数的PixelIdxList和PixelList的一点解释
  2. 荣耀的鸿蒙系统是什么样的,核心还是备胎?华为鸿蒙系统究竟怎么样了?
  3. 供销大集长期持有_谁是下一个供销大集?(附股)
  4. 深度学习实战之手写签名识别(100%准确率、语音播报)
  5. 45个python入门案例_给Python小白看的10个使用案例,入门Python就在这里了
  6. linux下命令打开url,在linux命令下访问url
  7. EventBus源码解析 1
  8. 【对话系统】Knowledge-Grounded Dialogue Generation with a Unified Knowledge Representation
  9. 《广西经济社会发展报告(2019)》正式发布 聚焦发展热点
  10. nginx proxy_pass转发规则解析
  11. Golang的一个简单实用的http客户端库httpc
  12. 【学习OpenCV4】OpenCV入门精讲(C++/Python双语教学)
  13. stm32毕业设计 单片机遥控小车
  14. Java面试不通过?这篇文章你看了吗?
  15. c语言基础:getchar()
  16. matlab交叉耦合,交叉耦合滤波器怎么从耦合矩阵得出频率响应
  17. Kubernetes CSI(一):介绍
  18. 使用 Python 创建自己的文档扫描仪
  19. android群英传不完整,Android群英传小总结
  20. 全国省市县无刷新多级联动菜单

热门文章

  1. 计算机组成原理 十套,计算机组成原理十套卷答案白中英(74页)-原创力文档...
  2. 042期正版四字梅花诗:冰清一洁
  3. 屏幕监控软件怎样监控电脑的扩展屏?
  4. Oracle表分区.
  5. oracle reco进程停止,ORA-01089 数据库无法正常关闭
  6. 认知无线电网络架构与协议体系
  7. 一键分享到新浪微博、腾讯微博、搜狐微博、人人网、开心网、百度收藏等js代码大全...
  8. FPGA数字信号处理(十一)ASK解调技术
  9. 国外名校课程视频爆红 网友总结“必杀技”(图)
  10. sum idx i matlab,聚类——FCM的matlab程序