【学习记录】卷积神经网络常用概念

一、卷积与池化

卷积本身来自于信号处理领域，是一项广泛应用于信号处理的技术，在数学上指的是函数经过反转和平移再次求乘积的积分的过程。

在传统的图像处理中，卷积核一般是人为设定，使用不同的卷积核可以提取出不同的特征，但是卷积核本身是固定的，并没有改进的空间，如果要改进，那么只能是依靠人的数学计算，设计出能够提取出特定特征的卷积核，典型的卷积核有提取边缘的sobel算子等。

而在深度学习领域，卷积核的参数变成了可以修改的，也就是作为待优化参数的一部分，纳入到正向传播反向优化之中。最简单的情况是单通道卷积，输入是一个单通道二维图像，使用卷积核与对应位置计算并拼接，我们将一次卷积得到的输出称为特征图（feature map）。

从图示中可以看出，卷积带来的一个副作用就是输入维度在卷积之后变小了，这个问题主要是由于在卷积计算过程中，边缘的部分不能完全参与计算，如果不加以任何修正，那么一方面多次卷积之后特征图的规模会越来越小，另一方面，这种卷积计算对于边缘的像素是不公平的，明显中间像素参与计算的次数要多于边缘像素，从而会导致边缘信息丢失的问题。

针对这一点，我们使用对边缘补充0的方法来修正，也就是padding，这样子能够让边缘的像素也能公平地进行卷积运算，一般来说当padding取p时，输入的维度就会变成(W+2P,H+2P)，值得一提的是，这里补充的0，主要还是为了让边缘像素也能够作为中心和卷积核参与一次运算，所以维度变化的时候会加2P。为了让卷积之后的特征图输入的长和宽保持一致，对于长宽为k的卷积核，一般取padding为k/2向下取整，这样让输入的形状与输出的长宽保持一致。

输出的特征图有时候还需要考虑移动的方法，也就是步长stride，它表示每个几个位置计算一次。

在单通道卷积的基础上，又延伸出了多通道卷积，二者本身是一样的，只不过卷积核和输入都需要考虑一个深度问题，输入层和卷积核必须要有相同的深度，而在移动的过程中依然是保持两个方向的移动，得到的结果最后被压缩到一维，依然符合层数只与卷积核数量有关的规律。

可以看到，这个过程虽然是多通道的，但是其本质还是2D的卷积过程，卷积核的每一层和输入的每一层对应位置做运算，之后多层的计算结果累加在一起成为一层的输出。但是对于整体而言，依然是一个卷积核产生了一层的输出，如果要想对多通道卷积的输出的层数做改变，我们依然需要增加卷积核的数量。

对于一个H×W×C维度的输入，卷积核大小为k，填充值padding为p，步长为s，我们计输出为H’×W’×C’，那么二者的计算关系满足：

卷积一般与池化一起出现，池化的主要目的是降维，从而减小计算量，并且在训练初期提供一些平移不变性，根据输出的类型，池化操作一般有两类：平均池化和最大池化。通过池化，滑窗内的元素能够聚和为一个元素，从而起到下采样的作用。
对于多通道的输入，池化在每一个通道内独立进行，彼此互不干涉，所以不会改变输入的通道数，只会改变每一个通道内长宽的值。

二、卷积神经网络

卷积神经网络是将卷积层与池化层堆叠得到的，它的结构我们可以分为两部分：一部分是由卷积核池化层交替堆叠得到的骨干网络，这部分主要是负责从输入中提取丰富的特征；另一部分是全连接层，用于将卷积得到的特征图展开，全连接层将特征图的空间信息完全丢弃，聚合全局信息将其映射到输出空间。
如果我们丢弃骨干网络，也就是退化为只有全连接层的多层感知机，那么我们必须将整个图像在一开始就完全展开为一个一维向量，这会导致计算量特别大，而且有过拟合的风险，另外由于一开始就将图像特征的空间信息丢弃，其效果也会大打折扣。

卷积神经网络主要有三个特点：局部连接、权值共享以及层次化表达。

局部连接

图像具有局部相关性，而卷积运算中图像也是在不断分部分和卷积核做运算，所以卷积的过程体现了局部计算的特点，输入和输出具有局部连接。我们经常用感受野来形容特征图上的一个输出和多大的区域的输入有关，我们可以通过卷积核反向扩大来直观地理解感受野，感受野一般是反向得到输入之后行或者列的大小。

权值共享

由于在卷积运算中，不同区域使用了同样的卷积核，一方面减少了参数，另一方面还实现了平移不变性。平移不变性是指不管输入向什么方向平移，总可以得到相同的输出。按道理池化也可以实现一定的平移不变性，因为一个区域内的值最后变为了一个值，在这个区域内的平移是不会受到影响的。

层次化表达

卷积神经网络中，层是一个重要的概念，层数越多，提取到的特征就越丰富越抽象，每一层都是对前面一层的变换，越高层的特征就越抽象。一般来说，低层次的特征会更加通用，高层次的特征则更加具体更加抽象。对于人来说，最直观的感受就是低层次提取出来的特征还可能能看懂，但是高层次的特征人可能就理解不了了。

三、特殊的卷积形式

1×1卷积

这个卷积形式在子豪兄讲解的CS231N中有过很好的比喻，就是用一个锥子，将特征图的不同通道之间插起来。顾名思义该卷积的卷积核大小为1×1，具体操作起来与之前的卷积操作没有什么区别。
这种特殊的卷积形式主要是有两个功能，一方面采用这种卷积方法可以起到信息聚合的作用，同时还可以增加非线性，因为1×1卷积可以看作是对所有通道的信息进行线性加权，同时在卷积之后还可以使用非线性激活，可以一定程度上增加模型的表达能力；另一方面1×1卷积还可以用于通道数的变换，可以增加或者减少输出特征图的通道数。

转置卷积

之前看过的一篇论文里提到过转置卷积，那篇论文提到转置卷积本身是一种上采样的方法，但是其计算开销很大，所以在那篇论文里将上采样的方法修改为像素拖拽。

转置卷积是语义分割任务中必不可少的部分，一般的语义分割模型都分为两部分：编码器和解码器，前者将原始的图像输入映射到低维空间，这个过程需要编码目标的特征信息和位置信息，以正确地预测每个像素的类别；后者则将编码的低维特征映射回像素空间，从而对每个像素的具体类别做判断。可以认为编码器和解码器是上采样和下采样的一种形式。解码器的部分由于需要将低维空间映射回高维空间，所以使用前面提到过的最基础的卷积操作是不可行的，所以就换用可以增加宽度的转置卷积。

转置卷积相当于在输入外补了几圈0，之后再进行标准卷积，这种卷积方法也可以设置填充和步长，但是这里步长的意义发生了改变，步长这时表示卷积元素之间插入0的个数，如果步长为s，那么在卷积元素之间插入s-1个0。

对于转置卷积中输入维度、卷积核大小、填充和步长与输出维度的关系，可以用下式来表示：

空洞卷积

空洞卷积在之前看的论文中也出现过，当时的理解是在特征图的卷积的区域内插空，这本书上则对空洞卷积做了准确的介绍。空洞卷积是在卷积核元素之间插入空格来扩张卷积核，扩张的程度本身是一个超参数，叫做空洞率r，指的是在卷积核中间插入r-1个0，也就是说原本大小为k的卷积核，在使用空洞卷积之后，大小会变为k+(k-1)(r-1)，卷积核的扩大必然也会带来感受野的扩大，所以空洞卷积是一种不增加参数量而且可以快速扩大感受野的方法。

当堆叠多层空洞卷积组成的层时，感受野会快速扩大，从而获得更多的局部信息。

分组卷积

分组卷积个人感觉本身是神经网络发展初期算力不足的辅助方法，这种卷积方法通过将输入沿着深度方向划分为g组，将一个输入拆分为多个输入，同时将卷积核也按照同样的划分方法拆分为多个组，每个组进行卷积，最后再拼起来，得到的就是一个完整的卷积结果。从整体结果来看，相当于进行了g个并行的卷积过程，如果计算参数的话可以看出参数量比标准卷积减少了g倍，可以说是通过拆分的方法减小参数量。

深度可分离卷积

深度可分离卷积相比于标准卷积，减少了参数量，而且降低了计算量、提高了运算效率。这种卷积方法由两部分组成，一部分是沿着深度的逐层卷积，另一部分是1×1卷积。前者本身相当于分组卷积的一种特殊情况，当上图中g=C1=C2的时候，分组卷积相当于变成了为每一个输入通道设定了一个卷积核分别进行卷积，但是这种卷积只利用了单个输入通道，相当于只利用了空间位置上的信息，而没有使用通道间的信息，所以在后面又补充了一个1×1卷积来增加通道间的信息。

3D卷积

这个是书上本身没有提到的内容，在看别的卷积的时候突然想起来的，在网上一查确实有这种卷积方法。前面提到的卷积，都是2d的方法，也就是拿一个二维的片片在图像上面扫，那么按道理当卷积核变为3d的时候，就会出现3d卷积。

3d卷积采用同样的移动方法，卷积核在深度、高度、宽度三个方向上自由移动，两个立方体之间的每一层进行卷积然后再在深度上逐元素相加，得到一个数据，形成一个平面后，卷积核向深度方向移动，继续卷积，于是就输出了一个3D的Feature map。也就是说，卷积核作为一个立体方块和输入中的一个立体方块中对应位置元素计算后求和，变成特征图输出中的一个元素，不断移动然后计算，最后得到的就是一个立体的特征图。
在这种情况下，卷积核的深度就不一定要等于输入的深度，只需要满足卷积核深度小于等于输入深度即可，但依然满足卷积核数目等于特征图的数目。区别于多通道卷积的地方在于，3d卷积输出的特征图是一个立体的带有深度的特征图，而多通道卷积由于卷积核的深度和输入的深度相等，所以只会产生一维的特征图，从这个角度来说，多通道卷积属于3d卷积的一种特殊情况。

多尺度卷积

多尺度卷积层就是用不同大小的卷积核对某一时刻所得到的特征图进行卷积操作，得到新的大小不同的特征图，之后针对不同大小的特征图上采样到输入特征图的大小。也就是说，多尺度卷积层不会改变原有特征图的大小，只是通过不同卷积核的卷积操作，丰富了图像的特征，从全局的视角对图像中的感兴趣的特征信息进行编码解码，进而提高图像的分割性能。

多尺度卷积在使用CNN进行特征提取之后，对特征图使用不同程度的池化，从而得到了不同级别的池化后的特征图，随后再在不同的特征图上各自进行特征学习，上采样后再串联起来，最后卷积处理。也就是说通过大小不同的卷积核，提取到不同尺度下的感受野信息，再对不同尺度的特征进行学习，达到更好的效果，和特征提取的高斯金字塔有点类似。

四、表示学习

表示学习指的是从数据中学习有用的特征，并可以直接用于后续具体任务的方法，表示学习的价值在于减少机器学习对特征工程的以来，从而可以将机器学习应用到更多的领域，个人的理解就是说将特征提取与机器学习挂钩，让特征提取本身成为学习的一部分，比如说之前看的线特征提取之类的算法，这些算法是人为设计的，表示学习个人感觉就是将这部分也交给神经网络进行学习。

在机器学习中对一个对象的表示有两种常用的方法，一种是独热向量编码，他将对象的全体表示为一个向量，向量在某个维度为1表示这个对象符合一个要求，假设一共有n个汉字，那么一个汉字就需要n维的向量，因此总共需要n×n维的矩阵才可以表示全部的汉字。与这种方法相对应的是分布式表示，它通过某种方式得到一个低维稠密向量来表示研究对象，最典型的就是颜色，颜色使用RGB表示法，用空间去表示颜色，使得表示的开销大大降低。独热向量编码简单，只需要列出全部内容即可，但是会丢失大量的语义信息；分布示表示可以解决数据稀疏问题，而且一定程度上保留语义信息。

自编码器是一种表示学习里面很出名的模型，简单来说它的思路是将输入映射到某个空间，再从这个特征空间映射回输入空间进行重构，它有编码器和解码器两部分组成，编码器可以视作下采样，反之解码器可以视作上采样，编码器用于从输入数据中提取特征，解码器用于从提取的特征中重构出输入数据，这种编码-解码的思想在神经网络模型中很常见。

最简单的自编码器可以有三层组成：1个输入层、1个隐含层和1个输出层，其中输入层到隐含层的部分称为编码器，隐含层到输出层的部分称为解码器。

自解码器通过最小化输入与输出之间的重构误差进行训练，也就是说自编码器是不需要额外的标签信息进行监督学习，这类网络的损失函数可以表示为：

通过不断进行梯度下降优化，来优化两层的权值和偏置项一共四组参数：

在上面的图中，中间隐含层的神经元数目要少于输入和输出的神经元数目，这种编码器我们称之为欠完备自编码器，它在一定程度上可以得到类似于主成分分析的效果，本质上就是一个降维再升维的过程。如果我们放开这个限制，也就是说让中间隐含层的神经元数目多于输入输出，这样的编码器就叫做过完备自编码器，对于这类编码器，如果我们不加以任何限制，有可能不会学习到数据的任何有用的信息，甚至有可能只是将输入完全复制到输出，这是因为我们让编码器的维度过高，也就是给予了他们过强的能力，编码器会更加倾向于将输入拷贝到输出，而不会进行特征的学习，因此我们一般会设置一些正则化的约束。

这里我们介绍两类比较典型的正则化自编码器：

去噪自编码器

去噪自编码器的改进在于在原始的输入上，增加了一些噪声作为编码器的输入，所以解码器需要重构出一个不含噪声的原始输入x，正是因为加入了这个去噪的过程，使得编码器不能直接照搬输入，必须从有噪声的数据中学习出恢复原始数据的方法。

具体做法是随机将输入的x的一部分值设为0，这样就得到了有噪声的数据作为输入，但是在计算损失函数时，依然要使用不带噪声的项参与残差的计算：

稀疏自编码器

这类方法是在损失函数上增加正则项来提高学习能力，稀疏编码器通过提高神经元的稀疏性来提高学习能力。我们定义神经元的活跃度为它在所有样本上取值的平均值，我们通过设定期望的活跃度，来让过于活跃或者过于不活跃的神经元受到惩罚，从而得到稀疏的编码特征，加入正则化项之后，损失函数变为：

由于稀疏性可以看作抑制神经元的激活，所以稀疏自编码器个人理解就是让一部分神经元受抑制，如果大多数的神经元都处于激活的状态，那么在传递的过程中，每个特征都会传递到下一层进行细化，也就是说最终判断的结果，会更加趋向于用所有的特征来判断，而这些特征中有很多代表性很强的特征，按道理用这些更有代表性的特征进行判断效果不会更差，所以个人感觉稀疏自编码器就是在抑制神经元，让这些有代表性的特征能够一定程度上凸显出来。

五、卷积网络在图像分类中的应用

VGG

VGG基于AlexNet做了改进，使用两层小尺寸的卷积核来代替一层大的卷积核，从而减少参数量，此外还重复使用简单的卷积块来堆叠得到模型，它的基础卷积块为两层或多层卷积加上一层池化。VGG由于其结构简单而且效果较好，现在也尝尝呗用作其他网络的骨干网络。

Inception V1

首次使用并行结构，而且采用多个大小不同的卷积核，一个Inception块的多个不同的卷积核可以提取到不同类型的特征，同时每个卷积核的感受野也不一样，因此可以获得多尺度的特征。

Inception V2

针对Inception V1做了改进，将大尺寸的卷积核进行分解，从而减少参数量并降低计算的复杂度。这种拆分卷积核的方法可以在不改变感受野大小的情况下，降低参数量，而且能够降低过拟合的风险，一定程度上还扩展了模型的表达能力。

ResNet

残差网络的提出是对深度学习的一个质的飞跃，可以说残差网络是目前最流行的网络结构。网络的深度对模型的性能来说十分重要，网络层数增加意味着模型可以进行更加复杂的特征模式提取，但是增加到一定程度，反而会导致模型退化问题，这主要是因为优化困难导致的。而残差网络从网络结构上来解决这个问题，它在一个块的输入和输出之间，增加一条直接到通路，这条通路叫做跳跃连接。

跳跃连接的引入，使得信息的流通更加顺畅，一方面前向传播时输入与输出的信息融合能够更加有效地利用特征，另一方面反向传播时，总有一部分梯度通过跳跃连接直接反应到输入上，从而缓解了梯度消失的问题。

六、神经网络常用概念

BN层

全称是batch normalization层，是一种常用的数据归一化方法，常用在卷积层之后，用于重新调整数据的分布。由于神经网络在训练的过程中，输入的数据一般希望能够满足独立同分布，但是由于神经网络的层级结构导致高层的数据分布会受到低层参数的影响，在输入时满足独立同分布并不代表数据传递到高层之后依然满足，所以研究者创造出归一化的方法，通过采取不同的变换方式使得各层的输入数据接近满足独立同分布的假设条件。也就是说在卷积层之后接BN层，就是为了调整卷积层结果的数据分布，让分布能够重新回到独立同分布的状态。

参考链接：BN层详解

正则化

正则化是深度学习中减小泛化误差的方法，一定程度上可以用于过拟合的避免，正则化技术中比较常用的有下面几种：
①参数惩罚
简单来说就是在损失函数上增加范数约束，一般在深度学习中，都是对权重参数添加约束，而不对偏置项增加约束，主要原因是偏置项的收敛只需要很少一部分数据就可以实现，如果再加约束，容易导致欠拟合。
常用的范数惩罚是L2范数惩罚，加入之后损失函数变为：

直观上理解就是L2正则化是对于大数值的权重向量进行严厉惩罚，这个损失函数在求导之后，会有一个权值项，它对应的是上一层的输出结果，也就是说对于大的输出对应的权值，其导数值会增加加以惩罚。除了L2正则化，还有L1正则化，也就是增加L1范数惩罚，其损失函数为：

L1正则常被用来进行特征选择，主要原因在于L1正则化会使得较多的参数为0在参数比较小的时候，会直接缩减至0，从而产生稀疏解，我们可以将0对应的特征遗弃，进而用来选择特征。一定程度上L1正则也可以防止模型过拟合。
②dropout
这种方法属于深度学习防止过拟合里面老生常谈的内容了，dropout层通过随机丢弃一部分输入，使得这部分输入对应的参数不再进行更新，实现了随机杀死一部分神经元的作用，从而显著降低了过拟合。
③提前停止
提前停止是指在验证误差不再提升后，提前结束训练，而不是一直等待验证误差到最小值，该方法优势在于不需要改变损失函数，简单而且执行效率高，但是需要一个额外的空间来备份参数。
④样本扩充
这个方法是解决过拟合最有效的方法，训练集越大过拟合的概率越小，但是有些领域本身数据的量就不可能太大，所以这个方法在一些领域上不是很适用。

attention 注意力机制

注意力机制是指让神经网络具有将注意力集中到一部分输入（或特征）的能力。这一点也符合人脑的注意力机制，属于是脑科学的又一次应用延伸。

使用这种注意力机制主要是因为两方面的限制：
计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。
优化算法的限制：虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高。可以借助人脑处理信息过载的方式，例如Attention机制可以提高神经网络处理信息的能力。

个人理解所谓的注意力机制，就是根据某个分布，选择一部分输入送入神经元中计算，而不是让所有输入都送入神经元计算。注意力机制一般可以分为三步：一是信息输入；二是计算注意力分布；三是根据计算的注意力分布来对输入信息进行处理。注意力根据选择的方法可以分为软性注意力和硬性注意力，软性注意力是指在选择信息的时候，不是从全部输入中只选择一个，而是计算所有输入的加权平均。而硬性注意力是说只选择输入序列中某一个位置上的信息，也就是只选一个。

参考链接：
神经网络中的注意力机制
神经网络注意力机制
神经网络注意力机制

看到这的时候想起了入坑看的第一篇论文RandLA-Net，那里面使用的注意力池化机制，和这里的注意力机制是相通的，这里顺便回顾一下RandLA-Net。

注意力机制在网络结构的右上方，可以看到输入的点云有N个，每个点用3+d维的向量来表示，其中3表示空间坐标，对应向量绿色的部分，对于采样的一个点，用kNN找出最近的k个点，于是变成了k个3+d维的向量，取出其中空间位置的部分，通过相对位置编码将3维变成d维，与原来的d维拼接起来，形成k个2d维度的点特征向量，这部分表示的是采样点周围的状态，对这部分点计算注意力得分，用注意力得分进行加权处理，得到的k个2d维向量求和并经过共享感知机处理，得到一个d‘维的向量，这个向量就是这个点的编码结果。虽然这里的注意力池化可能和池化不太沾边，但是确实是用到了注意力机制，通过注意力将临近点中比较重要的特征突出出来，让其在编码中占据多的内容。

七、目标检测常用概念

R-CNN系列

目标检测分为典型的两个系列，一个系列是从R-CNN到Fast-RCNN再到Faster-RCNN，这一个系列我们称为R-CNN系列，它们都是提取候选框，再进行分类与回归。传统的R-CNN通过对输入图像做区域提取，提取后将每个建议框拉伸送入CNN中，一方面拉伸会导致图像的变形失真进而变成信息丢失，另一方面，提取多个区域独立送入CNN的方式过于冗余。

SPP层是对失真的解决方法，SPP层全称是空间金字塔池化层，一开始是用在目标检测时图像归一化，对于大小不同的目标框，为了放置到大小一样的全连接层中，必须要进行拉伸等操作，但是拉伸会导致图像的变形失真，进而导致信息的丢失，所以引入了SPP层，它本质上是一种特殊的池化层，它实现了将输入的任意尺度的特征图组合成特定维度的输出，简单来说就是不管输入到SPP层的图像的大小，SPP层都会给出一个固定大小的输出。

从SPP层的实现来看，它更像是一个多尺度池化的叠加，最原始版本的SPP层中，每一维的特征图都被拆分为三个池化结构，分别为4×4、2×2和1×1，也就是将一维特征图划分为16、4、1个格子，对每个格子内做最大池化，从而得到16+4+1=21维度的表示，也就是说一维的特征图不管大小都可以变为21维的向量，所以对于一个（h，w，c）的特征图输入，经过SPP层之后，就会变成（21，c），与输入的hw无关。

除了统一维度，由于对输入图像的不同纵横比和不同尺寸，SPP同样可以处理，所以提高了图像的尺度不变(scale-invariance)和降低了过拟合(over-fitting) ，在具体的任务中，SPP层的设计也有所区别，其本身可以放在最后一层卷积层的后面，对网络结构不会产生影响。参考链接

Fast-RCNN就是利用了SPP的原理来解决失真问题，设计出了ROI pooling，两者起到的作用是相同的，把不同尺寸的特征输入转化为相同尺寸的特征输出。SPP针对同一个输入使用了多个不同尺寸的池化操作，把不同尺度的结果拼接作为输出；而ROI Pooling可看作单尺度的SPP，对于一个输入只进行一次池化操作。

除此之外，Fast-RCNN还改善了重复利用神经网络的问题。

Fast RCNN中只需要把原始图片送入网络提取一次特征即可，通过感受野的对应关系，把不同大小的候选框直接映射到最后一层卷积输出的feature map上，而ROI Pooling的作用就是把feature map上对应的不同大小的框，转换为相同大小作为下一层全连接的输入。也就是说，Fast RCNN依然是需要用selective search来获得建议框，但是不再需要一个一个将框放入神经网络，而是直接将整个图像送入，根据框的位置与层的关系来进行投影从而得到特征图的兴趣区域ROI，再用ROI pooling将区域整合为统一大小。参考链接

这两种方法都使用了selective search来获得建议框，这种方法由于其低效的实现方法，所以存在算力的浪费，在此基础上又改进出了Faster-R-CNN，这里直接将selective search也优化掉了，利用神经网络自己学习生成候选区域。
也就是说，最原始的R-CNN，使用selective search获得建议框，对建议框拉伸缩放到统一大小之后依次送入神经网络进行学习，改进的Fast-RCNN利用SPP层的思路，依然用selective search提取建议框，之后将整个图送入神经网络，利用建议框与特征图之间的对应关系实现一图多用，最后Faster-RCNN直接将selective search也优化掉，用神经网络自己去提取建议框，进一步提升了效率。

one stage目标检测方法

R-CNN系列都需要经过两步，以YOLO为代表的方法则没有显式的候选框提取的过程，使用一个神经网络，直接将整张图输入网络然后预测出bounding box的坐标和物体的类别、置信度。
YOLO参考链接1
YOLO参考链接2