概览：快速入门神经网络剪枝！

一、模型剪枝技术原理

什么是模型剪枝？

•深度学习网络模型从卷积层到全连接层存在着大量冗余的参数，大量神经元激活值趋近于0，将这些神经元去除后可以表现出同样的模型表达能力，这种情况被称为过参数化，而对应的技术则被称为模型剪枝。

模型剪枝是新概念吗 ？

•Dropout和DropConnect代表着非常经典的“模型剪枝技术”。

•只是这个操作仅仅发生在训练中，对最终的模型不产生影响，因此没有被称为模型剪枝技术。

•Dropout和DropConnect代表着非常经典的“模型剪枝技术”。

(1) Dropout中随机的将一些神经元的输出置零，这就是神经元剪枝。

(2) DropConnect则随机的将一些神经元之间的连接置零，使得权重连接矩阵变得稀疏，这便是权重连接剪枝。

(3) 它们是最细粒度的剪枝技术。

根据粒度的不同，至少可以粗分为4个粒度

•细粒度剪枝(fine-grained)：即对连接或者神经元进行剪枝，它是粒度最小的剪枝。

•向量剪枝(vector-level)：它相对于细粒度剪枝粒度更大，属于对卷积核内部(intra-kernel)的剪枝。

•核剪枝(kernel-level)：即去除某个卷积核，它将丢弃对输入通道中对应计算通道的响应。

•滤波器剪枝(Filter-level)：对整个卷积核组进行剪枝，会造成推理过程中输出特征通道数的改变。

结构化剪枝 OR 非结构化剪枝？

细粒度剪枝(fine-grained)，向量剪枝(vector-level)，核剪枝(kernel-level)方法在参数量与模型性能之间取得了一定的平衡，但是网络的拓扑结构本身发生了变化，需要专门的算法设计来支持这种稀疏的运算，被称之为非结构化剪枝。

而滤波器剪枝(Filter-level)只改变了网络中的滤波器组和特征通道数目，所获得的模型不需要专门的算法设计就能够运行，被称为结构化剪枝。除此之外还有对整个网络层的剪枝，它可以被看作是滤波器剪枝(Filter-level)的变种，即所有的滤波器都丢弃。

从数学来说，卷积可以理解为一种类似于加权运算一样的操作。在图像处理中，针对图像的像素矩阵，卷积操作就是用一个卷积核来逐行逐列的扫描像素矩阵，并与像素矩阵做元素相乘，以此得到新的像素矩阵。这个过程是为卷积。其中卷积核也叫过滤器或者滤波器，滤波器在输入像素矩阵上扫过的面积称之为感受野。

cnn是很多层layer的组合。每一层都通过一个不同的函数将一种activation转化为另一种。通常使用三种layer：convolutional layer, pooling layer,和fully-connected layer。将这些layer堆积起来成为ConvNet architecture.

在CNN中，卷积层是有一定的厚度的。它是有多个卷积filter组成的。通过卷积得到的图像我们一般称为featuremap（因为卷积可以提取出图像的特征features）。

举个例子，我们的图像如果是彩色rgb的图像。那么图像本身的通道数（channels）就是3。卷积时我们可以直接用通道数为3的卷积层来进行卷积。这个过程可以分解成上面的卷积过程。首先对应r通道的filter对r通道卷积得到一张featuremap。rgb一次我们可以得到3张中间过程的featuremap。最后我们将3张中间过程的featuremap对应位置相加得到最后本次卷积的结果，也就是一张featuremap。一般我们最后得到的featuremap张数称为输出通道数。有多少个输出通道就有多少个卷积层。（按照上面介绍的，每个卷积层最终能够得到一张featuremap（3个通道对应位置相加后就只剩下一张）。所以多少个卷积层就可以得到多少张最终的featuremap，也就是多少个输出的通道。

二、模型剪枝的必要性

•具有同等参数量的稀疏大模型和稠密小模型的性能对比，表明稀疏大模型普遍有更好的性能。

在《To prune, or not to prune: exploring the efficacy of pruning for model compression》中探讨了具有同等参数量的稀疏大模型和稠密小模型的性能对比，在图像和语音任务上表明稀疏大模型普遍有更好的性能。

在参数的稀疏性分别为0%，50%，75%，87.5%时，模型中非零参数分别是原始模型的1，0.5，0.25，0.128倍进行了实验。实验结果表明在稀疏性为50%时，Inception V3模型的性能几乎不变。稀疏性为87.5%时，在ImageNet上的分类指标下降为2%。 Top-1，Top-5 acc表明什么含义？

除了在大模型上的实验结果，还对小模型MobileNet也进行了实验，分别在同样大小参数量的情况下，比较了更窄的MobileNet和更加稀疏的MobileNet的分类指标，发现稀疏的MobileNet模型性能明显优于非稀疏的MobileNet模型。

那Top-1 Accuracy和Top-5 Accuracy是指什么呢？区别在哪呢？

我们知道ImageNet有大概1000个分类，而模型预测某张图片时，会给出1000个按概率从高到低的类别排名，

所谓的Top-1 Accuracy是指排名第一的类别与实际结果相符的准确率，

而Top-5 Accuracy是指排名前五的类别包含实际结果的准确率。所以相对来说Top5acc.一般情况下都要比Top1acc.

三、核心算法：

根据剪枝的处理策略:对模型进行稀疏约束然后进行训练后的剪枝、在模型的训练过程中进行剪枝、以及在模型训练之前就进行剪枝

根据粒度的不同：流行的剪枝算法是细粒度的权重连接剪枝和粗粒度的通道/滤波器剪枝。

•A 细粒度剪枝核心技术(连接剪枝)

•B 粗粒度剪枝核心技术(通道剪枝)

这些方法各自有交叉，无法完全分开，下面我们就基于两大不同的粒度来介绍一些训练中剪枝的代表性方法，而不再单独介绍稀疏约束以及训练前剪枝方法；

A 细粒度剪枝核心技术(连接剪枝)

B 粗粒度剪枝核心技术(通道剪枝)

1. 基于重要性因子，即评估一个通道的有效性，再配合约束一些通道使得模型结构本身具有稀疏性，从而基于此进行剪枝。

2. 利用重建误差来指导剪枝，间接衡量一个通道对输出的影响。

3. 基于优化目标的变化来衡量通道的敏感性。

四、剪枝算法的展望

1. 重要性因子选择

通过某种准则来判断一个连接或者通道是否重要，比如范数。

缺陷：但这类方法的假设前提条件太强，需要权重和激活值本身满足一定的分布。

Geometric Median方法就利用了几何中位数对范数进行替换，那是否有更多更好的指标呢？

2. 剪枝流程优化

当前大部分框架都是逐层进行剪枝，而没有让各层之间进行联动

在当前阶段冗余的模块，并不意味着对其他阶段也是冗余的

以NISP为代表的方法就通过反向传播来直接对整个网络神经元的重要性进行打分，一次性完成整个模型的剪枝。(具体细节尚不清楚)

3. 个性化剪枝

模型在剪枝完后进行推理时不会发生变化，即对于所有的输入图片来说都是一样的计算量，但是有的样本简单，有的样本复杂

---->动态推理框架，可以对不同的输入样本图配置不同的计算量，剪枝框架也可以采用这样的思路

以Runtime Neural Pruning 为代表。

4. 自动化剪枝

在提取低级特征的参数较少的第一层中剪掉更少的参数，对冗余性更高的FC层剪掉更多的参数

由于深度神经网络中的层不是孤立的，这些基于规则的剪枝策略并不是最优的，也不能从一个模型迁移到另一个模型

AutoML方法的应用 --高端

• 除此之外，还有训练前剪枝，注意力机制增强等等许多方向

AutoML for Model Compression(AMC)是其中的代表