中兴算法大赛深度学习模型优化加速解决方案总结

前言：从小白入门，通过这次比赛学到很多东西。现在把文档放到这里，希望能够帮助到需要的人。特别感谢初赛排名第一的YaHei大佬。感谢他开源的代码把我带进了比赛的大门。附上大佬的项目链接：

https://github.com/hey-yahei/ZTE_Challenge2019_MOA

摘要：本次模型压缩几乎无法重新训练，因此无法采用许多常用的模型压缩算法。针对主办方提供的已经训练完成的模型，主要使用了包括层融合、剪枝、奇异值分解等方法进行压缩。

一、层融合

在神经网络训练的过程中，BN层能够加速网络收敛，并且能够控制过拟合。不过这样也增加了一些运算和参数，因此在推理过程中，可以通过将BN层与卷积层的参数融合的方式，来减少运算，并略微地实现一些模型的压缩。【1】

公式：

卷积层计算公式：
Y = W ∗ X + b Y = W*X + b Y=W∗X+b

BN层计算公式：
X b n = s ( X − m ) ( σ + ϵ ) + b b n X_{bn} = \frac{s(X - m)}{\sqrt(\sigma + \epsilon)} + b_{bn} Xbn=( σ+ϵ)s(X−m)+bbn
其中：m: 均值， $ \sigma$ : 方差， s: scale, $ b_{bn}$: 偏置， ϵ \epsilon ϵ : 滑动系数。

融合及将卷积层的输出作为BN层的输入，带入得到

融合公式：
X b n = X ∗ s W σ + ϵ + s ( b − m ) σ + ϵ + b b n X_{bn} = X * \frac{sW}{\sqrt{\sigma + \epsilon}} + \frac{s(b - m)}{\sqrt{\sigma + \epsilon}} + b_{bn} Xbn=X∗σ+ϵ sW+σ+ϵ s(b−m)+bbn
得到融合之后的权值：
W c o n v ′ = W s σ + ϵ W'_{conv} = W\frac{s}{\sqrt{\sigma + \epsilon}} Wconv′=Wσ+ϵ s

b _ c o n v = ( b c o n v − m ) s σ + ϵ + b b n b\_{conv} = (b_{conv} - m)\frac{s}{\sqrt{\sigma + \epsilon}} + b_{bn} b_conv=(bconv−m)σ+ϵ s+bbn

层融合对模型压缩的效果并不明显，对比赛所提供模型，层融合之后大小仅下降3KB。对于显存大小及推理时间的提升未做详细的量化分析。

二、模型剪枝

对于一些权重极小的连接，将其去除几乎不会影响模型的准确性，反而在重训练过程中有助于避免过拟合现象的发生。本次针对该模型的剪枝以阈值修剪：去除绝对值低于$ 1*e^{-10}$的连接。关于阈值的设定，刚开始由于没有经验，不敢设很大。后来测试时发现，阈值设为小于 1 ∗ e − 6 1*e^{-6} 1∗e−6以内剪枝的数量几乎一致。但是当阈值高到 1 ∗ e − 2 1*e^{-2} 1∗e−2时就会对模型产生毁灭性的影响。本轮剪枝后模型大小下降也并不明显，大约有340KB左右的下降。而且由于在修剪时需要同时对权值和prototxt文件进行修改，未能做到很好地利用代码自动修剪，因此修剪体验一般。

三、删除卷积层

这个想法实在太过于简单粗暴，几乎不可能成为一个通用的压缩方法。幸运的是本次比赛的模型的conv5冗余较大，直接删除后边四层的影响不大，而且赛后其他同学讨论中提到甚至可以直接删除后边五层。必须承认这个方法来自QQ群中一位同学的分享，并非自己发现。我自己在这一部分的工作主要就是修改代码和prototxt文档。这一方式虽然简单粗暴，却十分有效，直接将我从弃赛的边缘拉到了前60名。该方法的主要提升在于对显存占用和推理计算量的降低。对于模型大小的压缩效果并没有很明显，该步使模型大小减少了大约8.4MB。

四、奇异值分解

奇异值分解（Singular Value Decomposition, SVD）是本次比赛所使用的最主要的压缩手段，效果也是最明显的。

由于全连接层占据了模型中最大一部分的参数，对全连接层作奇异值分解可以得到极大的压缩收益。因此本次将SVD作为了模型压缩的重点。有几天的工作都花在了测试不同的r值对模型准确率的影响上。并且希望能够找到合适的r使得z恰好处于临界点（0.950或0.900）。最终，本次最好成绩对应的r值为136, 对应的z值为0.958。也许是由于服务器波动等因素，在r=130时，z取值为0.951，却并未得到更加理想的成绩。而使z接近0.9的r值为108，此时z值为0.901，但权值的下降并没能换来足够的显存使用及计算量的改善。这一部分对于运算速度和显存占用有着显著的优化，同时对模型的大小有着更为显著的压缩。在r=130时，模型大小下降了大约190MB, 比原来压缩了大约63%。

五、其他未成功应用方法

（1）无需数据的卷积网络自动加速

无需数据的卷积网络数据加速（Data-free Automatic Acceleration of Convolutional Networks， DAC）是由Xin Li 等人与2018年提出的一种无需重新训练模型的压缩方式【2】。将卷积核分解为Depthwise 及 Pointwise两种，分解运算的核心其实还是奇异值分解。最终可以实现对已训练完成的模型的卷积核分解与替换，以及权值的迁移，而无需重新训练。原文作者在CIFAR-VGG模型上测试，发现替换靠后的卷积层可以在减少较多参数的同时只造成很小的精度损失，而处理较为靠前的卷积层则代价较大。
附上自己实现DAC的代码

https://github.com/baizhenmao95/2019-ZTE-Algorithm-Competition/blob/master/DAC_AGAIN.py

由于论文中给出了该算法的详细步骤，因此我尝试用代码复现了该算法，并对卷积层conv4_5_2进行了替换。虽然最终确实可以得到压缩后的模型，将r取为5时大约能够减少该层一半的参数。但是也许是我的程序实现有误，也许是该算法并不适用于该类模型的压缩，甚至也许是所选的用于替换的卷积层并不合适，总之最终得到的模型与原模型相比，所提取的特征图的余弦距离出现了负数。最后一天我压宝压在了这一算法上，却最终没能实现突破，也是一大遗憾。

(2) Octave Conv

OctaveConv是前几天刚出现的一个新的方法。一出现就得到了许多深度学习相关的学者和媒体的大力推荐。而其简单有效的思想也让我印象深刻。因此十分希望能够复现其中的结果，并在此次比赛中为我所用。作为一个新的方法，使用它的优势在于我可能会是比赛中为数不多的使用者，也就有可能得到几乎独一无二的改善。但是劣势在于，过于新鲜的方法意味着对其的解读与代码的实现方面可能很有限。因此在将近一周的时间内我只能对照着论文原文【3】和某个MXnet版本的第三方复现代码【4】学习。它即插即用、无需更改网络结构的特性非常吸引人，而其通俗易懂的比喻也降低了对算法的原理及其效果的理解难度。可惜最终我还是意识到它似乎是一个需要重新训练的算法，最终只能遗憾放弃。但是在之后的科研工作中也许能够真正地用到。因此也算是一项不错的收获。

（3）DEEP COMPRESSION

这一压缩操作来自于一篇很经典的模型压缩论文【5】以及一个caffe版本的第三方复现代码。主要做了基于Kmeans聚类的量化来压缩卷积和全连接层的权重。经过压缩后得到了一个大约只有8MB的numpy模型文件。这对于嵌入式设备的使用非常友好。但是也许由于参数选取不合适等原因造成了z值的大幅下降，最终只能弃用。但该算法的实用意义也许要大于比赛意义。

附参考资料：
【1】 https://blog.csdn.net/u013597931/article/details/85697008
【2】https://arxiv.org/pdf/1812.08374.pdf
【3】https://export.arxiv.org/pdf/1904.05049
【4】https://github.com/terrychenism/OctaveConv
【5】https://arxiv.org/pdf/1510.00149v5.pdf