论文阅读笔记(七)——Thin MobileNet

Architecture

前言

还剩两篇，自己这周任务就完成了，冲冲冲

1 论文简介

1.1 关于文章

论文名称:Thin MobileNet: An Enhanced MobileNet Architecture

百度网盘:原文链接
提取码：v7la

1.2 关于模型

又是一个mobilenet的变体~

2 文章正文

2.1 摘要

在计算机领域，移动和嵌入式视觉卷积神经网络（CNN）是深度学习模型，在目标检测和识别中起着重要作用。为此，MobileNet就是这样一种高效，轻量级的模型，但是由于有限的内存、能量和功率，将此类体系结构的硬件部署到资源受限的微控制器单元中存在许多约束或挑战。而且，当通过诸如修剪或深度压缩之类的任何方法减小参数的大小和总数时，模型的总体准确性通常会降低。本文提出了三种混合MobileNet架构，与基准MobileNet v1相比，它们具有更高的准确性，并且具有减小的尺寸，更少的层数，更少的平均计算时间以及非常小的过拟合。开发这些模型的原因是拥有现有MobileNet模型的一种变体，可以轻松地将其部署在受内存限制的MCU中。我们将具有最小大小（9.9 MB）的模型命名为Thin MobileNet。通过将标准的非线性激活函数ReLU替换为Drop Activation，并引入Random Erasing正则化技术代替Dropout，我们可以提高准确性。通过使用可分离卷积代替基线MobileNet中使用的深度可分离卷积来减小模型大小。稍后，我们通过消除一些不必要的层而使模型变浅而又不降低精度。实验结果基于在CIFAR-10数据集上训练模型的结果。

2.2 Motivation&Contributions

PS: 这一段主要是方便我们以后写Introduction与Related Work

2.2.1 Motivation

深度卷积神经网络在AlexNet在2012年赢得ImageNet挑战赛时获得了普及。此后，深度学习的领域呈指数增长。诸如Canny算法或HOG的许多计算机视觉标准算法已被诸如SqueezeNet，SqueezeNext，ResNet，Inception等深度学习模型所取代。在新的优化中也取得了重大进展技术，非线性激活函数，训练方法等。
为了获得更高的精度，使模型更深入，更复杂。更深，更复杂的模型的出现导致了众多硬件体系结构的发展例如GPU，Bluebox 2.0，S32V234 MCU等，以提高训练过程的速度并为各种计算机视觉应用程序部署模型。但是，增加模型的深度和复杂性会增加大小和计算成本，从而降低其硬件部署效率，特别是在资源受限的移动和嵌入式平台中。
在诸如自动驾驶中的图像分类，字幕，目标检测和语义分割等实时应用中，推理时间和准确性是影响人身安全的重要因素。
因此，有必要提供一个非常准确的模型，需要较少的存储器复杂性并需要较少的计算时间来用于实时方案。
为了解决上述问题，发明了一种轻巧的模型MobileNet ，该模型具有较少的参数数量和较少的计算时间。 MobileNet不使用标准卷积，而是使用深度可分离卷积，它仅需要八分之一的计算成本。 MobileNet有两个超参数：宽度乘数和分辨率乘数。当我们使用它们减小网络规模时，准确性会下降很多。

2.2.2 Contributions

我们提出了一种新的MobileNet体系结构，称为Thin MobileNet，在该体系结构中，我们提高了精度，同时减少了模型大小，计算时间以及基线模型中的过拟合问题。我们还有另外两个模型，它们的性能比基准模型好

使用可分离卷积替换深度可分离卷积

深度可分离卷积通过首先执行channel-wise卷积（分别过滤每个输入信道）然后借助点式卷积对这些输出进行线性积分来实现。在基线模型中，分别定义了深度卷积层和点方向卷积层。在我们的模型中，我们使用可分离卷积，而不是深度可分离卷积，它将深度层和点层组合成一个层，并且不需要单独定义它们。我们使用了Keras框架，其中定义了可分离卷积2D。这里**，逐点卷积的逐点初始值设定项、逐点正则化子和逐点约束定义在与depthwise初始值设定项、正则化子和约束相同的init()函数中。这将网络减少到14层，保持了纵深可分离卷积的基本功能不变，但对提高网络的精度没有多大作用。模型大小变为26.9 MB（比基线小12.2 MB），参数总数变为2158826**。图2。显示原始网络和修改后网络的核心层之间的差异。
现在，每个epoch的计算时间减少到21s。

使用DropActivation层代替ReLU的MobileNet体系结构

正则化是深度学习网络的重要组成部分。有时，规范化可以很好地发挥作用，但是当将它们组合在一起时，它们并不能提高网络的整体性能

为了使我们的模型更优秀，准确并且与其他正则化技术兼容，非线性激活函数ReLU被Drop-Activation 层取代。非线性函数在训练过程中被随机停用和激活，即，将随机性引入激活函数中。激活函数中的非线性以概率P保持，以概率（1-P）丢弃

Use of Random erasing in the network随机擦除在网络中的应用

随机擦除是一种数据增强方法，我们在图像I中选择矩形区域。在一个小batch中随机删除，并擦除该区域的像素，然后将其替换为随机值。它增强了卷积神经网络泛化的能力

删除不重要的层

原结构

删除之后的结构

最终网络结构图

实验 Experimental

数据集

CIFAR-10

训练

python 3.6
keras
tf-gpu v1.11.0
RTX 1080Ti

结果

总结

在本文中，我们提出了MobileNet的增强版本，称为Thin MobileNet。我们对现有MobileNet基准模型进行了四处修改。这种新的CNN架构比MobileNet模型和其他一些流行的CNN架构更薄，更准确，更快。通过我们的实验，我们提高了准确性，并大大减少了网络规模，这使其适合在受内存限制的硬件中进行部署。当我们通过使用可分离卷积代替深度可分离卷积来减小模型的深度时，精度不会降低，因为Drop-activation和Random擦除在补偿精度中起着重要的作用。通常，浅层模型不如深层模型准确，但是将随机性引入标准激活函数ReLU中并结合随机擦除数据增强功能对保持模型的准确性远高于MobileNet模型的基线准确性有很好的影响。随机擦除对于消除过度拟合问题和增强模型的泛化能力也具有重大影响。最后的修改是消除了具有相同输出形状的几层以使模型变浅，从而大大减少了参数总数，从而使模型大小为9.9 MB。此外，与Adam，RMS Prop和SGD等其他优化器相比，Nadam优化器在从头开始对CIFAR-10数据集进行培训和测试时，其性能也更好。该模型还比许多其他CNN架构快，并且对于诸如对象检测和识别应用程序的实时嵌入式应用程序是安全的。所有提出的模型都比在CIFAR-10数据集上从头开始训练的基准MobileNet模型表现更好。就准确性而言，最佳模型是Model 2，其准确性为86.42％，而就模型规模而言，最佳模型是Model 3，其中Model 3 我们将其命名为Thin MobileNet（9.9 MB）。未来的工作涉及在这三种模型上尝试宽度乘数和分辨率乘数的各种组合，以实现更有效的网络。对宽度乘数和分辨率乘数使用最佳值可以进一步减小模型大小，使准确性远高于基线MobileNet模型的准确性，同时在模型大小和准确性方面都超过其他基准CNN模型。稍后，该模型将部署在Bluebox 2.0上，Bluebox 2.0是由恩智浦半导体公司生产的用于单次目标检测的自动硬件开发平台[33]应用。Bluebox 2.0集成了计算机视觉处理器S32V234，多核通信处理器LS2084A和雷达。微控制器单元S32R27。

收获

没啥收获，感觉写的比较水