The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches

该论文主要讲述了深度学习的各个网络，我将熟悉这些网络，然后选取其中有助于MOT方向的部分进行详细阅读，为我阅读上表中论文做些基础。
DNN

图9为基本的神经元非线性模型，其中其中是输入信号; 是突触比重（系数）; 是输入信号的线性组合; 是激活函数(如 s 形) ，是输出。偏置加上输出的线性组合器，这有应用仿射变换的效果，产生输出。神经元的功能可以用数学方法表示如下:

神经元网络或一般神经元网络是由包含一个或多个神经元多层感知机的神经元网络组成。具有MLP的NN模型如图10所示。

多层感知机可以用数学方法表示(这是一个复合函数)如下:

梯度下降是一种一阶优化算法，目的是为了寻找目标函数的局部最优值。
概念如上所示，输入损失函数ε、学习率η、X数据集和模型公式，就会输出最佳的θ似的ε最小。但是，由于它训练时间过长的缺点，现在一般使用SGD随机梯度下降的方法。

输入还是损失函数ε、学习率η、X数据集和模型公式，就会输出最佳的θ似的ε最小。但是在执行过程中，它会对X、Y数据集中每一个x和y进行梯度下降操作，从而大大提高了时间效率。
反向传播操作BP和SGD是目前DNN非常经典使用方法。对于DL可以使用链式规则使用BP计算从顶部到底部层的梯度。iii为一个单路径网络。例如：其中该网络表示为L层复合函数。假如L=2可以表示为：，根据链式求导法则，可以表示为。
动量法是SGD方法加速训练的一种方法。主要思想是使用移动着的梯度的平均值代替当前的梯度值。用数学公式表示为：，其中γ是动量，η是第三轮训练的学习率。在训练中利用动量的主要优点是防止网络陷入局部极小值。动量的取值为 γ ∈(0,1]。注意：一个较高的动量值超过了它的最小值，可能使网络不稳定。一般来说，γ 被设置为0.5，直到最初的学习稳定下来，然后增加到0.9或更大。

学习率η是训练过程中考虑的步长，是训练DNN一个重要的组成部分。选择确实非常敏感的，常见的选择方法有：常量法、因素法和指数衰减法。
流行的CNN结构
大部分CNN（卷积神经网络）都是由都一组关键的基本层（卷积层、下采样层、全连接层和soft-max层）组成。
LeNet（1998）：
例如LeNet-5基本结构是2个卷积层、2个下采样层，2个全连接层和1个soft-max输出层。如下图所示：

AlexNet（2012）：
第一个卷积层和最大池化层通过局部相应归一化（LRN）实现的：使用96个大小为11×11的感受性滤波器。最大池化层通过步幅大小为2的3×3的滤波器实现的。第二个卷积层用5×5的滤波器进行相同操作。第三、四、五个卷积层使用3×3的滤波器，映射特征分别为384、384和296个，后面是两个完全连接层和soft-max层。

ZFNet（2013）：
是AlexNet网络的拓展，仅仅是将11×11的感受性滤波器改为了7×7的感受性滤波器，减少了网络参数的数量，提高了整体识别精度。
NiN（Network in Network）：
引入了多层感知卷积层的概念，有助于非线性函数的识别。其次是引入了Global Average Pooling（GAP）替换全连接层，减少了网络参数的数量。
VGG-Net（2014）：
表明了网络的深度是一个关键组成部分，VGG架构由两个卷积层组成（都使用了ReLU激活函数）。后面是一个最大池化层。最后是几个全连接层（也使用了ReLU激活函数）。在VGG-E有步长为2、尺寸为3×3的卷积滤波器组成。有三个著名的网络VGG-11、VGG-16和VGG-19，分别有11、16和19层，并且都有3个全连接层。

GoogLeNet（2014）：
与传统CNN相比，目标是降低计算复杂度。合并具有可变接受域的“初始层”，图16是最初的状态，图17是改进之后的状态。图17添加了一个1×1的卷积层，主要是在进行计算量大的层之前进行降维操作。GoogLeNet共有22层，但是它的参数数量远远小于AlexNet和VGGNet。

Residual Network（ResNet in 2015）：
目的是设计多层深度网络，解决梯度消失的问题。ResNet有34、50、101甚至1202层。

ResNet：
是一个传统的具有剩余连接的前反馈网络，剩余层的输出可以根据前一层的输出输出来定义。是执行各种操作之后的输出，剩余单位的最终输出是，可以用以下方程式来定义: 。
ResNet是由几个基本的剩余块组成，但是，剩余块中的操作可以根据剩余网络的结构不同而发生变化。Inception-Residual单元基本概念图如图19所示：

可以使用一个数学公式将图19表示出来：，其中符号⨀为3×3和5×5过滤器进行浓缩操作，然后使用1×1的滤波器进行卷积运算后和相加并输出。
Densely Connected Network (DenseNet)：
该网络由密集连接的CNN层组成，每一层的输出与dense块中的所有后面的层相连。目的：实现特征多次利用，极大地减少了网络参数。DenseNet在两个挨着的dense块之间，由几个dense块和transition块组成。

在图20中，层接收到了所有前面层的特征作为输入，公式可以表示为：。其中，为0——l-1层的输出特征，可以看做成一个单一的tensor，执行三个运算： Batch-Normalization（批量归一化，BN）；然后，执行一个ReLU操作和一个3×3的卷积运算。而transition块，先使用BN执行一个1×1的卷积操作，紧接着进行一个2×2的池化操作。
FractalNet (2016)：
优点：在速度和准确率之间进行权衡。FractalNet基本结构如图21所示：
CapsuleNet
CNN的缺点是没有考虑特征的视角、大小和方向等特殊的关系。第一代CapsuleNet由一个编码单位的三层capsule节点组成。

下图架构用于MNIST数据集（2828的照片），将256个特征，进行Conv2d(, , 9)，N=(W-F+2P)/S+1=（28-9+20）/1+1=20。输出到8维的矢量，进行MaxPool2d（2， 2），N=(W-F+2P)/S+1=(20-9+20)/2+1=6。最后结果为32866。

不同模型的比较

其他模型
RCNN：在2015年提出的循环卷积网络，IRCNN结合了Inception网络和卷积网络中最流行的体系结构，2016年提出的FCN用于分割任务。
操作技巧
数据预处理：
样本重标、平均减法、随机裁剪、水平或者垂直翻转数据、颜色抖动和PCA/ZCA白化等。
网络初始化：
基于对称激活函数初始化
分批归一化：考虑标准：提高学习速度、批量规范化做相同工作的因子、L2正则化、加速学习速率衰减、删除本地相应（LRN）、Shuffle训练样本更彻底和训练时不使用失真的照片。

交替卷积法
激活函数：Sigmoid、tanh和ReLU（Leaky ReLU和ELU）

下采样层或者池化层：
池化层主要包括最大池化层操作和平均池化层操作。空间金字塔池化层：解决输入图片大小不一造成的缺陷、由于把一个feature map从不同的角度进行特征提取，再聚合的特点，显示了算法的鲁棒性、在object recongtion增加了精度。

DL的正则化方法：
SGD、AdaDelta、RMSprop、Adam和EVE。
递归神经网络（RNN）
介绍：
更像人的思想，知晓在提前输入的基础上来处理后续任务。

RNN主要包括Jordan网络和Elman网络：黄色标记部分为两个网络之间的不同。

RNN的主要问题就是梯度消失的问题。解决方案有：（1）范数太大就对梯度进行裁剪和缩放，（2）创建更好地RNN模型。所以Long Short-Term Memory（LSTM）被提出。
Long Short-Term Memory（LSTM）
LSTM把信息传送到图32中，包括输入单元（it）、遗忘单元（ft）和输出单元（ot），公式定义如下：

Gated Recurrent Unit (GRU)
GRU是RNN的轻量级版本，它将遗忘门和输入门合并为一个更新门，并将单元状态和隐藏状态与其他一些修改的合并在一起。下图为其公式和结构图

卷积LSTM（ConvLSTM）
该网络是用了当前状态的将来信息和当前状态的过去信息来预测了当前信息。这在离线学习中是可以实现的，并且起到了很好的效果。下图为ConvLSTM网络的架构和公式（其中，*为卷积操作，∘为哈达玛(Hadamard)积）：

RNN具体应用的结构变体
应用不同可以分为不同的RNN结构：一对一、多对一、多对多和多对多。绿色为输入向量、蓝色为RNN状态、橙色为输出向量。

其中（d）和（e）有很大的不同，（e）应用于视频分类的问题更多一点。
基于注意力机制的RNN模型

RNN的应用问题
Bidirectional深度RNN被用在驾驶员动作预测。
自动编码器（AE）和受限玻尔兹曼机（RBM）
本节将讨论自动编码器的无监督深度学习方法（例如：变分自动编码器（VAE）、去噪声AE、稀疏AE、堆叠去噪声AE和分类脑AE）
Review of Auto-Encoder (AE)
AE是一种深度神经网络方法，用于无监督的特征学习，具有高效的数据编码和解码的功能。编码阶段：输入样本被映射到具有构造性特征表示的低维特征空间；解码阶段：通过反向处理从低维特征空间中重新生成实际特征。编码、解码流程如图36所示：

编码器∅和解码器

The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches相关推荐

【论文笔记】A comprehensive survey on sentiment analysis: Approaches, challenges and trends（上）
目录 1. 文章信息 2. 摘要 3. 前言 4. 情感分析的方法与应用 4.1情感分析的新进展 4.1.1aspect-level sentiment analysis 4.1.2 sentence ...
A State-of-the-Art Survey on Deep Learning Theory and Architectures论文翻译分析
A State-of-the-Art Survey on Deep Learning Theory and Architectures 摘要近年来,深度学习在各种应用领域取得了巨大成功.机器学习这一 ...
A Survey on Deep Learning in Medical Image Analysis
A Survey on Deep Learning in Medical Image Analysis Abstract 深度学习算法特别是卷积神经网络已经快速成为分析医疗图像的一种方法.本文总结了与 ...
A Survey on Deep Learning Techniques for Stereo-based Depth Estimation论文阅读
第一次校正,改正了一些错误和生硬的翻译(像机器翻译一样).一定会有一些笔误.翻译不准确甚至错误的地方.还望批评指正. 1. 摘要估计RGB图片的深度一直以来都是棘手的问题,计算机视觉.图形学.机器学 ...
【论文精读】A Survey on Deep Learning for Named Entity Recognition
A Survey on Deep Learning for Named Entity Recognition 前言 Abstract 1. INTRODUCTION 2. BACKGROUND 2.1 ...
论文阅读：（2020版）A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法
A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法目录 A Survey on Deep Learning f ...
论文阅读：A Survey on Deep Learning for Named Entity Recognition
这是一篇2020年发的命名实体识别的综述性论文,从NER的语料库,定义,评估指标,到深度学习中的NER的技术都有涉及到. A Survey on Deep Learning for Named Ent ...
《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)
<A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...
【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches

The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches相关推荐

最新文章

热门文章