Pytorch Document学习笔记

Pytorch Document学习笔记
- 1. 网络层
- - 1.1 torch.nn.Conv2d
  - 1.2 torch.nn.MaxPool2d / torch.nn.MaxUnpool2d
  - 1.3 torch.nn.ReLU
  - 1.4 torch.nn.BatchNorm2d
- 2. 优化器
- - 2.1 torch.optim.SGD
  - 2.2 torch.optim.Adagrad
  - 2.3 torch.optim.RMSprop
  - 2.4 torch.optim.Adam
- 3. 损失函数
- - 3.1 torch.nn.L1Loss
  - 3.2 torch.nn.MSELoss
  - 3.3 torch.nn.CrossEntropyLoss
- 4. 初始化
- - 4.1 torch.nn.init.uniform
  - 4.2 torch.nn.init.normal
  - 4.3 torch.nn.init.constant
  - 4.4 torch.nn.init.xavier_uniform / torch.nn.init.xavier_normal
  - 4.5 torch.nn.init.kaiming_uniform / torch.nn.init.kaiming_normal

Pytorch Document学习笔记

最近花了些时间补充了Pytorch相关的知识，正好借着Pytorch的官方文档补充下深度学习的基础知识，主要是看看Pytorch中封装有哪些库函数，搞清楚这些库函数后面具体使用的算法，由于面比较广，可能深度不是很够

1. 网络层

1.1 torch.nn.Conv2d

卷积层的目的主要是提取特征，in_channels和out_channels分别控制着输入通道和输出通道的数量，kerner_size, stride和padding组合控制这卷积后输出特征层的大小，另外：
dilation为空洞卷积的间隔，在图像分割领域，在dilation提出来之前，主要通过pooling和up sampling来提高单个像素的感受野，dilation的主要作用就是在不用pooling的情况下也能够增大像素的感受野，以达到更好的分割效果，如下图所示：

groups为分组卷积，所谓分组卷积就是将32通道的卷积任务分为两个16通道卷积进行，主要作用是减少参数量，因为减少了参数量，对于网络来说相当于进行了正则化。
bias为卷积偏置，偏置的存在主要是为两个更好地拟合数据

1.2 torch.nn.MaxPool2d / torch.nn.MaxUnpool2d

池化层的作用主要是去掉特征中的冗余信息，相当于下采样操作，当return_indices设置为True时，函数会输出最大值的序号，而最大反池化则等同于上采样，输入为最大池化操作的输出以及序号，将非最大值部分设置为0
pytorch中出来最大池化操作，池化操作还包括AvgPool2d, FractionalMaxPool2d, LPPool2d, AdaptiveMaxPool2d, AdaptiveAvgPool2d

1.3 torch.nn.ReLU

非线性激活层存在的目的是为了让网络对非线性的数学模型具有拟合效果，与其类似的激活函数还包括ELU, PReLU, LeakyReLU, Threshold, Sigmoid, Tanh等等等等

1.4 torch.nn.BatchNorm2d

批归一化层相对来说会复杂一些，起主要目的是改变小批量数据的分布（均值和方差），批归一化的位置如果放在激活层之前则是对节点的输出进行归一化，如果放在激活后则是对下一个节点的输入进行归一化，都是可以的，批归一化层的公式如下 $y=\frac{x-\operatorname{mean}[x]}{\sqrt{\operatorname{Var}[x]}+\epsilon} * \text { gamma }+\text { beta }$

+ϵx−mean[x]∗gamma+beta其中

m e a n

和

v a r

分别为批数据的均值和方差，

g a m m a

和

b e t a

为可以学习的参数，在训练过程中通过反向传播更新该参数，而在预测过程中则将该参数固定，Batch Normalization（BN）超详细解析对批归一化层进行了详细的解释，参考其总结一下加入批归一层带来的好处：

可以使用更大的学习率，学习过程更加稳定
可以将卷积层中的偏置设置为0，因为批归一化过程中会移除数据流中的直流分量
对初始化权重不再敏感
抑制了梯度消失同时具备正则化的效果

2. 优化器

2.1 torch.optim.SGD

随机梯度下降法的定义是随机选取批量数据中单个样本梯度进行梯度下降，其优势是算法收敛速度快，但是精度会有所损失，在实际应用为了权衡速度和精度，通常我们是批量样本中随机选取小批量样本进行梯度计算，例如我们随机随机了 $m$ 个样本 ${x(1),…,x(m)}\left\{x^{(1)}, \ldots, x^{(m)}\right\}$ ，对应的目标为 $y^{(i)}$ ，进行梯度估计有 $\leftarrow \frac{1}{m} \nabla_{w} \sum_{i} L\left(f\left(x^{(i)} ;w \right), y^{(i)}\right)$ 进行权重更新有 $\leftarrow w+g$ 随机梯度下降法中有如下几个参数：
动量因子momentum，在上面例子的基础上，多了一步速度更新 $\leftarrow \alpha v-\epsilon g$ 然后在进行权重更新 $\leftarrow w+v$ 这样改进之后，当前时刻的梯度与历史时刻梯度相似时，这种趋势在当前时刻会加强，如果不同，则当前时刻的梯度方向减弱，由此动量因子可以让那些因为学习率太大而来回摆动的参数梯度前后抵消，从而阻止发散。
权重衰减系数weight_decay，该系数和L2正则化有关，所谓L2正则化就是在代价函数后面再加上一个正则化项 $C=C0+λ2n∑ww2C=C_{0}+\frac{\lambda}{2 n} \sum_{w} w^{2}$ L2正则化的作用主要是的权重 $w$ 变小，防止过拟合。我们对加入L2正则化后的代价函数进行推导有： $∂C∂w=∂C0∂w+λnw\frac{\partial C}{\partial w}=\frac{\partial C_{0}}{\partial w}+\frac{\lambda}{n} w$ $∂C∂b=∂C0∂b\frac{\partial C}{\partial b}=\frac{\partial C_{0}}{\partial b}$ 我们发现，L2正则化后对偏置 $b$ 没有影响，但是对于权重 $w$ 的更新有影响： $KaTeX parse error: Undefined control sequence: \alphaC at position 56: …frac{\partial \̲a̲l̲p̲h̲a̲C̲_{0}}{\partial …$ 在不适用L2正则化时，求导结果中的 $w$ 之前的系数是1，而 $1−ηλn1-\frac{\eta \lambda}{n}$ 小于1，其效果是减小 $w$ ，这就是权重衰减系数的由来，在he实际应用中，学习率衰减通常有线性衰减（间隔固定epoch学习率减半）和指数衰减（间隔固定epoch学习率乘以0.9998）两种。
Nesterov加速梯度是在动量因子的基础上可以进一步加快收敛速度，使得收敛曲线更加稳定，经典动量的公式如下： $vt=αvt−1−ϵg(wt−1)v_{t}=\alpha v_{t-1}-\epsilon g\left(w_{t-1}\right)$ $w_{t}=w_{t-1}+v_{t}$

而Nesterov加速梯度后的公式如下： $wt−1ahead=wt−1+μvt−1w_{t-1}^{a h e a d}=w_{t-1}+\mu v_{t-1}$ $vt=αvt−1−ϵg(wt−1ahead)v_{t}=\alpha v_{t-1}-\epsilon g\left(w_{t-1}^{a h e a d}\right)$ $w_{t}=w_{t-1}+v_{t}$ 即Nesterov加速梯度中计算的梯度是在当前权重加上累计速度后的梯度

2.2 torch.optim.Adagrad

Adagrad算法相对SGD算法能够更加有效地收敛，能够在数据分布系数的场景，更好利用系数梯度的信息，我们计算梯度有： $\leftarrow \frac{1}{m} \nabla_{\boldsymbol{w}} \sum_{i} L\left(f\left(\boldsymbol{x}^{(i)} ; \boldsymbol{w}\right), \boldsymbol{y}^{(i)}\right)$ 累积平方梯度： $\leftarrow r+g \odot g$ 计算更新 $Δθ←−ϵδ+r⊙g\Delta \boldsymbol{\theta} \leftarrow-\frac{\epsilon}{\delta+\sqrt{r}} \odot g$

ϵ⊙g应用更新

θ←θ+Δθ\theta \leftarrow \theta+\Delta \theta

通常Adagrad算法一开始是激励收敛的，后面慢慢就变成惩罚收敛，这也就导致了会出现学习绿收缩到太小而无法进行有效收敛的情况

2.3 torch.optim.RMSprop

RMSprop算法与Adagrad算法唯一的不同就在于累积平方梯度的方法不同，其累积平方梯度的方式为： $\leftarrow \rho r+(1-\rho) g \odot g$ 其实就是添加了一个衰减系数来控制历史信息获取多少，在该函数中同样可以配置动量因子momentum以及权重衰减系数weight_decay

2.4 torch.optim.Adam

Adam算法全称为adaptive moment estimation，Adam算法其实就是momentum和RMSporp的结合，其通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应学习率，具体算法如下，同样先估计梯度： $g←1m∇w∑iL(f(x(i);w),y(i))\boldsymbol{g} \leftarrow \frac{1}{m} \nabla_{\boldsymbol{w}} \sum_{i} L\left(f\left(\boldsymbol{x}^{(i)} ; \boldsymbol{w}\right), \boldsymbol{y}^{(i)}\right)$ 然后是更新一阶矩估计，也就是momenturm项： $\leftarrow \rho_{1} s+\left(1-\rho_{1}\right) g$ 更新二阶矩估计,相当于二阶矩估计： $\leftarrow \rho_{2} r+\left(1-\rho_{2}\right) g \odot g$ 然后分别修正一阶矩偏差和二阶矩偏差 $s^←s1−ρ1t\hat{\boldsymbol{s}} \leftarrow \frac{\boldsymbol{s}}{1-\rho_{1}^{t}}$ $r^←r1−ρ2t\hat{\boldsymbol{r}} \leftarrow \frac{\boldsymbol{r}}{1-\rho_{2}^{t}}$ 然后逐元素计算更新 $Δθ=−ϵs^r^+δ\Delta \theta=-\epsilon \frac{\hat{\boldsymbol{s}}}{\sqrt{\hat{\boldsymbol{r}}}+\delta}$

+δs^最后应用更新：

θ←θ+Δθ\theta \leftarrow \theta+\Delta \theta

Adam算法的优势是适合解决大规模数据的参数优化问题，同时适用于非稳态目标

pytorch中还有的优化方法有Adadelta，Adamax，ASGD，LBFGS以及RProp

3. 损失函数

3.1 torch.nn.L1Loss

计算输入 $x$ 和目标 $y$ 之间的绝对值的平均值 $loss⁡(x,y)=1/n∑∣xi−yi∣\operatorname{loss}(x, y)=1 / n \sum \mid x_{i}-y_{i}|$

3.2 torch.nn.MSELoss

计算输入 $x$ 和目标 $y$ 之间的均方误差 $loss⁡(x,y)=1/n∑(xi−yi)2\operatorname{loss}(x, y)=1 / n \sum\left(x_{i}-y_{i}\right)^{2}$

3.3 torch.nn.CrossEntropyLoss

用于多分类器的交叉熵损失 $]+log⁡(∑jexp⁡(x[j]))\operatorname{loss}(x, \text { class })=-\log \frac{\exp (x[\text { class }])}{\left.\sum_{j} \exp (x[j])\right)} \quad=-x[\text { class }]+\log \left(\sum_{j} \exp (x[j])\right)$

pytorch中还有的损失函数有NLLLoss，KLDivLoss，BCELoss，MarginRankingLoss，HingeEmbeddingLoss，MultiLabelMarginLoss，SmoothL1Loss，SoftMarginLoss，MultiLabelSoftMarginLOss，CosineEmbeddingLoss，MultiMarginLoss

4. 初始化

4.1 torch.nn.init.uniform

从给定的上下界的均匀分布中生成值，然后填充入张量或者变量进行初始化

4.2 torch.nn.init.normal

从给定的均值和方差的正态分布中生成值，然后填充入张量或者变量进行初始化

4.3 torch.nn.init.constant

将给定的常量填充入张量或者变量进行初始化

4.4 torch.nn.init.xavier_uniform / torch.nn.init.xavier_normal

为了使得网络中信息更好的流动，每一层输出的方差应该尽量相同，这就是xavier算法的核心思想，对于一层卷积有
$y=w1x1+⋯+wnixni+by=w_{1} x_{1}+\cdots+w_{n_{i}} x_{n_{i}}+b$ 其中 $n_i$ 表示输入个数，根据概率统计知识我们有如下方差公式： $Var⁡(wixi)=E[wi]2Var⁡(xi)+E[xi]2Var⁡(wi)+Var⁡(wi)Var⁡(xi)\operatorname{Var}\left(w_{i} x_{i}\right)=E\left[w_{i}\right]^{2} \operatorname{Var}\left(x_{i}\right)+E\left[x_{i}\right]^{2} \operatorname{Var}\left(w_{i}\right)+\operatorname{Var}\left(w_{i}\right) \operatorname{Var}\left(x_{i}\right)$ 特别地，当我们假设输入和权重都是0均值时有 $Var⁡(wixi)=Var⁡(wi)Var⁡(xi)\operatorname{Var}\left(w_{i} x_{i}\right)=\operatorname{Var}\left(w_{i}\right) \operatorname{Var}\left(x_{i}\right)$ 进一步假设输入的 $x$ 和 $w$ 都是独立同分布，则有： $Var⁡(y)=niVar⁡(wi)Var⁡(xi)\operatorname{Var}(y)=n_{i} \operatorname{Var}\left(w_{i}\right) \operatorname{Var}\left(x_{i}\right)$ 于是，为了保证输入与输出方差一致，则应该有： $Var⁡(wi)=1ni\operatorname{Var}\left(w_{i}\right)=\frac{1}{n_{i}}$ 对于一个多层网络，某一层的方差可以用累计的形式表达： $Var⁡[zi]=Var⁡[x]∏i′=0i−1ni′Var⁡[Wi′]\operatorname{Var}\left[z^{i}\right]=\operatorname{Var}[x] \prod_{i^{\prime}=0}^{i-1} n_{i^{\prime}} \operatorname{Var}\left[W^{i^{\prime}}\right]$ 反向传播时具有类似的形式： $∂sd]∏i′=idni′+1Var⁡[Wi′]\operatorname{Var}\left[\frac{\partial \text { Cost }}{\partial s^{i}}\right]=\operatorname{Var}\left[\frac{\partial \text { Cost }}{\partial s^{d}}\right] \prod_{i^{\prime}=i}^{d} n_{i^{\prime}+1} \operatorname{Var}\left[W^{i^{\prime}}\right]$ 则为了保证前向传播和反向传播时每一层的方差一致，则应该满足 $∀i,niVar⁡[Wi]=1\forall i, \quad n_{i} \operatorname{Var}\left[W^{i}\right]=1$ $∀i,ni+1Var⁡[Wi]=1\forall i, \quad n_{i+1} \operatorname{Var}\left[W^{i}\right]=1$ 但是实际中输入和输出的个数通常不相等，因此最终我们的权重方差应该满足： $∀i,Var⁡[Wi]=2ni+ni+1\forall i, \quad \operatorname{Var}\left[W^{i}\right]=\frac{2}{n_{i}+n_{i+1}}$ 对于[a, b]区间中的均匀分布的方差为： $Var⁡=(b−a)212\operatorname{Var}=\frac{(b-a)^{2}}{12}$ 那么，满足xavier算法的均匀分布是 $\sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}, \frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}\right]$

,nj+nj+1

]同理我们可知满足xavier算法的高斯分布是

W∼N[0,2nj+nj+1]W\sim N\left[0, \frac{\sqrt{2}}{\sqrt{n_{j}+n_{j+1}}}\right]

4.5 torch.nn.init.kaiming_uniform / torch.nn.init.kaiming_normal

上述xavier初始化的问题主要在只适用于线性激活函数，但实际上，对于深层神经网络来说，线性激活函数没有价值。kaiming算法就是针对是非线性的Relu激活函数设计的一种初始化方法。对于均值为0的输出来说，Relu激活函数会将小于零的部分都置为0，这样上述xavier初始化中均值为0的假设就不成立了，具体的推到可以参考论文Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

pytorch中还有的初始化方式有eye，dirac，sparse