梯度下降与ReLU激活函数

14.梯度下降与ReLU激活函数

14.1 梯度下降法

在数学中，梯度表示函数递增速度最快的方向，反之梯度的负方向则表示函数衰减最快的方向。因此，可以通过不断迭代使用梯度下降方法求解到函数的最小值。（可能是局部最小值，也可能是全局最小值），这取决于学习率的选择。如：为了求解函数f(x)=f(x1,x2…xn)f(x)=f(x_1,x_2\dots x_n)f(x)=f(x1,x2…xn)的最小值，则可以从一个起始点：x(0)=(x1(0),x2(0),…xn(0))x^{(0)}=(x_1^{(0)},x_2^{(0)},\dots x_n^{(0)})x(0)=(x1(0),x2(0),…xn(0))开始，不断采用梯度下降法进行求解，直到满足一定的限制条件，如：两次迭代的差值小于某个设定的阈值或迭代次数超过某个设置的预定值。当i≥0i\geq0i≥0时，梯度下降法可以表示为：
x1(i+1)=x1(i)−η∗∂f∂x1(x(i))…xn(i+1)=xn(i)−η∗∂f∂xn(x(i))\begin{array}{lcl}x_1^{(i+1)}=x_1^{(i)}-η*\frac{\partial f}{\partial x_1}(x^{(i)})\\\dots\\x_n^{(i+1)}=x_n^{(i)}-η*\frac{\partial f}{\partial x_n}(x^{(i)})\end{array}x1(i+1)=x1(i)−η∗∂x1∂f(x(i))…xn(i+1)=xn(i)−η∗∂xn∂f(x(i))。

14.2 ReLU激活函数

激活函数作用为通过多重非线性的叠加，解决复杂的非线性问题，在现实生活中，非线性问题远大于线性问题。假设当前的激活函数均为线性的，则，我们假设有两层，线性函数设为：y=w∗x+by=w*x+by=w∗x+b，第一层为y1=w1∗x+b1y_1=w_1*x+b_1y1=w1∗x+b1，第二层为y2=w2∗y1+b2y_2=w_2*y_1+b_2y2=w2∗y1+b2。则两层叠加以后为y=w2∗(w1∗x+b1)+b2=w2∗w1∗x+w2∗b1+b2y=w_2*(w_1*x+b_1)+b_2=w_2*w_1*x+w_2*b_1+b_2y=w2∗(w1∗x+b1)+b2=w2∗w1∗x+w2∗b1+b2进一步得到：y=(w2∗w1)x+(w2∗b1+b2)y=(w_2*w_1)x+(w_2*b_1+b_2)y=(w2∗w1)x+(w2∗b1+b2)。可见如果使用线性模型做激活函数的话，无论是多少层，最终的结果依然是一个线性模型，无法解决现实生活中绝大部分非线性问题，如下图所示。

在当前，对激活函数的研究主要集中在是否可以加快网络学习速度上。当前，主流的激活函数为ReLU函数。ReLU函数的表达式为ReLU=max(0,x)ReLU=max(0,x)ReLU=max(0,x)。其函数图像和导数图像如下图所示：

其优点分析如下：

尤其导数形式可以看到，其导数值为0或者1，这就意味着不会像Sigmoid函数那样，其导数最大值为0.25，每次遇到激活函数时至少被压缩四分之一。而ReLU函数则直接为 1，这样可以避免在反向传播过程中由于对激活函数的多重导数累积导致的最终梯度消失的问题。（具体原因见反向传播最后的讨论问题）。
其函数形式简单，因此在进行函数激活时，相当于只做了一个判断，如果输出大于0，则按照原始输入值输出即可，小于0则激活后的输出值为0。
由于其导数形式简单，一次在学习过程中其速度远大于Sigmoid和Tanh函数的学习速度，有研究认为其速度约为Sigmoid或者Tanh的6倍。
由于其在负半轴上均为0，因此所有的噪音都会被去除。对噪音的鲁棒性较好。
具有一定的生物真实性，下图为基于生物数据绘制的生物神经元激活图，在0以后会有一个激活
由于其对负半轴导数为0，则会导致很多神经元不被激活，会导致稀疏，这一点和我们对人脑的认知是一致的，我们认为在一次学习中人脑一种1-4%的神经元被激活。

但是也存在如下的问题：

ReLu的输出不是以0位中心的：不以0位中心将带来以下问题：
假如a1,a2a_1,a_2a1,a2是两个输入的特征，两个特征分别经过w1,w2w_1,w_2w1,w2激活以后的结果为yyy，经过 softmax以后的结果为LLL，则我们分别在两个方向上进行偏导的求解可以得到：
∂L∂w1=∂L∂y∗∂y∂w1=∂L∂y∗a1\frac{\partial L}{\partial w_1}=\frac{\partial L}{\partial y}*\frac{\partial y}{\partial w_1}=\frac{\partial L}{\partial y}*a_1∂w1∂L=∂y∂L∗∂w1∂y=∂y∂L∗a1
∂L∂w2=∂L∂y∗∂y∂w2=∂L∂y∗a2\frac{\partial L}{\partial w_2}=\frac{\partial L}{\partial y}*\frac{\partial y}{\partial w_2}=\frac{\partial L}{\partial y}*a_2∂w2∂L=∂y∂L∗∂w2∂y=∂y∂L∗a2
由于激活函数ReLU的输出值均大于等于0，因此我们可以知道在w1,w2w_1,w_2w1,w2方向上必然符号相同，也就是w1,w2w_1,w_2w1,w2的符号移动方向必定在第一，第三象限的方向上。由于无法在四个方向上移动，因此其梯度下降的速度就会比较慢，正因为如何其学习速度就慢。
ReLU在负轴上仍然存在梯度消失的问题，这里认为设定在0处时，其导数为0。也被称为（Dead ReLU）

14.2.1 ReLU函数的改进

为了解决当前ReLU激活函数存在的问题，不少研究者提出各种各样激活函数的改进版本，其中较为出名的改进版本如下：

14.2.1.1 PＲeLU 激活函数

该函数的定义形式为：
{xx>0αxx⩽0\begin{cases}x&x>0\\\alpha x&x\leqslant0\end{cases}{xαxx>0x⩽0
当α\alphaα的值为0.25时，其函数图像如下：

其优势在于：

对x轴的负半轴进行了激活，使得当前的激活函数以0位中心，学习的速度更快
解决了负半轴不被激活的问题，因此解决了函数的梯度消失问题

其劣势在于：

对负半轴的值虽然进行了激活，但是我们也发现由于负半轴具备较多的噪音，这样的处理不利于对噪音数据的处理。

14.2.1.2 TＲeLU 激活函数

针对上文提出的在负半轴对噪音处理问题，中国学者提出：TReLU函数，具体形式如下：
{xx>0tan(αx)x⩽0\begin{cases}x&x>0\\tan(\alpha x)&x\leqslant0\end{cases}{xtan(αx)x>0x⩽0
其函数图像如下（在不同α\alphaα下）：

14.2.1.3 AReLU激活函数

相比于上文提到的两个激活函数相比，AReLU函数在正负半轴上都进行了改进，且在正半轴上更接近于生物真实性。其函数形式如下：
{ln(x+1)+ax,x>0ax,x⩽0\begin{cases}ln(x+1)+ax,&x>0\\ax,&x\leqslant0\end{cases}{ln(x+1)+ax,ax,x>0x⩽0
其中，这里共享一个aaa作为学习参数，其函数图像如下：

这里其实很明显的一个问题为在负半轴上没有限制其大小，虽然激活了负半轴但是对于噪音数据的处理明显存在问题。同时由于公用一个参数aaa导致的问题时其准确度不高。在此基础上中国学者也进行了探索：

14.2.1.4 LogReLU激活函数

该函数的提出与上面相比对其参数进行了选择使用，如下：
{ln(x+1)+a1x,x>0a2x,x⩽0\begin{cases}ln(x+1)+a_1x,&x>0\\a_2x,&x\leqslant0\end{cases}{ln(x+1)+a1x,a2x,x>0x⩽0
这里他的函数图像与上面相比类似但是其内部核心思想明显不同，其需要学习两个参数，这两个参数的学习需要更多的学习时间，但是却提高了模型的准确度。

14.2.1.5 Bounded ReLU激活函数

该激活函数表示式如下：
{n,x>nx,0⩽x⩽n0x<0\begin{cases}n,&x>n\\x,&0\leqslant x\leqslant n\\0&x<0\end{cases}⎩⎪⎨⎪⎧n,x,0x>n0⩽x⩽nx<0，其函数图像如下（n=6n=6n=6时的情况）：

这样解决一个问题，就是当xxx无限大的时候，避免了激活激活超出边界。

也欢迎访问个人网站：www.edumind.tech