论文:gaussian error linear units
(一)、什么是激活函数?
激活函数的本质就是给网络模型增加非线性,也就是在wTx+bw^Tx+bwTx+b等线性变换后面加一个非线性变换,这个非线性变换就称为激活函数。

(二)、什么是gelu激活函数?
gelu(gaussian error linear units)就是我们常说的高斯误差线性单元,它是一种高性能的神经网络激活函数,因为gelu的非线性变化是一种符合预期的随机正则变换方式,公式如下:xP(X≤x)=xΦ(x)(2.1){xP(X \le x)=x\Phi(x)}\tag{2.1}xP(X≤x)=xΦ(x)(2.1)其中Φ(x)\Phi(x)Φ(x)指的是xxx的高斯正态分布的累积分布,完整形式如下:xP(X≤x)=x∫−∞xe−(X−μ)22σ22πσdX(2.2){xP(X \le x)=x\int_{-\infty}^{x}\frac{e^{-\frac{(X-\mu)^2}{2\sigma^2}}}{\sqrt{2\pi}\sigma} \, \mathrm{d}X}\tag{2.2}xP(X≤x)=x∫−∞x​2π​σe−2σ2(X−μ)2​​dX(2.2)计算结果约为:0.5x(1+tanh[2π(x+0.044715x3)])(2.3){0.5x(1+tanh[\sqrt{\frac{2}{\pi}}(x+0.044715x^3)])}\tag{2.3}0.5x(1+tanh[π2​​(x+0.044715x3)])(2.3)或者可以表示为:xσ(1.702x)(2.4){x\sigma(1.702x)}\tag{2.4}xσ(1.702x)(2.4)由此可知,概率P(X≤x)P(X\leq x)P(X≤x)(xxx可看成当前神经元的激活值输入),即XXX的高斯正态分布ϕ(X)\phi(X)ϕ(X)的累积分布Φ(x)\Phi(x)Φ(x)是随着xxx的变化而变化的,当xxx增大,Φ(x)\Phi(x)Φ(x)增大,当x减小,Φ(x)\Phi(x)Φ(x)减小,即当xxx越小,在当前激活函数激活的情况下,越有可能激活结果为0,即此时神经元被dropout,而当xxx越大越有可能被保留。

(三)、gelu的使用技巧(practices tips)
1.当在训练过程中使用gelus作为激活函数进行训练时,建议使用一个带有动量(momentum)的优化器,并将其作为深度学习网络的一种规范。
2.在使用gelus的过程中,公式(3)的σ\sigmaσ函数的选择是非常关键的,一般需要使用与正态分布的累积分布近似的函数,一般可以选择与正态分布的累积分布较为近似的函数sigmoid(x)=1/(1+e(−x))sigmoid(x)=1/(1+e^{(-x)})sigmoid(x)=1/(1+e(−x))作为σ\sigmaσ函数。

(四)、gelu激活函数的公式说明
1.在确定gelus激活函数公式之前,作者说,他发现SLU(Sigmoid Linear Units),即xσ(x)x\sigma(x)xσ(x)函数效果比ELU(Exponential Linear Units)和RELU(Rectified Linear Units)效果好,但是比xsigmoid(1.702x)xsigmoid(1.702x)xsigmoid(1.702x)公式效果要差,所以最终使用了sigmoid(1.702x)sigmoid(1.702x)sigmoid(1.702x)而不是sigmoid(x)sigmoid(x)sigmoid(x)去替代高斯分布的累计分布Φ(x)\Phi(x)Φ(x)。
2.之所以选择类高斯分布累积分布的函数去构建gelus激活函数公式,一是因为依据中心极限定理,大量独立随机变量的总体是服从近似正态分布的,因此,现实中有很多复杂情况可以被建模成近似正态分布,使用类正态分布函数作为激活函数就更加合理,二是在具有相同方差的所有可能的分布中,正态分布具有最大不确定性,即熵最大。

(五)、Gelu(u(均值)=0,σ(方差)=1u(均值)=0,σ(方差) =1u(均值)=0,σ(方差)=1),Elu(α=1\alpha=1α=1),Relu激活函数对比图

(六)、Gelu(u(均值)=0,σ(方差)=1u(均值)=0,σ(方差) =1u(均值)=0,σ(方差)=1),Elu(α=1\alpha=1α=1),Relu在Cifar-10数据集上的Classification Error(%)对比图

(七)、Gelu(u(均值)=0,σ(方差)=1u(均值)=0,σ(方差) =1u(均值)=0,σ(方差)=1),Elu(α=1\alpha=1α=1),Relu在Cifar-100 Wide Residual Network 上Log Loss的对比图

(八)、补充:ELu(Exponential Linear Units)公式
{xifx>0α(exp(x)−1)ifx≤0(7.1)\begin{cases} x\quad \quad if \ x>0\\ {\alpha(exp(x)-1)\quad if \ x \leq 0}\tag{7.1} \end{cases} {xif x>0α(exp(x)−1)if x≤0​(7.1)

深度学习中的gelu激活函数详解相关推荐

  1. 深度学习中常用的激活函数详解及对比分析(sigmoid)

    Sigmoid函数: 特性: 1.当变量值远离中心轴时,梯度几乎为0,在神经网络的反向传播过程中,链式求导导致经过sigmoid函数之后的梯度 很小,权重值更新较慢 2.计算机执行指数运算较慢 3.s ...

  2. 深度学习中的正则化技术详解

    目录 基本概念 1. 参数范数惩罚 1.1 \(L^2\)正则化 1.2 \(L^1\)正则化 1.3 总结\(L^2\)与\(L^1\)正则化 2. 作为约束的范数惩罚 3. 欠约束问题 4. 数据 ...

  3. 深度学习中的线性代数知识详解

    1. 基础概念 标量(scalar) 一个标量就是一个单独的数,一般用小写的的变量名称表示. 向量(vector) 一个向量就是一列数,这些数是有序排列的: ⎡⎣⎢⎢⎢⎢x1x2...x5⎤⎦⎥⎥⎥⎥ ...

  4. 【基础知识】深度学习中各种归一化方式详解

    本文转载自 https://blog.csdn.net/qq_23981335/article/details/106572171 仅作记录学习~ 总结 BN,LN,IN,GN,WS 从学术上解释差异 ...

  5. DL之AF:机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略

    DL之AF:机器学习/深度学习中常用的激活函数(sigmoid.softmax等)简介.应用.计算图实现.代码实现详细攻略 目录 激活函数(Activation functions)相关配图 各个激活 ...

  6. 深度学习 --- 径向基神经网络RBF详解

    上一节我们基本上打开了深度学习的大门,其实下一步应该是卷积神经网络即CNN了,但是呢卷积神经网络的最后一层采用的是径向基神经网络,为了以后到CNN不用再费力气将RBF和保持CNN的整体性和连贯性,因此 ...

  7. 深度学习之---yolov1,v2,v3详解

    (写在前面:如果你想 run 起来,立马想看看效果,那就直接跳转到最后一张,动手实践,看了结果再来往前看吧,开始吧······) 一.YOLOv1 简介 这里不再赘述,之前的我的一个 GitChat ...

  8. 深度学习 CNN卷积神经网络 LeNet-5详解

    卷积神经网络( Convolutional Neural Network, CNN): 是一种常见的深度学习架构,受生物自然视觉认知机制(动物视觉皮层细胞负责检测光学信号)启发而来,是一种特殊的多层前 ...

  9. faceswap深度学习AI实现视频换脸详解

    给大家介绍最近超级火的黑科技应用deepfake,这是一个实现图片和视频换脸的app.前段时间神奇女侠加尔盖朵的脸被换到了爱情动作片上,233333.我们这里将会从github项目faceswap开始 ...

最新文章

  1. 请求异步js,请求完成后执行代码
  2. (双指针) bzoj 1071
  3. AC自动机 HDU 2222
  4. 16 个写代码的好习惯
  5. Python命令行之旅:使用argparse实现git命令
  6. Luogu P3455 [POI2007]ZAP-Queries
  7. Hdu 3478 Catch
  8. LuoguP5897 [IOI2013]wombats
  9. 2018年中国AI行业研究报告
  10. 【OpenCV】直方图
  11. 大数据分析对企业运营的价值体现
  12. Lambda表达式只是一颗语法糖?
  13. 【毕业设计源码】基于SSM的小程序任务调度管理信息系统设计与实现
  14. 在线编辑word文档
  15. SPC X-R控制图的操作步骤
  16. 官网正版UltraEdit、UltraFTP、UltraCompare安装激活使用
  17. Android蓝牙4.0之传输速率的提升
  18. Python常用的基本编程规范
  19. PHP容器--Pimple运行流程浅析
  20. 小程序用什么开发?快速开发一个自己的微信小程序教程

热门文章

  1. python解码转换
  2. BZOJ 1829 [Usaco2010 Mar]starc星际争霸 ——半平面交
  3. 基于yolo5制作的AI识别FPS游戏自动化
  4. 计算机系统英语作文结尾万能句子,英语作文开头结尾万能句子
  5. TensorFlow 学习(六)时尚(衣服、鞋、包等) Fashion MNIST识别
  6. 知识答题对战2.2.3小程序源码|前端+后端完整源码(微擎框架)
  7. 华为跌出欧洲前五无奈落泪,OPPO兄弟的份额激增,小米上升势头受阻
  8. android强制关掉应用,android应用程序强制关闭执行此查询
  9. pkl压缩包改成.pkl文件
  10. github使用AccessToken登录配置教程