Mish: A Self Regularized Non-Monotonic Activation Function

论文链接: https://arxiv.org/abs/1908.08681 BMVC 2020

一、 Problem Statement

对swish的一个提升。

二、 Direction

提出一个self regularized non-monotonic self gating 激活函数。

三、 Method

函数本体是:
f ( x ) = x tanh ⁡ ( s o f t p l u s ( x ) ) = x tanh ⁡ ( l n ( 1 + e x ) ) f(x)=x\tanh(softplus(x))=x\tanh(ln(1+e^x)) f(x)=xtanh(softplus(x))=xtanh(ln(1+ex))
范围在 [ ≈ − 0.31 , ∞ ] [\approx-0.31, \infty] [≈−0.31,∞]。

一阶导数为:

f ′ ( x ) = e x ω δ 2 f'(x)=\frac{e^x \omega}{\delta^2} f′(x)=δ2exω​

其中 ω = 4 ( x + 1 ) + 4 e 2 x + e 3 x + e x ( 4 x + 6 ) \omega=4(x+1)+4e^{2x}+e^{3x}+e^{x}(4x+6) ω=4(x+1)+4e2x+e3x+ex(4x+6), δ = 2 e x + e 2 x + 2 \delta=2e^x+e^{2x}+2 δ=2ex+e2x+2

来看看其样式:

Mish保留了small amount of negative information, 消除了Dying ReLU现象。这个性质有助于更好的表达性和信息传递。Mish也避免了saturation, 这个饱和状态会使得训练变慢。所谓的saturation,就是激活函数值接近边界的时候,它们的梯度为0,也就是反向传播的时候梯度消失。

上图例:左边是Sigmoid,右边是tanh。所以为了防止saturation,必须对于权重矩阵初始化特别留意。比如,如果初始化权重过大,那么大多数神经元将会饱和,导致网络就几乎不学习了。

作者也比较了Mish的其他优点:

  1. 随着网络层增加,accuracy下降的不多。
  2. 增加高斯噪声到输入,mish相对于Swish和ReLU,loss较小。
  3. 初始化对精度影响较Swish小。

四、 Conclusion

一个新型的激活函数,提升了网络的性能。在YOLOv4等检测器上都使用了。

五、 Reference

  1. https://zhuanlan.zhihu.com/p/67054518
  2. https://www.zhihu.com/question/48010350/answer/109446932

Mish: A Self Regularized Non-Monotonic Activation Function 论文笔记相关推荐

  1. 激活函数(activation function)

    激活函数activation function 激活函数的介绍 阶跃函数(Step Function)--- 最简单的二分类非线性激活函数开始 mish激活函数 激活函数的介绍 首先看一个普通的神经网 ...

  2. 深度学习中常见的10种激活函数(Activation Function)总结

    目录 一:简介 二:为什么要用激活函数 三:激活函数的分类 四:常见的几种激活函数 4.1.Sigmoid函数 4.2.Tanh函数 4.3.ReLU函数 4.4.Leaky Relu函数 4.5.P ...

  3. 聊一聊深度学习的activation function

    转载自:https://zhuanlan.zhihu.com/p/25110450 TLDR (or the take-away) 优先使用ReLU (Rectified Linear Unit) 函 ...

  4. 激活函数 activation function

    文章目录 激活函数 activation function Sigmoid Sigmoid 反向传播 Tanh ReLU Dead ReLU Problem 产生的原因 激活函数 activation ...

  5. Linear Regression、Logistic Regression、激励函数activation function(relu,sigmoid, tanh, softplus)

    1.5.2.Linear Regression 1.5.2.1.Linear Regression 1.5.2.1.1.案例1 1.5.2.1.2.案例2 1.5.2.1.3.案例3源码(带有保存模型 ...

  6. Homepage Machine Learning Algorithm 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...

  7. 转载-聊一聊深度学习的activation function

    目录 1. 背景 2. 深度学习中常见的激活函数 2.1 Sigmoid函数 2.2 tanh函数 2.3 ReLU函数 2.4 Leaky ReLu函数 2.5 ELU(Exponential Li ...

  8. 激活函数(Activation Function)及十大常见激活函数

    目录 1 激活函数的概念和作用 1.1 激活函数的概念 1.2 激活函数的作用 1.3 通俗地理解一下激活函数(图文结合) 1.3.1 无激活函数的神经网络 1.3.2 带激活函数的神经网络 2 神经 ...

  9. Why we need activation function?

    整理自吴恩达深度学习课程 https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&a ...

最新文章

  1. 北京科技大学转专业到计算机,北科大学生全可转专业
  2. 吉林大学数据结构(C++版)
  3. Qt connect信号连接的几种写法
  4. 【转】C++中#include包含头文件带 .h 和不带 .h 的区别
  5. 百度北汽结盟:2021年量产L4级无人车
  6. 一分钟掌握Python字典的用法
  7. Python 网络爬虫——爬取小说网站
  8. 寻找“最好”(2)——欧拉-拉格朗日方程
  9. 阿里巴巴-飞猪 电话面试
  10. 三角函数诱导公式理解
  11. 数图互通高校房产管理模块周转房管理是怎样管理如合同、续租、到期提醒
  12. 衣服不管染上什么,用这招都能洗掉!99%的人不知道!
  13. mac安装ffmpeg遇到的坑
  14. core dump 是什么意思?
  15. WindowServer2012R2+Anoconda3.5.0.1+CUDA9.0+cuDNN7.1.3+Tensorflow-gpu1.6离线搭建深度学习开发环境
  16. server sql top速度变慢解决方案_SQL Server:执行计划教会我如何创建索引?(解决SQL加了TOP之后变很慢的问题)...
  17. 明天回家,总结一下,提前拜个早年
  18. 感悟:君子不立于危墙之下
  19. Android 指引蒙版的实现
  20. 编程实现输入千米数,输出显示其英里数。已知:1英里=1.60934千米(用符号常量)

热门文章

  1. 树莓派 3b+ 学习
  2. 飞机荷兰滚产生原因、受力分析、解决方法
  3. 腾讯云标准型S3服务器独享100%CPU性能评测
  4. 【云网络案例-1】云主机使用独享带宽IP切换为共享带宽IP,节省成本
  5. php登陆后获取用户信息,PHP 模拟登陆MSN并获得用户信息
  6. 对移动硬盘里的文件夹加密
  7. ShaderToy入门教程(1) - SDF 和 Raymarching 算法
  8. 中小学生学习数学软件
  9. OSChina 周三乱弹 —— 假期综合症已发作
  10. python-使用pyautogui在桌面打开谷歌浏览器