Mish: A Self Regularized Non-Monotonic Activation Function 论文笔记
Mish: A Self Regularized Non-Monotonic Activation Function
论文链接: https://arxiv.org/abs/1908.08681 BMVC 2020
一、 Problem Statement
对swish的一个提升。
二、 Direction
提出一个self regularized non-monotonic self gating 激活函数。
三、 Method
函数本体是:
f ( x ) = x tanh ( s o f t p l u s ( x ) ) = x tanh ( l n ( 1 + e x ) ) f(x)=x\tanh(softplus(x))=x\tanh(ln(1+e^x)) f(x)=xtanh(softplus(x))=xtanh(ln(1+ex))
范围在 [ ≈ − 0.31 , ∞ ] [\approx-0.31, \infty] [≈−0.31,∞]。
一阶导数为:
f ′ ( x ) = e x ω δ 2 f'(x)=\frac{e^x \omega}{\delta^2} f′(x)=δ2exω
其中 ω = 4 ( x + 1 ) + 4 e 2 x + e 3 x + e x ( 4 x + 6 ) \omega=4(x+1)+4e^{2x}+e^{3x}+e^{x}(4x+6) ω=4(x+1)+4e2x+e3x+ex(4x+6), δ = 2 e x + e 2 x + 2 \delta=2e^x+e^{2x}+2 δ=2ex+e2x+2
来看看其样式:
Mish保留了small amount of negative information, 消除了Dying ReLU现象。这个性质有助于更好的表达性和信息传递。Mish也避免了saturation, 这个饱和状态会使得训练变慢。所谓的saturation,就是激活函数值接近边界的时候,它们的梯度为0,也就是反向传播的时候梯度消失。
上图例:左边是Sigmoid,右边是tanh。所以为了防止saturation,必须对于权重矩阵初始化特别留意。比如,如果初始化权重过大,那么大多数神经元将会饱和,导致网络就几乎不学习了。
作者也比较了Mish的其他优点:
- 随着网络层增加,accuracy下降的不多。
- 增加高斯噪声到输入,mish相对于Swish和ReLU,loss较小。
- 初始化对精度影响较Swish小。
四、 Conclusion
一个新型的激活函数,提升了网络的性能。在YOLOv4等检测器上都使用了。
五、 Reference
- https://zhuanlan.zhihu.com/p/67054518
- https://www.zhihu.com/question/48010350/answer/109446932
Mish: A Self Regularized Non-Monotonic Activation Function 论文笔记相关推荐
- 激活函数(activation function)
激活函数activation function 激活函数的介绍 阶跃函数(Step Function)--- 最简单的二分类非线性激活函数开始 mish激活函数 激活函数的介绍 首先看一个普通的神经网 ...
- 深度学习中常见的10种激活函数(Activation Function)总结
目录 一:简介 二:为什么要用激活函数 三:激活函数的分类 四:常见的几种激活函数 4.1.Sigmoid函数 4.2.Tanh函数 4.3.ReLU函数 4.4.Leaky Relu函数 4.5.P ...
- 聊一聊深度学习的activation function
转载自:https://zhuanlan.zhihu.com/p/25110450 TLDR (or the take-away) 优先使用ReLU (Rectified Linear Unit) 函 ...
- 激活函数 activation function
文章目录 激活函数 activation function Sigmoid Sigmoid 反向传播 Tanh ReLU Dead ReLU Problem 产生的原因 激活函数 activation ...
- Linear Regression、Logistic Regression、激励函数activation function(relu,sigmoid, tanh, softplus)
1.5.2.Linear Regression 1.5.2.1.Linear Regression 1.5.2.1.1.案例1 1.5.2.1.2.案例2 1.5.2.1.3.案例3源码(带有保存模型 ...
- Homepage Machine Learning Algorithm 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...
- 转载-聊一聊深度学习的activation function
目录 1. 背景 2. 深度学习中常见的激活函数 2.1 Sigmoid函数 2.2 tanh函数 2.3 ReLU函数 2.4 Leaky ReLu函数 2.5 ELU(Exponential Li ...
- 激活函数(Activation Function)及十大常见激活函数
目录 1 激活函数的概念和作用 1.1 激活函数的概念 1.2 激活函数的作用 1.3 通俗地理解一下激活函数(图文结合) 1.3.1 无激活函数的神经网络 1.3.2 带激活函数的神经网络 2 神经 ...
- Why we need activation function?
整理自吴恩达深度学习课程 https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&a ...
最新文章
- 北京科技大学转专业到计算机,北科大学生全可转专业
- 吉林大学数据结构(C++版)
- Qt connect信号连接的几种写法
- 【转】C++中#include包含头文件带 .h 和不带 .h 的区别
- 百度北汽结盟:2021年量产L4级无人车
- 一分钟掌握Python字典的用法
- Python 网络爬虫——爬取小说网站
- 寻找“最好”(2)——欧拉-拉格朗日方程
- 阿里巴巴-飞猪 电话面试
- 三角函数诱导公式理解
- 数图互通高校房产管理模块周转房管理是怎样管理如合同、续租、到期提醒
- 衣服不管染上什么,用这招都能洗掉!99%的人不知道!
- mac安装ffmpeg遇到的坑
- core dump 是什么意思?
- WindowServer2012R2+Anoconda3.5.0.1+CUDA9.0+cuDNN7.1.3+Tensorflow-gpu1.6离线搭建深度学习开发环境
- server sql top速度变慢解决方案_SQL Server:执行计划教会我如何创建索引?(解决SQL加了TOP之后变很慢的问题)...
- 明天回家,总结一下,提前拜个早年
- 感悟:君子不立于危墙之下
- Android 指引蒙版的实现
- 编程实现输入千米数,输出显示其英里数。已知:1英里=1.60934千米(用符号常量)