自门控激活函数Swish
论文链接:Swish: a Self-Gated Activation Function
目前使用最广泛的激活函数是 ReLU。
本论文中,我们提出了一种新型激活函数 Swish,Swish的数学表达为:
其中σ(x) = 1/(1 + exp(−x)) 是 Sigmoid 函数。 Swish 函数的几何表示如下:
图 1:Swish 激活函数
和 ReLU 一样,Swish 无上界有下界。 与 ReLU 不同的是,Swish 是平滑且非单调的函数。
Swish 的导数是
Swish 的一阶导和二阶导如图 2 所示。输入低于 1.25 时,导数小于 1。
图 2:Swish 的一阶导数与二阶导数。
Swish 的设计受到 LSTM 和 highway network 中使用 sigmoid 函数进行门控的启发。我们使用同样的值进行门控来简化门控机制,称为自门控(self-gating)。自门控的优势是它仅需要一个简单的标量输入,而正常的门控需要多个标量输入。该特性令使用自门控的激活函数如 Swish 能够轻松替换以单个标量作为输入的激活函数(如 ReLU),无需改变参数的隐藏容量或数量。
在 TensorFlow 等大多数深度学习库中只需更改一行代码即可实现 Swish 函数。需要注意的是,如果使用 BN,应设置缩放参数(scale parameter)。由于 ReLU 函数是分段线性函数,一些高级别的库默认关闭缩放参数,但是该设置不适用于 Swish。
一句话:Swish 是一种新型激活函数,公式为: f(x) = x · sigmoid(x)。Swish 具备无上界有下界、平滑、非单调的特性。
自门控激活函数Swish相关推荐
- 谷歌大脑自门控激活函数Swish
最近谷歌大脑公布了一个新的激活函数,叫做 Swish 激活函数.这个函数非常的有趣,很多人都把它应用到一些小的神经网络和大的神经网络中去测试它的性能.所以,我也打算去 kaggle 上面测试一些这个 ...
- 从LSTM到GRU基于门控的循环神经网络总结
1.概述 为了改善基本RNN的长期依赖问题,一种方法是引入门控机制来控制信息的累积速度,包括有选择性地加入新的信息,并有选择性遗忘之前累积的信息.下面主要介绍两种基于门控的循环神经网络:长短时记忆网络 ...
- 三次简化一张图:一招理解LSTM/GRU门控机制
机器之心专栏 作者:张皓 RNN 在处理时序数据时十分成功.但是,对 RNN 及其变种 LSTM 和 GRU 结构的理解仍然是一个困难的任务.本文介绍一种理解 LSTM 和 GRU 的简单通用的方法. ...
- (pytorch-深度学习)门控循环单元(GRU)
门控循环单元(GRU) 循环神经网络中的梯度计算 当时间步数较大或者时间步较小时,循环神经网络的梯度较容易出现衰减或爆炸. 虽然裁剪梯度可以应对梯度爆炸,但无法解决梯度衰减的问题. 通常由于这个原因, ...
- pytorch学习笔记(三十一):门控循环单元(GRU)
文章目录 前言 1. 门控循环单元 1.1 重置门和更新门 1.2 候选隐藏状态 1.3 隐藏状态 2. 读取数据集 3. 从零开始实现 3.1 初始化模型参数 3.2 定义模型 3.3 训练模型并创 ...
- 【多模态】多模态特征融合策略——门控多模态融合方法
目录 1 原理介绍 2 代码实现 3 参考文献 1 原理介绍 是多模态分类任务--也就是融合视觉和文本特征,并进行分类.这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神 ...
- 动手学深度学习(三十九)——门控循环单元GRU
文章目录 门控循环单元(GRU) 一.门控隐藏状态 1.1 重置门和更新门 1.2候选隐藏状态 1.3 隐藏状态 二.从零实现GRU 2.1 初始化模型参数 2.2 定义模型 2.3 训练与预测 2. ...
- 门控循环单元(Gate Recurrent Unit,GRU)
目录 1 GRU的输入输出结构 2 GRU的内部结构 2.1 重置门 reset gate 2.2 更新门 update gate 3 LSTM与GRU的关系 4. 总结 5 吴恩达视频截图 LSTM ...
- 现代循环神经网络-1.门控循环单元(GRU)【动手学深度学习v2】
文章目录 1.门控循环单元(GRU) 1.1 门控隐状态 A.重置门与更新门 B.候选隐状态 C.隐状态 1.2 GRU的实现 A.从零实现 B.简洁实现 1.门控循环单元(GRU) GRU是一个比较 ...
最新文章
- 开源 java CMS - FreeCMS2.8 模板管理
- [转载] Python 列表(list)、字典(dict)、字符串(string)常用基本操作小结
- UML建模--序列图建模技巧
- JVM调优:常见垃圾回收算法
- windows修改策略后执行命令_Windows 下的提权大合集
- 如何用Markdown轻松排版知乎专栏文章?
- python3 抽象基类 abc.abstractmethod
- Revit API取得全部元素
- 声谱图,梅尔语谱,倒谱,梅尔倒谱系数
- Opencv+pycharm+anaconda配置
- 为用户提供确定性——互联网平台建设
- 阳台做成榻榻米 阳台做成书房
- Linux中usb设置burst,详细解读Linux系统中ntpq命令的使用
- Activiti(二)简单请假流程实现
- 2022-2028年中国宠物罐头行业市场全景调查及投资策略研究报告
- 洛谷-P1830 轰炸III
- new URL(“www.jjj.com“)
- 台式计算机用u盘给电脑安装系统,台式电脑怎么用U盘重装Win7系统
- fl2440——按键控制madplay音乐播放器
- springboot+VUE整合websocket
热门文章
- 写跨文化交际的论文,有哪些好的题目推荐?
- layui制作二维码
- 【2021.03.19】长调用与短调用
- 洗车店的预约系统小程序开发步骤_分享预约系统小程序有什么作用
- mysql 管理instance_MySQL从零开始——第三章 MySQL体系结构
- 前端学习—JavaScript
- java保存cookie在本地_Java保存Cookie
- 达梦主备集群,主库部分redo被删除或损坏,故障恢复。
- overflow的属性值说明
- ibmx3650服务器bios阵列配置安装系统,IBMx3650服务器BIOS阵列配置安装系统(方法二+PXE网启安装法)ok.doc...