深度学习网络各种激活函数 Sigmoid、Tanh、ReLU、Leaky_ReLU、SiLU、Mish
激活函数的目的就是为网络提供非线性化
梯度消失:梯度为0, 无法反向传播,导致参数得不到更新
梯度饱和:随着数据的变化,梯度没有明显变化
梯度爆炸:梯度越来越大,无法收敛
梯度消失问题:
1、反向传播链路过长,累积后逐渐减小
2、数据进入梯度饱和区
如何解决:
1、选正确激活函数,relu, silu
2、BN 归一化数据
3、 resnet 较短反向传播路径
4、LSTM 记忆网络
1、Sigmoid
函数和导数:
特点:落入两端的数据导数趋于0,造成梯度消失,用在深度网络难以收敛。用 BN 批量归一化可以优化此问题。
2、Tanh
函数和导数:
特点:和sigmoid 差不多,就是映射区间不同而已。
3、ReLU
特点:简单粗暴,解决梯度消失问题,响应区间导数为1。小于0 的神经元被抑制,造成网络稀疏,抑制过拟合,利于网络学习有效信息,加快收敛速度。
4、Leaky_ReLU
特点:** 对relu的改进,小于0也有微小激活,避免梯度锯齿问题。**
5、SiLU(swish)
特点:** 对relu的改进,在0附近进行平滑,缺点:引入指数运算,增加计算量。**
6、Mish
特点:** 和silu 差不多。**
深度学习网络各种激活函数 Sigmoid、Tanh、ReLU、Leaky_ReLU、SiLU、Mish相关推荐
- 三种激活函数——Sigmoid,Tanh, ReLU以及卷积感受野的计算
1. 三种激活函数--Sigmoid, Tanh, ReLU 1.1 Sigmoid 1.1.1 公式 S ( x ) = 1 1 + e − x S(x) = \frac{1}{1 + e^{-x} ...
- 深度学习之常见激活函数-Sigmoid、Tanh、ReLu、softplus、softmax、ELU、PReLU
一.常见激活函数总结 激活函数: 就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端. 常见的激活函数包括 Sigmoid TanHyperbolic(tanh) ReLu softp ...
- 激活函数--Sigmoid,tanh,RELU,RELU6,Mish,Leaky ReLU等
激活函数 目前自己使用比较多的激活函数RELU, RELU6; LeakyReLU; SELU; Mish :激活函数看:计算量:准确率: 大多数激活函数pytorch里有已经包装好了: Non-li ...
- 【Pytorch神经网络理论篇】 07 激活函数+Sigmoid+tanh+ReLU+Swish+Mish+GELU
①激活函数:主要通过加入非线性因素,你不线性模型表达能力不足的缺陷,因为神经网络中的数学基础是处处可微分的函数,故要求激活函数也应该保证数据的输入与输出是可微分. ②激活函数可以分为饱和激活函数与不饱 ...
- 深度学习常用的激活函数以及python实现(Sigmoid、Tanh、ReLU、Softmax、Leaky ReLU、ELU、PReLU、Swish、Squareplus)
2022.05.26更新 增加SMU激活函数 前言 激活函数是一种添加到人工神经网络中的函数,类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容. 此图来自百度百科,其中s ...
- 【深度学习】之激活函数篇[Sigmoid、tanh、ReLU、Leaky ReLU、Mish、Hardswish、SiLU]附绘图Python代码。
激活函数的作用 为卷积神经网络提供非线性 1.Sigmoid激活函数 Sigmoid激活函数是常用的连续.平滑的"s"型激活函数,其数学定义比较简单,如公式1所示: 简单来说,Si ...
- 常用的激活函数汇总-Sigmoid, tanh, relu, elu
激活函数(又叫激励函数,后面就全部统称为激活函数)是模型整个结构中的非线性扭曲力,神经网络的每层都会有一个激活函数.那他到底是什么,有什么作用?都有哪些常见的激活函数呢? 深度学习的基本原理就是基于人 ...
- DL之DNN优化技术:采用三种激活函数(sigmoid、relu、tanh)构建5层神经网络,权重初始值(He参数初始化和Xavier参数初始化)影响隐藏层的激活值分布的直方图可视化
DL之DNN优化技术:采用三种激活函数(sigmoid.relu.tanh)构建5层神经网络,权重初始值(He参数初始化和Xavier参数初始化)影响隐藏层的激活值分布的直方图可视化 目录
- 计算机视觉 | 面试题:06、ReLU函数在0处不可导,为什么在深度学习网络中还这么常用?
问题 ReLU函数在0处不可导,为什么在深度学习网络中还这么常用? 问题背景 这是在阿里的机器学习岗一面的时候问的一个问题,最开始的问题是"为什么机器学习中解决回归问题的时候一般使用平方损失 ...
最新文章
- 波士顿动力的机器狗上班了!巡逻、检测不在话下,挪威公司为其编发工号
- PMCAFF微课堂 | 测试兄弟CEO揭秘如何提高创初团队的产品质量
- 可能是全网首个前端源码共读活动,诚邀加入学习
- mysql 1005 - can't create table_关于创建数据表报错一例(ERROR 1005 Can’t create table (errno: 121))...
- java nodefilter类,Java Servlet Filter过滤器概述
- 低代码,是否能“取代”开发者?
- Java版DBHelper【简单】(MySQL数据库)
- hbase 学习(十二)非mapreduce生成Hfile,然后导入hbase当中
- 寒江独钓——win内核编程读书笔记-1
- YUV 后面数字的含义_奔富红酒“Bin”后的数字,是什么意思?
- 利用SPSS做数据分析②之数据处理1
- c#进度条刻度_自定义刻度jQuery进度条及插件
- arcgis怎么压缩tif文件_PDF文件怎么压缩?两招帮你解决PDF压缩难题!
- uniapp的button按钮使用boder:none依然无法去掉黑色边框的解决。
- git基础教程(47)设置全局.gitignore
- IDEA高级使用教程
- 系统管理员在企业中的职业定位及发展方向
- cas:337526-88-2 ;Ir(bt)2 (acac),齐岳提供金属配合物材料
- 天载配资总结指数很健康,现在新高
- qq申诉网站无法接到服务器,为什么我qq申诉不成功 - 卡饭网