深度学习(25)随机梯度下降三: 激活函数的梯度

  • 1. Activation Functions
  • 2. Deriative
  • 3. Sigmoid/Logistic
    • (1) Derivative
    • (2) tf.sigmoid
  • 4. Tanh
    • (1) Derivative
    • (2) tf.tanh
  • 5. Rectified Linear Unit(ReLU)
    • (1) Derivative
    • (2) tf.nn.relu

Outline

  • sigmoid
  • tanh
  • relu

1. Activation Functions


2. Deriative


3. Sigmoid/Logistic

f(x)=σ(x)=11+e−xf(x)=σ(x)=\frac{1}{1+e^{-x} }f(x)=σ(x)=1+e−x1​

当a<0a<0a<0时,函数值逼近于0; 当a>0a>0a>0时,函数值逼近于1;
这样就体现了Sigmoid函数与神经元类似的方面,与神经元一样,当a过小或者过大时,都不会做出应激反应

(1) Derivative

(2) tf.sigmoid

(a)y = tf.sigmoid(a): y为经过激活函数处理后的a;
(b)grads = tape.gradient(y, [a]): 梯度更新;

4. Tanh

f(x)=tanh⁡(x)=(ex−e−x)(ex+e−x)=2sigmoid(2x)−1f(x)=tanh⁡(x)\\=\frac{(e^x-e^{-x})}{(e^x+e^{-x})} \\=2sigmoid(2x)-1f(x)=tanh⁡(x)=(ex+e−x)(ex−e−x)​=2sigmoid(2x)−1

常应用于RNN,即循环神经网络;

(1) Derivative

(2) tf.tanh

5. Rectified Linear Unit(ReLU)

f(x)={0for x<0xfor x≥0f(x)=\begin{cases}0 &\text{for}\ x<0\\x&\text{for}\ x\geq0\end{cases}f(x)={0x​for x<0for x≥0​

(1) Derivative

f′(x)={0for x<01for x≥0f'(x)=\begin{cases}0 &\text{for}\ x<0\\1 &\text{for}\ x\geq0\end{cases}f′(x)={01​for x<0for x≥0​

(2) tf.nn.relu

  • tf.nn.leaky_relu(a):
  • f(x)={kxfor x<0xfor x≥0f(x)=\begin{cases}kx &\text{for}\ x<0\\x&\text{for}\ x\geq0\end{cases}f(x)={kxx​for x<0for x≥0​

这里的kkk是一个很小的值,当x<0x<0x<0时,函数值会慢慢逼近0。

参考文献:
[1] 龙良曲:《深度学习与TensorFlow2入门实战》

深度学习(25)随机梯度下降三: 激活函数的梯度相关推荐

  1. 深度学习_07_2_随机梯度下降_激活函数及梯度损失函数及梯度

    07_2_随机梯度下降_激活函数及梯度&损失函数及梯度 激活函数及其梯度 Activation Functions(激活函数) 研究青蛙的神经元有多个输入,比如x0,x1,x2x_0,x_1, ...

  2. 深度学习(30)随机梯度下降七: 多层感知机梯度(反向传播算法)

    深度学习(30)随机梯度下降八: 多层感知机梯度(反向传播算法) 1. 多层感知机模型 2. 多层感知机梯度 3. 传播规律小结 tens Recap Chain Rule Multi-output ...

  3. 深度学习(26)随机梯度下降四: 损失函数的梯度

    深度学习(26)随机梯度下降四: 损失函数的梯度 1. Mean Squared Error(MSE) 2. Cross Entropy Loss CrossEntropy 3. Softmax (1 ...

  4. 深度学习(24)随机梯度下降二: 常见函数的梯度

    深度学习(24)随机梯度下降二: 常见函数的梯度 Common Functions 1. y=xw+by=xw+by=xw+b 2. y=xw2+b2y=xw^2+b^2y=xw2+b2 3. y=x ...

  5. 【深度学习】——梯度下降优化算法(批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam)

    目录 梯度 梯度下降 常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法 算法过程 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic ...

  6. 大白话5分钟带你走进人工智能-第十一节梯度下降之手动实现梯度下降和随机梯度下降的代码(6)...

                                第十一节梯度下降之手动实现梯度下降和随机梯度下降的代码(6) 我们回忆一下,之前咱们讲什么了?梯度下降,那么梯度下降是一种什么算法呢?函数最优化 ...

  7. Lesson 4.34.4 梯度下降(Gradient Descent)基本原理与手动实现随机梯度下降与小批量梯度下降

    Lesson 4.3 梯度下降(Gradient Descent)基本原理与手动实现 在上一小节中,我们已经成功的构建了逻辑回归的损失函数,但由于逻辑回归模型本身的特殊性,我们在构造损失函数时无法采用 ...

  8. A.深度学习基础入门篇[四]:激活函数介绍:tanh、sigmoid、ReLU、PReLU、ELU、softplus、softmax、swish等

    [深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等 专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...

  9. 深度学习(二)向量化 Logistic 回归及其梯度输出

    概述 本篇属于理论篇,你将了解什么是向量化.向量化对神经网络训练优化的重要性,以及如何向量化 Logistic 回归及其梯度输出. 转自猴开发博客:深度学习(二)向量化 Logistic 回归及其梯度 ...

最新文章

  1. MPB:林科院袁志林组-​杨树根系-真菌互作体系构建方法
  2. DIV + CSS 神话
  3. java学习(二)--- 变量类型
  4. Jquery的一个特效 仿照flash放大图片
  5. yii2 mysql between_yii2:多条件多where条件下碰到between时,between语句如何处理呢?
  6. Kafka实践:到底该不该把不同类型的消息放在同一个主题中
  7. C++unique函数应用举例
  8. 【转】android:DDMS查看Threads--不错
  9. JS_17 ES5,ES6
  10. java求平均值Scanner_Scanner的一些问题
  11. 谷歌浏览器不能上网_谷歌浏览器插件下载及安装教程!
  12. yum命令不能使用的相关错误
  13. [lua]紫猫lua教程-命令宝典-L1-03-01. 闭包
  14. java 二次封装azkaban 实现azkaban任务的执行
  15. 一首光辉岁月的歌词,送给自己
  16. 用了python之后笔记本卡了_干货!如何用Python在笔记本电脑上分析100GB数据(上)...
  17. 无线键盘全国产化电子元件推荐方案
  18. 学生台灯哪个品牌的专业?盘点小学生台灯品牌排行榜
  19. whm面板降mysql_在cPanel&WHM 78版上可以取消阻止MySQL 5.5
  20. 5.4 文本分析与加密

热门文章

  1. python的xpath用法_Python爬虫杂记 - Xpath高级用法
  2. 实现商城类APP的筛选项效果
  3. java wmi_WMI依赖服务使用WMI查询
  4. Visual C++ 2008 runtime files are out of data
  5. unlegal android,cordova-plugin-baidumaplocation百度地图定位Cordova插件
  6. 圆点html span,HTML span 标签
  7. abap代码获取采购订单po中的抬头文本
  8. Spring_AOP架构介绍与源码分析(含事务深度分析)
  9. Basic Calculator
  10. asp.net MVC提高开发速度(创建项目模板)