深度学习(28)随机梯度下降六: 多输出感知机梯度
深度学习(28)随机梯度下降六: 多输出感知机梯度
- 1. Multi-output Perceptron
- 2. Derivative
- 3. 代码
Perceptron
单输出感知机梯度
∂E∂wj0=(O01−t)O0(1−O0)xj0\frac{∂E}{∂w_{j0}}=(O_0^1-t)O_0 (1-O_0)x_j^0∂wj0∂E=(O01−t)O0(1−O0)xj0
1. Multi-output Perceptron
如上图所示,共有n×mn×mn×m个连接(即权重);
2. Derivative
- 损失函数losslossloss为:
E=12(O0i−ti)2E=\frac{1}{2} (O_0^i-t_i)^2E=21(O0i−ti)2 - 对wjkw_{jk}wjk求偏导数:
∂E∂wjk=(Ok−tk)∂Ok∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)\frac{∂O_k}{∂w_{jk}} ∂wjk∂E=(Ok−tk)∂wjk∂Ok - Ok=σ(xk)O_k=σ(x_k)Ok=σ(xk):
∂E∂wjk=(Ok−tk)∂σ(xk)∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)\frac{∂σ(x_k)}{∂w_{jk}} ∂wjk∂E=(Ok−tk)∂wjk∂σ(xk) - ∂σ(xk)∂wjk=∂σ(xk)∂xk⋅∂xk∂wjk\frac{∂σ(x_k)}{∂w_{jk}}=\frac{∂σ(x_k)}{∂x_k }\cdot\frac{∂x_k}{∂w_{jk}}∂wjk∂σ(xk)=∂xk∂σ(xk)⋅∂wjk∂xk,其中∂σ(xk)∂xk=σ(xk)(1−σ(xk))\frac{∂σ(x_k)}{∂x_k }=σ(x_k)(1-σ(x_k))∂xk∂σ(xk)=σ(xk)(1−σ(xk)):
∂E∂wjk=(Ok−tk)σ(xk)(1−σ(xk))∂xk1∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)σ(x_k)(1-σ(x_k))\frac{∂x_k^1}{∂w_{jk}} ∂wjk∂E=(Ok−tk)σ(xk)(1−σ(xk))∂wjk∂xk1 - Ok=σ(xk)O_k=σ(x_k)Ok=σ(xk):
∂E∂wjk=(Ok−tk)Ok(1−Ok)∂xk1∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)\frac{∂x_k^1}{∂w_{jk}} ∂wjk∂E=(Ok−tk)Ok(1−Ok)∂wjk∂xk1 - 因为xk1=x00w0k1+x10w1k1+x20w2k1+⋯+xj0wjk1+⋯+xn0wnk1x_k^1=x_0^0 w_{0k}^1+x_1^0 w_{1k}^1+x_2^0 w_{2k}^1+⋯+x_j^0 w_{jk}^1+⋯+x_n^0 w_{nk}^1xk1=x00w0k1+x10w1k1+x20w2k1+⋯+xj0wjk1+⋯+xn0wnk1,所以:
∂E∂wjk=(Ok−tk)Ok(1−Ok)∂xk1∂wjk=(Ok−tk)Ok(1−Ok)xj0\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)\frac{∂x_k^1}{∂w_{jk}} =(O_k-t_k)O_k (1-O_k)x_j^0∂wjk∂E=(Ok−tk)Ok(1−Ok)∂wjk∂xk1=(Ok−tk)Ok(1−Ok)xj0
综上所述,单输出感知机梯度为:
∂E∂wjk=(Ok−tk)Ok(1−Ok)xj0\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^0∂wjk∂E=(Ok−tk)Ok(1−Ok)xj0
3. 代码
参考文献:
[1] 龙良曲:《深度学习与TensorFlow2入门实战》
深度学习(28)随机梯度下降六: 多输出感知机梯度相关推荐
- 深度学习(27)随机梯度下降五: 单输出感知机梯度
深度学习(27)随机梯度下降五: 单输出感知机梯度 1. Perceptrnon with Sigmoid + MSE 2. Derivative 3. 代码 Recap y=XW+by=XW+by= ...
- 【深度学习】——梯度下降优化算法(批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam)
目录 梯度 梯度下降 常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法 算法过程 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic ...
- 【深度学习】网络训练的原理:什么是梯度下降?学习率的作用是什么?
对于输入 x x x,通过某个网络后给出预测的结果 y y y,但是其正确结果为 y ^ \hat y y^,预测结果和真实结果之间的差距我们称之为损失 L L L 这里要注意,衡量二者之间的差距的 ...
- 深度学习入门(五十六)循环神经网络——循环神经网络RNN
深度学习入门(五十六)循环神经网络--循环神经网络RNN 前言 循环神经网络--循环神经网络RNN 课件 潜变量自回归模型 循环神经网络 使用循环神经网络的语言模型 困惑度(perplexity) 梯 ...
- 批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
批量梯度下降(BGD).随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解 </h1><div class="clear"></div> ...
- 深度学习中的双下降现象
2019-12-26 19:21:03 作者:Preetum Nakkiran,Gal Kaplun,Yamini Bansal,Tristan Yang,Boaz Barak,Ilya Sutske ...
- 随机梯度下降(SGD)与经典的梯度下降法的区别
随机梯度下降(SGD)与经典的梯度下降法的区别 经典的优化方法,例如梯度下降法,在每次迭代过程中需要使用所有的训练数据,这就给求解大规模数据优化问题带来挑战. 知识点:随机梯度下降法(SGD).小批量 ...
- 深度学习之图像分类(十六)-- EfficientNetV2 网络结构
深度学习之图像分类(十六)EfficientNetV2 网络结构 目录 深度学习之图像分类(十六)EfficientNetV2 网络结构 1. 前言 2. 从 EfficientNetV1 到 Eff ...
- autoware使用相机和深度学习进行目标检测(六)
autoware使用相机和深度学习进行目标检测(六) 安装yolo 进入对应的vision_darknet_detect/darknet/data/目录下 对应目录位置: autoware.ai/in ...
最新文章
- tomcat5.5.9+sql2000数据库连接池配置
- 马云最新演讲:未来10年,人类将面临AI、IoT和区块链等三大技术巨大挑战!
- 零元学Expression Blend 4 - Chapter 40 Flash做的到的Blend也可以!轻松制作拥有动画的MenuBar!(上)...
- powershell局域网内同步文件夹,文件脚本
- 无人机项目跟踪记录五十八--原理图控制部分分析
- 又是一年腊八节 记忆中的腊八粥是什么味道?
- 逆反西游无法读取服务器信息,逆反西游
- hazelcast 搭建_hazelcast Management Center 源码分析
- android相片拼板源码,实现仿微信拍照和选取相片(转自网络)
- envoy实现_使用Envoy实现一键部署项目
- 使用log4j将日志输送到控制台、文件或数据库中
- 手机新手上路_术语_各种解释
- 盘点 | 2022年上半年国内的电邮安全事件
- linux时间变成英文,查看/修改Linux时区和时间
- STM32项目设计:基于STM32指纹密码锁
- 对应分析(关联分析、R-Q型因子分析、处理分类变量的利器)原理介绍
- 【0基础快速入门】Python学习快速参考手册
- 中国盛产“美国博士”何等讽刺
- 台式win7f1到f12热键取消_win10系统怎么关闭f1到f12的快捷键
- 构建万物可信互联的基石,带你深度剖析区块链跨链的关键技术,满满是干货!
热门文章
- java.lang.IllegalArgumentException: Can't find a no-arg constructor for class com.xiayiye.takeout.mo
- 7.33oracle安装不了,在RedHat7.0下安装Oracle的经历
- 整合spring cloud云架构 - SSO单点登录之OAuth2.0 登出流程(3)
- 从零搭建自己的SpringBoot后台框架(七)
- 【java基础】zip压缩文件
- 如何修改远程桌面连接3389端口
- 一个小老板从小公司创业开始做起的过程记录
- 行、重复-SAP HANA 集合操作 UNION/Union all/INTERSECT/EXCEPT (SAP HANA Set Operations)-by小雨...
- django模型的字段类型和关系
- 进一步:BSD信号和异常同时捕获