深度学习（28）随机梯度下降六: 多输出感知机梯度

1. Multi-output Perceptron
2. Derivative
3. 代码

Perceptron
单输出感知机梯度

∂E∂wj0=(O01−t)O0(1−O0)xj0\frac{∂E}{∂w_{j0}}=(O_0^1-t)O_0 (1-O_0)x_j^0∂wj0∂E=(O01−t)O0(1−O0)xj0

1. Multi-output Perceptron

如上图所示，共有n×mn×mn×m个连接（即权重）;

2. Derivative

损失函数losslossloss为:
E=12(O0i−ti)2E=\frac{1}{2} (O_0^i-t_i)^2E=21(O0i−ti)2
对wjkw_{jk}wjk求偏导数:
∂E∂wjk=(Ok−tk)∂Ok∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)\frac{∂O_k}{∂w_{jk}} ∂wjk∂E=(Ok−tk)∂wjk∂Ok
Ok=σ(xk)O_k=σ(x_k)Ok=σ(xk):
∂E∂wjk=(Ok−tk)∂σ(xk)∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)\frac{∂σ(x_k)}{∂w_{jk}} ∂wjk∂E=(Ok−tk)∂wjk∂σ(xk)
∂σ(xk)∂wjk=∂σ(xk)∂xk⋅∂xk∂wjk\frac{∂σ(x_k)}{∂w_{jk}}=\frac{∂σ(x_k)}{∂x_k }\cdot\frac{∂x_k}{∂w_{jk}}∂wjk∂σ(xk)=∂xk∂σ(xk)⋅∂wjk∂xk，其中∂σ(xk)∂xk=σ(xk)(1−σ(xk))\frac{∂σ(x_k)}{∂x_k }=σ(x_k)(1-σ(x_k))∂xk∂σ(xk)=σ(xk)(1−σ(xk)):
∂E∂wjk=(Ok−tk)σ(xk)(1−σ(xk))∂xk1∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)σ(x_k)(1-σ(x_k))\frac{∂x_k^1}{∂w_{jk}} ∂wjk∂E=(Ok−tk)σ(xk)(1−σ(xk))∂wjk∂xk1
Ok=σ(xk)O_k=σ(x_k)Ok=σ(xk):
∂E∂wjk=(Ok−tk)Ok(1−Ok)∂xk1∂wjk\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)\frac{∂x_k^1}{∂w_{jk}} ∂wjk∂E=(Ok−tk)Ok(1−Ok)∂wjk∂xk1
因为xk1=x00w0k1+x10w1k1+x20w2k1+⋯+xj0wjk1+⋯+xn0wnk1x_k^1=x_0^0 w_{0k}^1+x_1^0 w_{1k}^1+x_2^0 w_{2k}^1+⋯+x_j^0 w_{jk}^1+⋯+x_n^0 w_{nk}^1xk1=x00w0k1+x10w1k1+x20w2k1+⋯+xj0wjk1+⋯+xn0wnk1，所以:
∂E∂wjk=(Ok−tk)Ok(1−Ok)∂xk1∂wjk=(Ok−tk)Ok(1−Ok)xj0\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)\frac{∂x_k^1}{∂w_{jk}} =(O_k-t_k)O_k (1-O_k)x_j^0∂wjk∂E=(Ok−tk)Ok(1−Ok)∂wjk∂xk1=(Ok−tk)Ok(1−Ok)xj0

综上所述，单输出感知机梯度为:
∂E∂wjk=(Ok−tk)Ok(1−Ok)xj0\frac{∂E}{∂w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^0∂wjk∂E=(Ok−tk)Ok(1−Ok)xj0

3. 代码

参考文献:
[1] 龙良曲:《深度学习与TensorFlow2入门实战》

深度学习（28）随机梯度下降六: 多输出感知机梯度相关推荐

深度学习（27）随机梯度下降五: 单输出感知机梯度
深度学习(27)随机梯度下降五: 单输出感知机梯度 1. Perceptrnon with Sigmoid + MSE 2. Derivative 3. 代码 Recap y=XW+by=XW+by= ...
【深度学习】——梯度下降优化算法（批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam）
目录梯度梯度下降常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法算法过程批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic ...
【深度学习】网络训练的原理：什么是梯度下降？学习率的作用是什么？
对于输入 x x x,通过某个网络后给出预测的结果 y y y,但是其正确结果为 y ^ \hat y y^,预测结果和真实结果之间的差距我们称之为损失 L L L 这里要注意,衡量二者之间的差距的 ...
深度学习入门（五十六）循环神经网络——循环神经网络RNN
深度学习入门(五十六)循环神经网络--循环神经网络RNN 前言循环神经网络--循环神经网络RNN 课件潜变量自回归模型循环神经网络使用循环神经网络的语言模型困惑度(perplexity) 梯 ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
批量梯度下降(BGD).随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解 </h1><div class="clear"></div> ...
深度学习中的双下降现象
2019-12-26 19:21:03 作者:Preetum Nakkiran,Gal Kaplun,Yamini Bansal,Tristan Yang,Boaz Barak,Ilya Sutske ...
随机梯度下降(SGD)与经典的梯度下降法的区别
随机梯度下降(SGD)与经典的梯度下降法的区别经典的优化方法,例如梯度下降法,在每次迭代过程中需要使用所有的训练数据,这就给求解大规模数据优化问题带来挑战. 知识点:随机梯度下降法(SGD).小批量 ...
深度学习之图像分类（十六）-- EfficientNetV2 网络结构
深度学习之图像分类(十六)EfficientNetV2 网络结构目录深度学习之图像分类(十六)EfficientNetV2 网络结构 1. 前言 2. 从 EfficientNetV1 到 Eff ...
autoware使用相机和深度学习进行目标检测（六）
autoware使用相机和深度学习进行目标检测(六) 安装yolo 进入对应的vision_darknet_detect/darknet/data/目录下对应目录位置: autoware.ai/in ...

深度学习（28）随机梯度下降六: 多输出感知机梯度

深度学习（28）随机梯度下降六: 多输出感知机梯度

1. Multi-output Perceptron

2. Derivative

3. 代码

深度学习（28）随机梯度下降六: 多输出感知机梯度相关推荐

最新文章

热门文章