Learning representations by back-propagating errors原文解读

反向传播的原文是：
1986年的《Learning representations by back-propagating errors》

xj=∑iyiwji(1)x_j=\sum_iy_iw_{ji}(1)xj=i∑yiwji(1)
yj=11+e−xi(2)y_j=\frac{1}{1+e^{-x_i}}(2)yj=1+e−xi1(2)
这个就是Sigmoid函数

E=12∑c∑j(yj,c−dj,c)2(3)E=\frac{1}{2}\sum_c\sum_j(y_{j,c}-d_{j,c})^2(3)E=21c∑j∑(yj,c−dj,c)2(3)

∂E∂yj=yj−dj(4)\frac{∂E}{∂y_j}=y_j-d_j(4)∂yj∂E=yj−dj(4)
∂E∂xj=∂E∂yjyj(1−yj)(5)\frac{∂E}{∂x_j}=\frac{∂E}{∂y_j}y_j(1-y_j)(5)∂xj∂E=∂yj∂Eyj(1−yj)(5)

∂E∂wji=∂E∂xj⋅∂xj∂wji=∂E∂xjyi(6)\frac{∂E}{∂w_{ji}}=\frac{∂E}{∂x_j}·\frac{∂x_j}{∂w_{ji}}=\frac{∂E}{∂x_j}y_i(6)∂wji∂E=∂xj∂E⋅∂wji∂xj=∂xj∂Eyi(6)

∂E∂yi=∑j∂E∂xj⋅wji(7)\frac{∂E}{∂y_i}=\sum_j\frac{∂E}{∂x_j}·w_{ji}(7)∂yi∂E=j∑∂xj∂E⋅wji(7)

Δw=−ε∂E∂w(8)\Delta w=-\varepsilon\frac{∂E}{∂w}(8)Δw=−ε∂w∂E(8)
Δw(t)=−ε∂E∂w(t)+αΔw(t−1)(9)\Delta w(t)=-\varepsilon\frac{∂E}{∂w(t)}+\alpha\Delta w(t-1)(9)Δw(t)=−ε∂w(t)∂E+αΔw(t−1)(9)

原文没有提及b是怎么变化的,另外参考了下文献:
https://blog.csdn.net/qq_29762941/article/details/80343185
Δb=−ε∂E∂b\Delta b=-\varepsilon\frac{∂E}{∂b}Δb=−ε∂b∂E

##########如何记忆######################

首先记住这个神经元：

然后就是下面的一大堆
∂E∂wji=∂E∂yj⋅∂yj∂xj⋅∂xj∂wji\frac{∂E}{∂w_{ji}}=\frac{∂E}{∂y_j}·\frac{∂y_j}{∂x_j}·\frac{∂x_j}{∂w_{ji}}∂wji∂E=∂yj∂E⋅∂xj∂yj⋅∂wji∂xj
上面三个因子怎么计算呢？
∂E∂yj的计算:12(dj−yj)2,dj是实际的类别标签,yj是预测结果\frac{∂E}{∂y_j}的计算:\frac{1}{2}(d_j-y_j)^2,d_j是实际的类别标签,y_j是预测结果∂yj∂E的计算:21(dj−yj)2,dj是实际的类别标签,yj是预测结果剩下就是求导操作。

∂yj∂xj的计算：就是对式(2)进行求导\frac{∂y_j}{∂x_j}的计算：就是对式(2)进行求导∂xj∂yj的计算：就是对式(2)进行求导

∂xj∂wji的计算：这里的xj不要误解成是整个神经元的输入端，而是激活函数的输入端，所以这个的结果就是yi\frac{∂x_j}{∂w_{ji}}的计算：这里的x_j不要误解成是整个神经元的输入端，而是激活函数的输入端，所以这个的结果就是y_i∂wji∂xj的计算：这里的xj不要误解成是整个神经元的输入端，而是激活函数的输入端，所以这个的结果就是yi

hidden unit 就是放激活函数的。
也就是后期论文中常见的隐藏层。

怎么个传播法呢？
最后就是wji=−ε△w+wjiw_{ji}=-\varepsilon\triangle w+w_{ji}wji=−ε△w+wji

Learning representations by back-propagating errors原文解读相关推荐

论文笔记 -- Learning Representations for Time Series Clustering
文章目录 Learning Representations for Time Series Clustering Motivation Contribution Model DTCR工作 DTCR流程 ...
some understandings about 《Learning representations by back-propagating errors》
Dear Professor Ronald J. Williams: From<Learning representations by back-propagating errors> t ...
深度学习论文 Learning representations by back-propagating errors
Learning representations by back-propagating errors 小记 2022.3.16 第一次读全英语论文看了吴恩达的课之后明白了BP原理,但是还是想看看原 ...
论文原文解读汇总(持续更新中)
以下是自己对一些论文原文的解读: 机器学习: <XGBoost: A Scalable Tree Boosting System> <CatBoost:gradient boosti ...
翻译和理解：Deep Closest Point: Learning Representations for Point Cloud Registration
Title: Deep Closest Point: Learning Representations for Point Cloud Registration Authors: Yue Wang J ...
ML：MLOps系列讲解之《基于ML的软件的三个层次之02 Model： Machine Learning Pipelines 2.1~2.4》解读
ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines 2.1~2.4>解读目录 <基于ML的软件的三个层次 ...
【Transformer开山之作】Attention is all you need原文解读
Attention Is All You Need Transformer原文解读与细节复现导读在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN.循环神经网络RNN ...
《On the Momentum Term in Gradient Descent Learning Algorithm》原文解读
############博主前言####################### 我写这篇文章的目的: 想必很多人听过神经网络中的momentum算法, 但是为啥叫momentum(动量)算法呢? 和物 ...
抽点时间读经典AI论文之Learning representations by back-propagating errors
这篇论文讲述的是世界上第一篇反向传播算法,标题的意思是通过反向传播错误来学习表征在读这篇论文时,我是带着这三个问题去读的: 作者试图解决什么问题? 这篇论文的关键元素是什么? 论文中有什么内容可以& ...

Learning representations by back-propagating errors原文解读

Learning representations by back-propagating errors原文解读相关推荐

最新文章

热门文章