Learning representations by back-propagating errors原文解读
反向传播的原文是:
1986年的《Learning representations by back-propagating errors》
xj=∑iyiwji(1)x_j=\sum_iy_iw_{ji}(1)xj=i∑yiwji(1)
yj=11+e−xi(2)y_j=\frac{1}{1+e^{-x_i}}(2)yj=1+e−xi1(2)
这个就是Sigmoid函数
E=12∑c∑j(yj,c−dj,c)2(3)E=\frac{1}{2}\sum_c\sum_j(y_{j,c}-d_{j,c})^2(3)E=21c∑j∑(yj,c−dj,c)2(3)
∂E∂yj=yj−dj(4)\frac{∂E}{∂y_j}=y_j-d_j(4)∂yj∂E=yj−dj(4)
∂E∂xj=∂E∂yjyj(1−yj)(5)\frac{∂E}{∂x_j}=\frac{∂E}{∂y_j}y_j(1-y_j)(5)∂xj∂E=∂yj∂Eyj(1−yj)(5)
∂E∂wji=∂E∂xj⋅∂xj∂wji=∂E∂xjyi(6)\frac{∂E}{∂w_{ji}}=\frac{∂E}{∂x_j}·\frac{∂x_j}{∂w_{ji}}=\frac{∂E}{∂x_j}y_i(6)∂wji∂E=∂xj∂E⋅∂wji∂xj=∂xj∂Eyi(6)
∂E∂yi=∑j∂E∂xj⋅wji(7)\frac{∂E}{∂y_i}=\sum_j\frac{∂E}{∂x_j}·w_{ji}(7)∂yi∂E=j∑∂xj∂E⋅wji(7)
Δw=−ε∂E∂w(8)\Delta w=-\varepsilon\frac{∂E}{∂w}(8)Δw=−ε∂w∂E(8)
Δw(t)=−ε∂E∂w(t)+αΔw(t−1)(9)\Delta w(t)=-\varepsilon\frac{∂E}{∂w(t)}+\alpha\Delta w(t-1)(9)Δw(t)=−ε∂w(t)∂E+αΔw(t−1)(9)
原文没有提及b是怎么变化的,另外参考了下文献:
https://blog.csdn.net/qq_29762941/article/details/80343185
Δb=−ε∂E∂b\Delta b=-\varepsilon\frac{∂E}{∂b}Δb=−ε∂b∂E
##########如何记忆######################
首先记住这个神经元:
然后就是下面的一大堆
∂E∂wji=∂E∂yj⋅∂yj∂xj⋅∂xj∂wji\frac{∂E}{∂w_{ji}}=\frac{∂E}{∂y_j}·\frac{∂y_j}{∂x_j}·\frac{∂x_j}{∂w_{ji}}∂wji∂E=∂yj∂E⋅∂xj∂yj⋅∂wji∂xj
上面三个因子怎么计算呢?
∂E∂yj的计算:12(dj−yj)2,dj是实际的类别标签,yj是预测结果\frac{∂E}{∂y_j}的计算:\frac{1}{2}(d_j-y_j)^2,d_j是实际的类别标签,y_j是预测结果∂yj∂E的计算:21(dj−yj)2,dj是实际的类别标签,yj是预测结果剩下就是求导操作。
∂yj∂xj的计算:就是对式(2)进行求导\frac{∂y_j}{∂x_j}的计算:就是对式(2)进行求导∂xj∂yj的计算:就是对式(2)进行求导
∂xj∂wji的计算:这里的xj不要误解成是整个神经元的输入端,而是激活函数的输入端,所以这个的结果就是yi\frac{∂x_j}{∂w_{ji}}的计算:这里的x_j不要误解成是整个神经元的输入端,而是激活函数的输入端,所以这个的结果就是y_i∂wji∂xj的计算:这里的xj不要误解成是整个神经元的输入端,而是激活函数的输入端,所以这个的结果就是yi
hidden unit 就是放激活函数的。
也就是后期论文中常见的隐藏层。
怎么个传播法呢?
最后就是wji=−ε△w+wjiw_{ji}=-\varepsilon\triangle w+w_{ji}wji=−ε△w+wji
Learning representations by back-propagating errors原文解读相关推荐
- 论文笔记 -- Learning Representations for Time Series Clustering
文章目录 Learning Representations for Time Series Clustering Motivation Contribution Model DTCR工作 DTCR流程 ...
- some understandings about 《Learning representations by back-propagating errors》
Dear Professor Ronald J. Williams: From<Learning representations by back-propagating errors> t ...
- 深度学习论文 Learning representations by back-propagating errors
Learning representations by back-propagating errors 小记 2022.3.16 第一次读全英语论文 看了吴恩达的课之后明白了BP原理,但是还是想看看原 ...
- 论文原文解读汇总(持续更新中)
以下是自己对一些论文原文的解读: 机器学习: <XGBoost: A Scalable Tree Boosting System> <CatBoost:gradient boosti ...
- 翻译和理解:Deep Closest Point: Learning Representations for Point Cloud Registration
Title: Deep Closest Point: Learning Representations for Point Cloud Registration Authors: Yue Wang J ...
- ML:MLOps系列讲解之《基于ML的软件的三个层次之02 Model: Machine Learning Pipelines 2.1~2.4》解读
ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines 2.1~2.4>解读 目录 <基于ML的软件的三个层次 ...
- 【Transformer开山之作】Attention is all you need原文解读
Attention Is All You Need Transformer原文解读与细节复现 导读 在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN.循环神经网络RNN ...
- 《On the Momentum Term in Gradient Descent Learning Algorithm》原文解读
############博主前言####################### 我写这篇文章的目的: 想必很多人听过神经网络中的momentum算法, 但是为啥叫momentum(动量)算法呢? 和物 ...
- 抽点时间读经典AI论文之Learning representations by back-propagating errors
这篇论文讲述的是世界上第一篇反向传播算法,标题的意思是通过反向传播错误来学习表征 在读这篇论文时,我是带着这三个问题去读的: 作者试图解决什么问题? 这篇论文的关键元素是什么? 论文中有什么内容可以& ...
最新文章
- unity 获得所有的tag_Unity3D_06_根据Transform、GameObject和Tag获取子对象集合
- android工程师 腾讯,腾讯音乐Android工程师一面面试题记录,拿走不谢!
- onclick进不去ajax,在ajax调用之后处理onclick函数
- mysql 数据迁移_【AWS 功能】Mysql 数据库迁移至Amazon RDS方案
- 【深度学习】使用Keras开发的流程概述
- linux网络接口数据重新封包,Linux网络之设备接口层:发送数据包流程dev_queue_xmit...
- 《软件需求分析》读书笔记NO.4
- 高盛:大象转身,开启科技金融转型之路
- java中j是什么意思_i 1 j 是什么意思 i.j.k是什么意思
- Aspose.Barcode创建二维码应用代码示例
- 阿里云API请求签名失败的解决办法
- 第二部分 java库_Java编程概论——第二部分_学堂在线2020答案
- 智能穿戴的未来与机遇:打造“穿戴的智能化”
- 会所会员消费管理系统解决方案
- 利用淘宝云盘作为图床
- 正则表达式解析器的编写
- VS2017使用NuGet安装Oracle.ManagedDataAccess.EntityFramework 的异常解决
- 【财经期刊FM-Radio|2021年01月23日】
- 【python学习】easy_install简介
- 【PCB】Altium Designer 常用快捷键