神经网络optimizer的发展历史整理
optimizer名字 | 论文出处 | 作者 | 发表时间 |
---|---|---|---|
Gradient Descent | Méthode générale pour la résolution des systèmes d’équations simultanées(法文) | Cauchy, Augustin | 1847 |
SGD早期形式 | 《A Stochastic Approximation Method》 The Annals of Mathematical Statistics, Vol. 22, No. 3. (Sep., 1951), pp. 400-407. | Herbert Robbins and Sutton Monro | 1951 |
SGD早期形式 | 《Stochastic Estimation of the Maximum of a Regression Function》 Ann. Math. Statist. Volume 23, Number 3 (1952), 462-466 | J. Kiefer and J. Wolfowitz | 1952 |
Momentum | Some Methods of Speeding up the Convergence of Iteration Methods. | Polyak, B.T. | 1964 |
Nesterov’s Accelerated Gradient | A method of solving a convex programming problem with convergence rate O(1k2\frac{1}{k^2}k21) | YU.E.NESTEROV | 1983 |
RmsProp | 作者上课时提出 | Geoffrey Hinton | - |
AdaGrad | Adaptive Subgradient Methods for Online Learning and Stochastic Optimization | John Duchi | 2011 |
AdaDelta | AdaDelta:An adaptive learning rate method | Matthew D. Zeiler | 2012 |
Adam | <Adam: A Method for Stochastic Optimization>的section1 | Diederik P. Kingma、Jimmy Lei Ba | 2015 |
AdaMax | <Adam: A Method for Stochastic Optimization>的section7 | Diederik P. Kingma、Jimmy Lei B | 2015 |
Nadam | Incorporating Nesterov Momentum into Adam | Timothy Dozat | 2015 |
SGDW | Decoupled Weight Decay Regularization | Ilya Loshchilov, Frank Hutter | 2017 |
Adabound | ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE | Liangchen Luo | 2019 |
RAdam | On the Variance of the Adaptive Learning Rate and Beyond | Liyuan Liu | 2019 |
ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE
Mini-BGD和BGD是GD的弱化版本,意思是反向传播的时候随机选择一个batch或者mini-batch来计算梯度
注意,参考文献中有些提到的是对于脑科学相关的一些文章,虽然和SGD相关,但是我没有列入.
參考文献:
[1]https://stats.stackexchange.com/questions/313681/who-invented-stochastic-gradient-descent
神经网络optimizer的发展历史整理相关推荐
- 人工神经网络发展历史及算法应用综述
作者:柯悦 简 介: 人工神经网络概念自提起以来,它的发展经历了起起落落,而如今人工神经网络也与各个领域相结合,实现它的价值.人工神经网络主要用来处理分类与回归的问题.决定神经网络发展的三个基本要素主 ...
- 神经网络从产生到现在的发展历史--科普
对于入门学习神经网络的没有基础的同学来说,直接上公式和各种算法,会比较懵圈.我个人的体会是先了解这个技术的来龙去脉,先从科普版开始,从它最简单地方式开始,一步一步了解它怎么演进的,每一个时代考虑了什么 ...
- 神经网络的起源和发展,人工神经网络发展历史
神经网络的历史是什么? 沃伦·麦卡洛克和沃尔特·皮茨(1943)基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型.这种模型使得神经网络的研究分裂为两种不同研究思路. 一种主要关注大脑中的生 ...
- 人工神经网络的发展历史,神经网络的起源和发展
1.神经网络的历史是什么? 沃伦·麦卡洛克和沃尔特·皮茨(1943)基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型.这种模型使得神经网络的研究分裂为两种不同研究思路.一种主要关注大脑中的 ...
- 一文看懂NLP神经网络发展历史中最重要的8个里程碑!
一文看懂NLP神经网络发展历史中最重要的8个里程碑! https://mp.weixin.qq.com/s/gNZiiEfsQjlF9tArNDIt5Q 作者|Sebastian Ruder 译者|小 ...
- 【深度学习与图神经网络核心技术实践应用高级研修班-Day1】深度学习的发展历史(完整版)
深度学习的常用模型及方法-深度学习发展历史 1. 深度学习发展历史 2. 深度学习的发展趋势 3. 人工神经网络 4. 模型与算法 4.1 前馈神经网络 4.2 前馈神经网络特点 4.3 前馈神经网络 ...
- 国内 CDN 产品发展历史和现状整理
国内 CDN 发展历史 国外 CloudFlare 进入站长视野 自己第一次接触 CDN 差不多是 2010年 左右,那时候是 CloudFlare 国内比较辉煌的时候,因为那时候 CloudFlar ...
- 计算机视觉的发展历史
"看"是人类与生俱来的能力.刚出生的婴儿只需要几天的时间就能学会模仿父母的表情,人们能从复杂结构的图片中找到关注重点.在昏暗的环境下认出熟人.随着人工智能的发展,机器视觉技术也试图 ...
- AI之HCI:人机交互Human-Computer Interaction的简介、发展历史、案例应用之详细攻略
AI之HCI:人机交互Human-Computer Interaction的简介.发展历史.案例应用之详细攻略 目录 人机交互Human-Computer Interaction的简介 1.人机交互的 ...
最新文章
- 【转载】机器学习领域的大家
- windows 邮槽mailslot 在服务程序内建立后客户端无权限访问(GetLastError() == 5)的问题...
- [.net 面向对象程序设计深入](4)MVC 6 —— 谈谈MVC的版本变迁及新版本6.0发展方向...
- 牛客题霸 [连续子数组的最大和] C++题解/答案
- netbeasn支持php7吗,php7+nginx+netbeans使用debug配置注意
- Oracle Database Documentation
- 复旦大学2018--2019学年第二学期(18级)高等代数II期末考试第八大题解答
- 写一个函数days,实现第一题的计算。由主函数将年月日传递给days函数。计算后将日子数传回主函数输出
- gem devise
- matlab存取面shp
- 基于 Self-hosted Debug 的调试
- 计算机碎片整理,计算机磁盘碎片整理
- 带着老娘和女儿看《孔子》
- DirectShow SDK下载
- .net连接access数据库
- 视频压缩编码和解码(转)
- 4652 final exam review tutor review
- linux nas 多硬盘,较低负担的四硬盘 NAS 选择,Synology DS416j 登场
- 基于SSM+Vue的农产品商城系统Java水果销售管理系统 生鲜商城系统(源码调试+讲解+文档)
- 每天10分钟——10.18
热门文章
- java实现截取6个汉字字母数字
- 推送通知(二)远程通知
- 前台分页,感觉一般还能优化
- 处理WinForm多线程程序时的陷阱(摘自网络)
- 递归用函数、存储过程实现的效果
- 80486微型计算机的字长,80486,80586等是什么样的电脑?
- 使用require.context实现前端工程自动化
- JavaScript函数节流(throttle)与函数去抖(debounce)解析与应用举例
- Vue2.0+SVG实现音乐播放圆形进度条组件,传入实时百分比实现圆圈进度动画效果
- 关于Django综述