综述:神经网络的优化-优化器,动量,自适应学习率,批量归一化

xingbod@gmail.com


在本文中,我将讨论与神经网络优化有关的以下概念:

  • 优化面临的挑战
  • 动量
  • 适应性学习率
  • 参数初始化
  • 批量归一化

优化面临的挑战

当谈论神经网络中的优化时,我们其实是在讨论非凸优化问题(non-convex optimization)。

与之对应,凸优化(Convex optimization)中,函数只有一个最优值,对应于全局最优值(最大值或最小值)。对于凸优化问题,没有局部最优的概念,这使得它们相对容易解决-这些是本科和研究生课程中的常见入门优化问题。

非凸优化涉及具有多个最优值的函数,其中只有一个是全局最优值。根据损失曲面loss surface,很难找到全局最优值

对于神经网络,我们这里所说的曲线或曲面称为损失曲面。由于我们试图使网络的预测误差最小,因此我们需要在此损失曲面上找到全局最小值-这是神经网络训练的目的。

针对神经网络训练,有很多相关问题需要考虑:

  • 使用的合理学习率是多少?太小的学习率将花费太长时间才能收敛,而太大的学习率将意味着网络将不会收敛。

  • 我们如何避免陷入局部最优?一个局部最优可能被特别陡峭的损失函数所包围,并且可能难以“逃脱”该局部最优。

  • 如果损失曲面形态发生变化怎么办?即使我们可以找到全局最

综述:神经网络的优化-优化器,动量,自适应学习率,批量归一化相关推荐

  1. 【Pytorch神经网络理论篇】 16 过拟合问题的优化技巧(三):批量归一化

    1 批量归一化理论 1.1 批量归一化原理 1.2 批量归一化定义 将每一层运算出来的数据归一化成均值为0.方差为1的标准高斯分布.这样就会在保留样本的分布特征,又消除了层与层间的分布差异. 在实际应 ...

  2. 从动力学角度看优化算法:自适应学习率算法

    作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 在从动力学角度看优化算法SGD:一些小启示一文中,我们提出 SGD 优化算法跟常微分方程(ODE) ...

  3. (tensorflow笔记)神经网络中的一些关键概念(学习率、激活函数、损失函数、欠拟合和过拟合、正则化和优化器)

    目录 1.神经网络复杂度 空间复杂度 时间复杂度 2.学习率策略 指数衰减学习率 分段常数衰减 3.激活函数 sigmoid tanh ReLU Leaky ReLU 建议 4.损失函数 均方误差损失 ...

  4. 针对这一行业痛点,创新工场投资的潞晨科技发布了大规模并行AI训练系统——“夸父”(Colossal-AI) ,通过多维并行、大规模优化器、自适应任务调度、消除冗余内存、降低能量损耗等方式,旨在打造一个

    前沿AI模型越来越大,无论是对于企业还是个人,AI模型的训练成本都越来越高.即使花巨资使用超级计算机集群,聘请专家,也难以实现AI模型的高效训练. 针对这一行业痛点,创新工场投资的潞晨科技发布了大规模 ...

  5. [Python人工智能] 四.TensorFlow创建回归神经网络及Optimizer优化器

    从本篇文章开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇文章讲解了TensorFlow基础和一元直线预测的案例,以及Session.变量.传入值和激励函数:这篇文章将详 ...

  6. 积神经网络的参数优化方法——调整网络结构是关键!!!你只需不停增加层,直到测试误差不再减少....

    积神经网络(CNN)的参数优化方法 from:http://blog.csdn.net/u010900574/article/details/51992156 著名: 本文是从 Michael Nie ...

  7. 神经网络中的优化算法总结

    在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳 ...

  8. 神经网络的参数优化方法

    转载自:https://www.cnblogs.com/bonelee/p/8528863.html 著名: 本文是从 Michael Nielsen的电子书Neural Network and De ...

  9. DL之CNN优化技术:学习卷积神经网络CNN的优化、实践经验(练习调参)、从代码深刻认知CNN架构之练习技巧

    DL之CNN优化技术:学习卷积神经网络CNN的优化.调参实践.从代码深刻认知CNN架构之练习技巧 目录 卷积神经网络CNN调参学习实践 练习技巧 1.练习攻略一 2.VGG16练习攻略二 卷积神经网络 ...

最新文章

  1. Spring+XFire WS-Security安全认证开发感悟
  2. 卷积神经网络(CNN)新手指南 1
  3. CNN网络架构演进:从LeNet到DenseNet
  4. 8.Verilog的for循环语句使用
  5. Scrapy-xpath用法以及实例
  6. 【计算机图形学】实验:VB.net环境下的图形裁剪完整实验操作流程
  7. python切割图像,使用Python图像库将一个图像切割成多个图像
  8. C++工作笔记-stl中map基础用法(插入,遍历,删除)
  9. 简单理解L0、L1与L2范数
  10. mssql 取数据指定条数(例:100-200条的数据)
  11. 安卓开发之ListView优化方案
  12. JUCE框架教程(8)——DSP Module基础
  13. 计算机是学前端开发好还是后端开发好?
  14. OLLYDBG逆天 往事随风修改专版
  15. 阿尔兹海默症AD最新研究进展(2021年7月)
  16. 利用Matlab解决线性规划问题并绘制特定形状的空间曲面(约束区域的绘图)
  17. 从零开始做一款Unity3D游戏<三>——编写游戏机制
  18. 大数据集群的部署安装
  19. 模拟电路学习常用原件之电阻的作用和仿真
  20. Accumulation

热门文章

  1. JS 用角度换东南西北
  2. 抖音一机两号有影响吗?抖音一个设备可以运营多个抖音号吗
  3. 岁月是把杀猪刀,程序员刚实习VS几年后,从小鲜肉到老司机...
  4. 小巧 linux 网页浏览器,冷门软件!几款干净极简浏览器,小巧强大、高效出众...
  5. RDD(python
  6. 硬核分享:优化 “Android Studio” 编译速度的10个小技巧
  7. 解决电脑声音图标红叉的办法
  8. CASS地物及地貌的诠释
  9. 保安值班安排系统C语言课程设计
  10. Wyn Enterprise 嵌入式商业智能和报表软件