加快学习算法的一个办法就是随着时间慢慢减少学习率,我们将之称为学习率衰减。

假设要使用mini-batch梯度下降法,mini-batch数量不大,大概64或者128个样本。在迭代过程中会有噪声,迭代会不断向最小值下降,但是不会精确地收敛,所以算法最后在最小值点附近摆动,并不会真正地收敛。这是因为用的α\alphaα是固定值,不同的mini-batch中有噪音,但要慢慢减少学习率α\alphaα的话,在初期的时候α\alphaα学习率还较大,学习还是相对较快,但是随着α\alphaα变小,步伐也会变慢变小。所以最后曲线会在最小值附近的一小块区域摆动,而不是在训练过程中大幅度地在最小值附近摆动。所以慢慢减少α\alphaα的本质在于,在学习初期能承受较大的步伐,但当开始收敛的时候,小一些的学习率能让你步伐小一些。

我们可以将α\alphaα学习率设为α=11+decayrate∗epochnum∗α0\alpha=\frac{1}{1+decay_{rate}*epoch_{num}}*\alpha_0α=1+decayrate​∗epochnum​1​∗α0​注意公式中的衰减率decayratedecay_{rate}decayrate​是另一个需要调整的超参数。举一个具体的例子,设α0=0.2\alpha_0=0.2α0​=0.2,衰减率decatrate=1decat_{rate}=1decatrate​=1,那么在第一个epoch中代入公式中可以得到α1=11+1∗1∗0.2=0.1\alpha_1=\frac{1}{1+1*1}*0.2=0.1α1​=1+1∗11​∗0.2=0.1。

根据学习率更新公式,学习率呈递减趋势。如果想学习率衰减,要做的是尝试不同的值,包括超参数α0\alpha_0α0​以及超参数衰减率,找到合适的值。除了这个学习率衰减的公式,还可以用其它的公式。

改善深层神经网络:超参数调整、正则化以及优化——2.9学习率衰减相关推荐

  1. 交叉验证和超参数调整:如何优化您的机器学习模型

    In the first two parts of this article I obtained and preprocessed Fitbit sleep data, split the data ...

  2. 2020-6-9 吴恩达-改善深层NN-w3 超参数调试(3.3 超参数训练的实践:Pandas(资源少,一次一个模型) VS Caviar(资源多,一次多个模型))

    1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...

  3. python/keras中用Grid Search对神经网络超参数进行调参

    原文:How to Grid Search Hyperparameters for Deep Learning Models in Python With Keras 作者:Jason Brownle ...

  4. 02.改善深层神经网络:超参数调试、正则化以及优化 W2.优化算法(作业:优化方法)

    文章目录 1. 梯度下降 2. mini-Batch 梯度下降 3. 动量 4. Adam 5. 不同优化算法下的模型 5.1 Mini-batch梯度下降 5.2 带动量的Mini-batch梯度下 ...

  5. 02.改善深层神经网络:超参数调试、正则化以及优化 W1.深度学习的实践层面(作业:初始化+正则化+梯度检验)

    文章目录 作业1:初始化 1. 神经网络模型 2. 使用 0 初始化 3. 随机初始化 4. He 初始化 作业2:正则化 1. 无正则化模型 2. L2 正则化 3. DropOut 正则化 3.1 ...

  6. 02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架(作业:TensorFlow教程+数字手势预测)

    文章目录 1. 探索TensorFlow库 1.1 线性函数 1.2 计算 sigmoid 1.3 计算损失函数 1.4 One_Hot 编码 1.5 用0,1初始化 2. 用TensorFlow建立 ...

  7. 02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架

    文章目录 1. 调试处理 2. 为超参数选择合适的范围 3. 超参数调试的实践 4. 归一化网络的激活函数 5. 将 Batch Norm 拟合进神经网络 6. Batch Norm 为什么奏效 7. ...

  8. 02.改善深层神经网络:超参数调试、正则化以及优化 W2.优化算法

    文章目录 1. Mini-batch 梯度下降 2. 理解 mini-batch 梯度下降 3. 指数加权平均数 4. 理解指数加权平均数 5. 指数加权平均的偏差修正 6. 动量Momentum梯度 ...

  9. 02.改善深层神经网络:超参数调试、正则化以及优化 W1.深度学习的实践层面

    文章目录 1. 训练,验证,测试集 2. 偏差,方差 3. 机器学习基础 4. 正则化 5. 为什么正则化预防过拟合 6. dropout(随机失活)正则化 7. 理解 dropout 8. 其他正则 ...

最新文章

  1. ROS发行版列表完整版
  2. 贪心算法简单实践 -- 分糖果、钱币找零、最多区间覆盖、哈夫曼编解码
  3. 一文读懂机器学习中的正则化
  4. 35 岁前程序员要规划好的四件事(转载)
  5. matlab中单独存图_Matlab中图片保存的四种方法
  6. Device Tree(三):代码分析【转】
  7. 从源码深入理解Spring IoC 注解
  8. 2019蓝桥:奇数倍数问题
  9. 安卓隐藏摄像_隐藏摄像头探测器
  10. 如何用电脑查看自己的IP地址
  11. Thread多线程-(最容易被问到的面试题)
  12. Android应用安全加固
  13. assigning the result of this type assertion to a variable could eliminate the followin assertion解决
  14. 【JDBC】JDBC
  15. CF975C Valhalla Siege 题解
  16. 英语二 - 常用词根一
  17. 【a】标签的伪类选择器
  18. 23种设计模式(GOF)
  19. uniapp微信小程序引入第三方字体库
  20. 推石磨机器人_您见过机器人豆腐西施吗?七旬老人发明出来了,能推石磨添料揽客...

热门文章

  1. 计算机病毒对消息钩子的利用与对抗
  2. XP+WIN7双系统安装,备份,启动菜单修复
  3. Webhook入门教程:Webhook vs API 它们之间有什么区别?
  4. Oracle MySQL社区版与Oracle MySQL企业版特征对比
  5. Fedora安装Mariadb数据库
  6. net core 3.1 跨域 Cors 找不到 “Access-Control-Allow-Origin”
  7. python从零开始基础入门——开发环境搭建
  8. 【Java】实现矩阵的转置
  9. “Abp.AbpException: Unknown filter name: MayHaveTenant. Be sure this filter is registered before.”的解决
  10. C#LeetCode刷题之#257-二叉树的所有路径(Binary Tree Paths)