改善深层神经网络：超参数调整、正则化以及优化—

加快学习算法的一个办法就是随着时间慢慢减少学习率，我们将之称为学习率衰减。

假设要使用mini-batch梯度下降法，mini-batch数量不大，大概64或者128个样本。在迭代过程中会有噪声，迭代会不断向最小值下降，但是不会精确地收敛，所以算法最后在最小值点附近摆动，并不会真正地收敛。这是因为用的α\alphaα是固定值，不同的mini-batch中有噪音，但要慢慢减少学习率α\alphaα的话，在初期的时候α\alphaα学习率还较大，学习还是相对较快，但是随着α\alphaα变小，步伐也会变慢变小。所以最后曲线会在最小值附近的一小块区域摆动，而不是在训练过程中大幅度地在最小值附近摆动。所以慢慢减少α\alphaα的本质在于，在学习初期能承受较大的步伐，但当开始收敛的时候，小一些的学习率能让你步伐小一些。

我们可以将α\alphaα学习率设为α=11+decayrate∗epochnum∗α0\alpha=\frac{1}{1+decay_{rate}*epoch_{num}}*\alpha_0α=1+decayrate∗epochnum1∗α0注意公式中的衰减率decayratedecay_{rate}decayrate是另一个需要调整的超参数。举一个具体的例子，设α0=0.2\alpha_0=0.2α0=0.2，衰减率decatrate=1decat_{rate}=1decatrate=1，那么在第一个epoch中代入公式中可以得到α1=11+1∗1∗0.2=0.1\alpha_1=\frac{1}{1+1*1}*0.2=0.1α1=1+1∗11∗0.2=0.1。

根据学习率更新公式，学习率呈递减趋势。如果想学习率衰减，要做的是尝试不同的值，包括超参数α0\alpha_0α0以及超参数衰减率，找到合适的值。除了这个学习率衰减的公式，还可以用其它的公式。

改善深层神经网络：超参数调整、正则化以及优化——2.9学习率衰减相关推荐

交叉验证和超参数调整：如何优化您的机器学习模型
In the first two parts of this article I obtained and preprocessed Fitbit sleep data, split the data ...
2020-6-9 吴恩达-改善深层NN-w3 超参数调试(3.3 超参数训练的实践：Pandas(资源少，一次一个模型) VS Caviar(资源多，一次多个模型))
1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...
python/keras中用Grid Search对神经网络超参数进行调参
原文:How to Grid Search Hyperparameters for Deep Learning Models in Python With Keras 作者:Jason Brownle ...
02.改善深层神经网络：超参数调试、正则化以及优化 W2.优化算法（作业：优化方法）
文章目录 1. 梯度下降 2. mini-Batch 梯度下降 3. 动量 4. Adam 5. 不同优化算法下的模型 5.1 Mini-batch梯度下降 5.2 带动量的Mini-batch梯度下 ...
02.改善深层神经网络：超参数调试、正则化以及优化 W1.深度学习的实践层面（作业：初始化+正则化+梯度检验）
文章目录作业1:初始化 1. 神经网络模型 2. 使用 0 初始化 3. 随机初始化 4. He 初始化作业2:正则化 1. 无正则化模型 2. L2 正则化 3. DropOut 正则化 3.1 ...
02.改善深层神经网络：超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架（作业：TensorFlow教程+数字手势预测）
文章目录 1. 探索TensorFlow库 1.1 线性函数 1.2 计算 sigmoid 1.3 计算损失函数 1.4 One_Hot 编码 1.5 用0,1初始化 2. 用TensorFlow建立 ...
02.改善深层神经网络：超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架
文章目录 1. 调试处理 2. 为超参数选择合适的范围 3. 超参数调试的实践 4. 归一化网络的激活函数 5. 将 Batch Norm 拟合进神经网络 6. Batch Norm 为什么奏效 7. ...
02.改善深层神经网络：超参数调试、正则化以及优化 W2.优化算法
文章目录 1. Mini-batch 梯度下降 2. 理解 mini-batch 梯度下降 3. 指数加权平均数 4. 理解指数加权平均数 5. 指数加权平均的偏差修正 6. 动量Momentum梯度 ...
02.改善深层神经网络：超参数调试、正则化以及优化 W1.深度学习的实践层面
文章目录 1. 训练,验证,测试集 2. 偏差,方差 3. 机器学习基础 4. 正则化 5. 为什么正则化预防过拟合 6. dropout(随机失活)正则化 7. 理解 dropout 8. 其他正则 ...

改善深层神经网络：超参数调整、正则化以及优化——2.9学习率衰减

改善深层神经网络：超参数调整、正则化以及优化——2.9学习率衰减相关推荐

最新文章

热门文章