学习率设置-warm up与consine learning rate

warm up最早来自于这篇文章：https://arxiv.org/pdf/1706.02677.pdf 。根据这篇文章，我们一般只在前5个epoch使用warm up。consine learning rate来自于这篇文章：https://arxiv.org/pdf/1812.01187.pdf 。通常情况下，把warm up和consine learning rate一起使用会达到更好的效果。代码实现：

# MultiStepLR without warm upscheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones=args.milestones, gamma=0.1)# warm_up_with_multistep_lrwarm_up_with_multistep_lr = lambda epoch: epoch / args.warm_up_epochs if epoch <= args.warm_up_epochs else 0.1**len([m for m in args.milestones if m <= epoch])scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=warm_up_with_multistep_lr)# warm_up_with_cosine_lrwarm_up_with_cosine_lr = lambda epoch: epoch / args.warm_up_epochs if epoch <= args.warm_up_epochs else 0.5 * ( math.cos((epoch - args.warm_up_epochs) /(args.epochs - args.warm_up_epochs) * math.pi) + 1)scheduler = torch.optim.lr_scheduler.LambdaLR( optimizer, lr_lambda=warm_up_with_cosine_lr)

上面的三段代码分别是不使用warm up+multistep learning rate 衰减、使用warm up+multistep learning rate 衰减、使用warm up+consine learning rate衰减。代码均使用pytorch中的lr_scheduler.LambdaLR自定义学习率衰减器。

参考自：https://zhuanlan.zhihu.com/p/148487894

学习率设置-warm up与consine learning rate相关推荐

深度学习成长之路（二）学习率（learning rate）的知识汇总
首先是找到的三篇不错的博客,看完收获很多.链接如下: 机器之心学习速率设置指南简书 batchsize和lr的笔记雷锋网抛弃learning rate decay 学习率(learning r ...
【学习率调整】学习率衰减之周期余弦退火（cyclic cosine annealing learning rate schedule）
1. 概述在论文<SGDR: Stochastic Gradient Descent with Warm Restarts>中主要介绍了带重启的随机梯度下降算法(SGDR),其中就引入了 ...
Adam和学习率衰减（learning rate decay）
1.梯度下降法更新参数梯度下降法参数更新公式: 其中,η 是学习率,θt是第 t 轮的参数,J(θt) 是损失函数,∇J(θt) 是梯度. 在最简单的梯度下降法中,学习率 ηη 是常数,是一个需要实 ...
机器学习笔记之学习率（learning rate）与过拟合（overfitting）
这次的笔记,之所以把学习率和过拟合放在一起讲,是因为,Msc阶段的几个挂掉的入职面试(投的实习,有的直接变成了校招的比如hw和zx,还有ali),问了相关的问题,结果回答地不好,所以在这里把这两个东西 ...
学习率(Learning rate)的理解及调整依据
1. 什么是学习率(Learning rate)? 学习率(Learning rate)作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值.合适的学习率 ...
tensorflow learning rate的设置
一.分段常数衰减 tf.train.piecewise_constan() 二.指数衰减 tf.train.exponential_decay() 三.自然指数衰减 tf.train.natural_ ...
TensorFlow之二—学习率 (learning rate)
文章目录一.分段常数衰减 tf.train.piecewise_constan() 二.指数衰减 tf.train.exponential_decay() 三.自然指数衰减 tf.train.nat ...
3.1 学习率（learning rate）的选择
文章目录 1. 什么是学习率 2. 学习率指数衰减机制 3. 实例解析 4. 总结 1. 什么是学习率调参的第一步是知道这个参数是什么,它的变化对模型有什么影响. (1)要理解学习率是什么,首先得弄 ...
深度学习：权重衰减（weight decay）与学习率衰减（learning rate decay）
正则化方法:防止过拟合,提高泛化能力避免过拟合的方法有很多:early stopping.数据集扩增(Data augmentation).正则化(Regularization)包括L1.L2(L2 ...
深度学习——学习率衰减(learning rate decay)
学习率衰减(learning rate decay) 为了防止学习率过大,在收敛到全局最优点的时候会来回摆荡,所以要让学习率随着训练轮数不断按指数级下降,收敛梯度下降的学习步长. 学习率衰减可以用以下 ...

学习率设置-warm up与consine learning rate

学习率设置-warm up与consine learning rate相关推荐

最新文章

热门文章