这个也可以看看:

https://blog.csdn.net/LEILEI18A/article/details/103682433

一个是使用回调功能在每个批次/时代的结束:

sgd_opt = opt.SGD(learning_rate=0.005, momentum=0.9, wd=0.0001, rescale_grad=(1.0/batch_size))
model = mx.model.FeedForward(ctx=gpus, symbol=softmax, num_epoch=num_epoch, optimizer=sgd_opt, initializer=mx.init.Uniform(0.07))
def lr_callback(param): if param.nbatch % 10 == 0: sgd_opt.lr /= 10 # decrease learning rate by a factor of 10 every 10 batches print 'nbatch:%d, learning rate:%f' % (param.nbatch, sgd_opt.lr) model.fit(X=train_dataiter, eval_data=test_dataiter, batch_end_callback=lr_callback)

另一种方法是使用一个诸如AdaGrad或ADAM的optimizers

model = mx.model.FeedForward(ctx    = [mx.gpu(0)], num_epoch  = 60, symbol   = network, optimizer  = 'adam', initializer  = mx.init.Xavier(factor_type="in", magnitude=2.34)) model.fit(X= data_train) 

可以用GluonCV中的LRScheduler, 比较方便.

from gluoncv.utils.lr_scheduler import LRSequential, LRScheduler

在训练循环中,可以靠
trainer.set_learning_rate(trainer.learning_rate*lr_factor)
将学习率乘以一个lr_factor;
比如:

lr_factor = 0.5
lr_steps = [60, 140, 180, 220, 260, np.inf]
lr_counter = 0

for epoch in range(epochs):
if epoch == lr_steps[lr_counter]:
trainer.set_learning_rate(trainer.learning_rate*lr_factor)
lr_counter += 1

mxnet 衰减学习率相关推荐

  1. 【tensorflow】】模型优化(一)指数衰减学习率

    指数衰减学习率是先使用较大的学习率来快速得到一个较优的解,然后随着迭代的继续,逐步减小学习率,使得模型在训练后期更加稳定.在训练神经网络时,需要设置学习率(learning rate)控制参数的更新速 ...

  2. java 时间衰减函数_TensorFlow实现指数衰减学习率的方法

    在TensorFlow中,tf.train.exponential_decay函数实现了指数衰减学习率,通过这个函数,可以先使用较大的学习率来快速得到一个比较优的解,然后随着迭代的继续逐步减小学习率, ...

  3. 衰减学习率真的有用吗?

    一.学习率衰减实验 二.不做衰减 三.结论 由此可见,使用学习率衰减,使得训练集上的loss下降更快,迭代20轮时,不使用衰减,训练集loss是0.2033,而使用衰减的是0.05.所以,对于训练集l ...

  4. 浅谈tensorflow的指数衰减学习率、正则化、滑动平均模型

    指数衰减学习率使训练迭代更加有效: 学习率决定了每一次迭代训练过程优化神经网络数的幅度,学习率的正确选取对于训练的效率.和效果均有一定的影响,如果我们学习率设定过大,则会可能导致参数在极值两侧跳动,这 ...

  5. tf第八讲:global_step理解与指数衰减学习率

      大家好,我是爱编程的喵喵.双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中.从事机器学习以及相关的前后端开发工作.曾在阿里云.科大讯飞.CCF等比赛获得多次Top名次.现 ...

  6. 自定义指数衰减学习率函数

    Exponentially decayed learning rate 自定义函数如下,相比于tf.train.exponential_decay,添加了lowbound学习率 α = max ⁡ ( ...

  7. 指数衰减学习率的意义与使用方法

    它的意义在于动态调节学习率,最本质的作用当优化到了一定的瓶颈后,出现当前的学习率已不适用于优化,相对而言,学习率偏大,迈的步子较大,到不了底部:即需要降低学习速率: 使用方法: self.global ...

  8. 指数衰减学习率的staircase

    staircase:楼梯 如果为true,即楼梯为真,说明学习率要向楼梯一样下降: 看代码说话: import tensorflow as tf; import numpy as np; import ...

  9. 垃圾分类、EfficientNet模型B0~B7、Rectified Adam(RAdam)、Warmup、带有Warmup的余弦退火学习率衰减

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 垃圾分类.EfficientNet模型.数据增强(ImageD ...

最新文章

  1. 东京奥运会73枚动态图标刷爆朋友圈,中国网友怒赞:不愧是设计大国!
  2. Red Hat Enterprise Linux 5安装图解
  3. android点击弹出滑动条,IndicatorSeekBar Android自定义SeekBar,滑动时弹出气泡指示器显示进度...
  4. tensorboard ckpt pb 模型的输出节点_tensorflow, ckpt 转 pb 并进行预测
  5. Postgres 数据库安装、配置、备份还原及存储过程
  6. 发送不同类型的ActivityFeed
  7. Android之PowerManager简介
  8. postmain请求中午乱码_完美解决Get和Post请求中文乱码的问题
  9. Java并发编程实战~协程
  10. Atitit.木马病毒websql的原理跟个设计
  11. c语言优先级大全,C语言运算符及其优先级汇总表口诀
  12. matlab有限差分一维导热,一维导热方程 有限差分法 matlab实现
  13. 传导、辐射和谐波总结,大家共同学习
  14. 关闭ant的tree_ant-design Tree组件问题
  15. android 技能 英文,讯飞输入法Android7.0.4050搭载音标输入神技能
  16. 最新邮箱匹配正则(邮箱前缀可包含_)
  17. SteamAchievementManager刷steam游戏成就新手教程
  18. three.js 05-06 之 CylinderGeometry 几何体
  19. Command not found 解决
  20. 计算机语言phal语言,phalapi

热门文章

  1. c++中使用Tesseract-OCR
  2. Linux中的信号处理原理
  3. java实现异步调用实例
  4. android xml pid vid,增加属性标识摄像头的vid与pid,以便知道摄像头与设备文件的对应关系...
  5. 百度面试 中缀表达式变成后缀表达式
  6. 右值引用 移动构造函数 移动语义
  7. 一些c++的常见问题(系列一)
  8. chrome 禁用恢复页面提示_有哪些很值得推荐的Chrome插件?精选7款实用插件
  9. oracle 服务器硬盘满了,【案例】Oracle服务器diag进程占据了12g的磁盘空间分析解决办法...
  10. mysql 写 性能,MySQL在大型,只写表上的性能