在优化模型的过程中,有高原、高峰、洼地,我们的目的是找到最低的那个洼地。
选择不同的学习率和优化器,可能进入不同的洼地,或者在洼地附近震荡,无法收敛。

1 优化器的选择

Adam那么棒,为什么还对SGD念念不忘
https://blog.csdn.net/jiachen0212/article/details/80086926

2 学习率

学习率有什么用

学习率是深度学习中的一个重要的超参,如何调整学习率是训练出好模型的关键要素之一。
学习率决定了每步权重更新对当前权重的改变程度:

其中E(w)为我们优化的损失函数,η是学习率。

大小的对训练网络的影响

学习率太小,更新速度慢;学习率过大,可能跨过最优解。
因此,在刚开始训练,距离最优解较远时可以采用稍大的学习率,随着迭代次数增加,在逼近最优解的过程中,逐渐减小学习率。

太大容易出现超调现象,即在极值点两端不断发散,或是剧烈震荡,总之随着迭代次数增大loss没有减小的趋势;
太小会导致无法快速地找到好的下降的方向,随着迭代次数增大loss基本不变。

有什么方法调整

学习率调整方法基本上有两种:

  1. 基于经验的手动调整。 通过尝试不同的固定学习率,如0.1, 0.01, 0.001等,观察迭代次数和loss的变化关系,找到loss下降最快关系对应的学习率。

  2. 基于策略的调整。

    2.1 fixed 、exponential、polynomial

    2.2. 自适应动态调整。adadelta、adagrad、ftrl、momentum、rmsprop、sgd

方法如下:
https://blog.csdn.net/Cxiazaiyu/article/details/81837230

制定一个合适的学习率衰减策略。可以使用定期衰减策略,比如每过多少个epoch就衰减一次;或者利用精度或者AUC等性能指标来监控,当测试集上的指标不变或者下跌时,就降低学习率。

例子:

# 如果损失不再下降,则降低学习率
if loss_meter.value()[0] > previous_loss:lr = lr * opt.lr_decayfor param_group in optimizer.param_groups:param_group['lr'] = lr

其中opt.lr_decay = 0.95

深度学习调参:优化算法,优化器optimizer,学习率learning rate相关推荐

  1. 深度学习调参体验(二)

    深度学习调参体验(二) 激活函数选择: 常用的激活函数有relu.leaky-relu.sigmoid.tanh等.对于输出层,多分类任务选用softmax输出,二分类任务选用sigmoid输出,回归 ...

  2. 深度学习调参体验(一)

    深度学习调参体验(一) 基本原则: 快速试错 一.一些大的注意事项: 1.先上小规模数据, 模型往大了放, 只要不爆显存, 能用256个filter就别用128个.直接奔着过拟合去.就是训练过拟合网络 ...

  3. 深度学习调参有哪些技巧?

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 来自 | 知乎 链接 | https://www.zhihu.com/question/250 ...

  4. 【DLML】深度学习调参有哪些技巧?

    深度学习调参有哪些技巧? 编辑:Amusi  |  来源:知乎 https://www.zhihu.com/question/25097993 目录 一.为什么要学习调参? 二.调参技巧 1. 评价指 ...

  5. 深度学习这么调参训练_深度学习调参及训练技巧(转)

    深度学习调参及训练技巧(转) 作者:婉儿飞飞 链接:https://www.jianshu.com/p/0b116c43eb16 来源:简书 简书著作权归作者所有,任何形式的转载都请联系作者获得授权并 ...

  6. Deep Learning Tuning Playbook(深度学习调参手册中译版)

    前言 由五名研究人员和工程师组成的团队发布了<Deep Learning Tuning Playbook>,来自他们自己训练神经网络的实验结果以及工程师的一些实践建议,目前在Github上 ...

  7. 深度学习调参(炼丹)指南来了!

    Datawhale干货 方向:深度学习调参,编辑:机器之心 「大量的实践经验已被提炼成这份强大的深度学习模型调参指南.」--Geoffrey Hinton. 众所周知,AI 的超参数决定着模型学习效果 ...

  8. 深度学习调参技巧总结

    深度学习调参技巧总结 做dl也有一段时间了,积累了一些经验,也在网上看到一些别人的经验.  为了面试,结合知乎上面的问答,我也总结了一下,欢迎大家补充. 知乎 深度学习调参有哪些技巧? 一. 初始化  ...

  9. 深度学习调参tricks总结!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:山竹小果,来源:NewBeeNLP 寻找合适的学习率(learni ...

  10. 收藏 | 机器学习、深度学习调参手册

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:来自|夕小瑶的卖萌屋   文 | 山竹小果 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开 ...

最新文章

  1. 高频面试考点:Redis中有几百万数据量,如何进行高效访问?
  2. Google 希望将 Go 打造成云端应用开发的首选语言
  3. mysql 只读账号_MySql主从复制,从原理到实践!
  4. VC++的dll中接收消息
  5. leetcode461. 汉明距离
  6. 智慧职教云答案在哪里找_职教云网课答案在线查询,职教云答案查询,智慧职教云答案在哪里找到...
  7. pandas显示全部数据内容_vue项目,当鼠标移入时文本长度超出才显示全部内容
  8. 关于EN信号通过电阻分压的问题
  9. 自动化测试遇到的难点_自动化测试不成功的原因和实施过程中存在的问题
  10. 亚马逊云科技在中国市场火了?真相令人想不到
  11. PT100所谓的二线制,三线制,四线制如何接线(详解)
  12. 桌面悬浮窗口(可拖动)
  13. 画了张图,总结了机房里AAU、RRU以及各模块之间的走线关系和线束规格类型
  14. 多功能噪音消除器支持多种场景模式
  15. iPhone手机史上最全的扫盲帖【越狱,解锁,激活,Cydia,基带,裸机】
  16. SQL 对含有字母和数字的列排序
  17. 电商APP源码功能解说
  18. android 多个shortCut快捷方式实现以及对58同城快捷方式的实现思路的研究
  19. 崛起背后的隐秘故事-“机器人版 Linux”ROS
  20. 黑客突破物理隔离的8种方法

热门文章

  1. Pytorch Note 快乐星球
  2. 健康体魄1:长寿要点
  3. 腾讯阿里打通生态,针锋相对的时代或将结束?
  4. mac 上双击终端执行sh文件
  5. 服务器维护 测试化验加工费,测试化验加工费什么意思
  6. python socket实现实时通信
  7. [软考]净现值NPV详细解释及应用,实例讲解收集(信息系统项目管理师-立项管理)...
  8. AR+LBS街景实景红包PokemonGo游戏捉妖夺宝营销解决方案暨百度高德地图Unity插件SDK
  9. vue项目导出EXCEL功能
  10. 网狐棋牌QueueService