起因:知乎看到的关于L2和weight decay的关系关于量化训练的一个小tip: weight-decay - 知乎


笔记:

作者首先发现问题,和其他相关研究类似,L2和weight decay在adam这种自适应学习率上的表现很差,导致很多人还是采用SGD+momentum策略。类似的有相关研究,从各种方面出发,作者发现效果差的最主要原因是L2效果不好。因此其最主要的贡献是: improve regularization in Adam by decoupling the weight decay from the gradient-based update

主要结果:

  1. L2正则和weight decay是不同的

  1. L2正则不适合Adam

  2. weight decay对于SGD和adam是同样有效的

首先在SGD中,L2正则和weight decay是等价的,证明如下,因此之前很多人会把两者弄混淆。但是在自适应梯度方法中是不一样的。

​​​​​​​

其实根据上面的推断可以看出来,    ,因此要把学习率和L2权重系数解耦,让二者关联变小。接着作者就分别提出了SGD和Adam版本解耦的优化方案,SGDW和AdamW,然后在论文第三章,去证明解耦的合理性。后面就是都是证明实验啥的,没仔细看了。

最后总结一下,AdamW总的来说比Adam更具有泛化性,尤其是在正则很重要的场景下效果会很好。

论文:https://arxiv.org/pdf/1711.05101.pdf

惊!Adam效果不好居然是因为……,Decouple Weight Decay Regulaization阅读笔记相关推荐

  1. 深度学习 效果不好怎么办

    1 在training set上就已经效果不佳 属于模型就没train好. case 1:受到局部最优影响,没有收敛到全局最优 solution:momentum(adam = RMSProp + m ...

  2. 深度学习中模型训练效果不好的原因以及防止过拟合的方法

    深度学习中模型训练效果不好的原因 1. 是否选择合适的损失函数 2. 是否选择了合适的Mini-batch size 3. 是否选择了合适的激活函数 4. 是否选择了合适的学习率 5. 优化算法是否使 ...

  3. yolov5 识别效果不好如何判断原因

    yolov5 训练完模型以后发现 对测试图片的识别效果不好. 那么这个时候该怎么办呢? 是过拟合还是欠拟合了呢? 怎么判断呢? 欠拟合 机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是 ...

  4. 灯亮怎么办_车辆隔音效果不好怎么办?

    会开车并不代表对车了如指掌 日常生活中还是有好多车主 被诸多问题困扰,比如 车辆隔音效果不好怎么办? 扳手形状的故障灯亮起是什么意思? 今天,就由利星大连为您答疑解惑 汽车隔音效果不好该怎么办? 有车 ...

  5. 训练效果不好的解决办法

    一.训练误差来源:bias.variance 李宏毅机器学习tips for deep learning 通过NN模型得到的f的均值和真实值之间的差值为bias f和均值之间的差值为variance ...

  6. 惊!Go里面居然有这样精妙的小函数!

    来自公众号:Gopher指北 各位哥麻烦腾个道,前面是大型装逼现场. 首先老许要感谢他人的认同,这是我乐此不彼的动力,同时我也需要反思.这位小姐姐还是比较委婉, 但用我们四川话来说,前一篇文章的标题是 ...

  7. 竞价推广效果不好,是哪些方面影响的呢?

    现在做百度竞价的人越来越多,在竞价推广中难免会遇到各种各样的问题,大多数问题是光花钱却没有带来效果,那竞价推广效果不好,原因有哪些呢? 一.恶意点击 很多企业在竞价推广中都免不了的是同行的恶意点击,为 ...

  8. 百度竞价效果不好的原因

    最近两年听到很中小企业的心声:"竞价效果越来越差,推广成本越来越高.前几年花很少的推广费就可以带来很多潜在客户有效咨询,并且能够成交一些.现在推广费高,很少有客户咨询,并且咨询了的客户很多都 ...

  9. 论文写作: 实验效果不好怎么办?

    摘要: 本贴讨论实验效果不好的应对措施. 讲道理, 论文写作本身只涉及包装, 即将已经做好实验的创新性成果写成一篇论文. 实验效果不好, 是方案设计的问题. 但多数研究者都会遇到这个问题, 所以还是在 ...

  10. 弘辽科技:淘宝推广效果不好?是由哪些原因造成的?该如何解决?

    原标题<弘辽科技:淘宝推广效果不好?是由哪些原因造成的?该如何解决?> 毋庸置疑,使用推广工具对整体提高店铺数据有很大的帮助,效果也会更好.但有些淘宝卖家担心自己没有使用过推广工具,没有相 ...

最新文章

  1. Java加载词向量_W2C得到词向量之后,如何得到句子向量,
  2. 你的气质里藏着 英文_有小肚腩女人穿衣要讲究,针织套装裙洋气又时髦,穿出优雅气质...
  3. java 修改商品如何实现的_Javaweb-案例练习-5-商品数量修改和合计金额实现
  4. 谈谈NullableT的类型转换问题
  5. Linux下最简单的修改文件名后缀的命令行技巧
  6. 前端学习(3192):react第一个案例
  7. 在tornado里面使用reverse_url
  8. 比机器人更优越的半机械昆虫,颜控党们会接受吗?
  9. Oracle中查询rownum和rowid的区别
  10. jpg图片已损坏怎么修复_JPG图片怎么转成PDF?这两个方法你能用上
  11. 贺利坚老师汇编课程40笔记:指令里的数据在哪里有多长
  12. div+css命名大全
  13. Android--android 中自定义菜单
  14. Pandas处理缺失数据
  15. 大智慧公式系统:条件选股之基本技巧
  16. 运筹优化算法问题汇总
  17. libyuv的编译使用
  18. Maven 私服的上传和下载
  19. 苦涩又难理解的IO<2>
  20. MySQL数据库面试题(50道题含答案和思维导图总结)

热门文章

  1. foxmail邮箱修改服务器,foxmail基本设置方法.foxmail使用技巧
  2. 关于数据库时区,这么多奥秘你都知道么?
  3. 每个星座的出生日期php,php根据出生日期计算 年龄/生肖/星座
  4. 获取当天零点/最晚时间戳
  5. 芯片烧录器编程AT24C02
  6. powershell快捷键_Windows10 PowerShell快捷键大全
  7. python单位根检验看结果_求助!!!关于单位根检验!!!!我检验了,但看不懂结果,哪位高手帮帮忙...
  8. 化工过程开发与工程思维
  9. iOS从零开始学习socket编程——高并发多线程服务器
  10. ios零基础学习 准备什么,如何去学习