点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

要挑战Adam地位的优化器又多了一个。

近日NeurIPS 2020收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论。

这就是由耶鲁大学团队提出的AdaBelief。团队在论文中表示,该优化器兼具Adam的快速收敛特性和SGD的良好泛化性。

所谓AdaBelief,是指根据梯度方向上的“信念”(Belief)来调整训练的步长。它和Adam在算法上的差别并不大。

二者差别在下面的算法实现上可以轻易看出。

相比Adam,AdaBelief没有引入任何其他新参数,只是在最后一步更新时有差异,已在上图中用蓝色标出。

Adam的更新方向是,而AdaBelief的更新方向是。vt和st的差别在于,后者是的指数移动平均(EMA)。

mt可以看做是gt的预测值,当实际值与预测值相差不大时,分母较小,步长较大,权重放心大胆迈开步子更新。

而实际值与预测值相差很大时,AdaBelief倾向于“不相信”当前梯度,此时分母较大,更新步长较短。

为什么AdaBelief更好

只做在最后一步做了了一个小小的改变,未审核会产生如此之大的影响呢?

这主要是因为AdaBelief考虑了两点。

1、损失函数的曲率问题

理想的优化器应该考虑损失函数的曲线,而不是简单地在梯度较大的地方下采取较大的步长。

在“大梯度、小曲率”(图中区域3)情况下很小,优化器应增加其步长。

2、分母中的梯度符号

在上图损失函数为的情况下,蓝色矢量代表梯度,十字叉代表最优解。

Adam优化器在y方向上振荡,并在x方向上保持前进。这是由于在低方差情况下,Adam中的更新方向接近“符号下降”。

而在AdaBelief中,,因此AdaBelief在x方向上走了一大步,在y方向上只会走一小步,防止振荡产生。

实验结果

在简单的几种3维损失函数曲面上,AdamBelief展现出了优秀的性能。

图像分类

在CIFAR-10和CIFAR-100数据集上,用VGG11、ResNet34和DenseNet121三种网络进行训练,AdaBelief都显示出更好的收敛结果。

而且在ImageNet数据上,AdaBelief在Top-1准确率上仅次于SGD。

时间序列建模

在Penn TreeBank数据集上,用LSTM进行实验,AdaBelief都实现了最低的困惑度。

GAN

在WGAN和WGAN-GP上的实验表明,经AdaBelief训练的结果都得到了最低的FID。

网友质疑

虽然AdaBelief在多个任务上取得了不错的效果,但该方法还是遭到不少网友质疑。

因为这些年来号称取代Adam的优化器不计其数,但最终获得时间检验的却寥寥无几。

网友首先质疑的是实验baseline的选取问题。

有人认为,在CIFAR上,很难相信2020年SOTA模型的准确率低于96%,因此AdaBelief论文最终在选取baseline时有可能是选择了与不太好的结果进行比较。

在ImageNet测试的表2里,为什么要使用ResNet18代替更标准的ResNet50?而且AdaBelief不是最优结果,却用加粗方式标出,容易让人产生误解。绝妙的技巧是将提出的方法的得分加粗。

另外,还有人在作者未测试的NLP任务上进行实验,很快AdaBelief就“崩溃”了,而SGD能够很好地收敛。

AdaBelief不会是最后一个意图取代Adam的优化器,它的泛化能力究竟如何,还有待更多研究者进一步地检验。

项目地址:
https://juntang-zhuang.github.io/adabelief/

论文地址:
https://arxiv.org/abs/2010.07468

代码地址:
https://github.com/juntang-zhuang/Adabelief-Optimizer

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Adam又要“退休”了?耶鲁大学团队提出AdaBelief,却引来网友质疑相关推荐

  1. Adam 又要“退休”了?耶鲁大学团队提出 AdaBelief,却引来网友质疑

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 要挑战Adam地位的优化器又多了一个. 近日NeurIPS 2020收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论. 这就 ...

  2. Adam又要“退休”了?耶鲁大学团队提出AdaBelief

    要挑战Adam地位的优化器又多了一个. 近日NeurIPS 2020收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论. 这就是由耶鲁大学团队提出的AdaBelief.团队在论文中表示,该 ...

  3. Adam又要“退休”了?耶鲁大学团队提出AdaBelief,NeurIPS 2020收录,却引来网友质疑...

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 要挑战Adam地位的优化器又多了一个. 近日NeurIPS 2020收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论. 这就 ...

  4. 耶鲁大学等机构提出的脑机接口软硬件协同设计,增加脑机的更大潜力

    脑机接口(brain -computer Interfaces, BCIs)或脑机接口(brain - machine Interfaces, BMIs)自从被医生和研究人员使用以来,已经为治疗神经系 ...

  5. 图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 计算机视觉领域中有很多任务,如目标检测.图像转换.风格迁移等,但你听说过「图像情感迁移」吗? ...

  6. 风格迁移应用_进展丨图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务...

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 机器之心报道 编辑:魔王 图像风格迁移?语音情感迁移?不,是图像情感迁移. 计算机视觉领域中有很多任务,如目标检测. ...

  7. 风格迁移应用_图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务...

    机器之心报道 编辑:魔王 图像风格迁移?语音情感迁移?不,是图像情感迁移. 计算机视觉领域中有很多任务,如目标检测.图像转换.风格迁移等,但你听说过「图像情感迁移」吗? 罗切斯特大学罗杰波教授团队提出 ...

  8. Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...

    利用纳米孔测序技术实时测定病毒全基因组信息(Nanopore Real-time Sequencing),能够动态地分析病毒分子进化来研究病毒的变异及传播特征,这些信息对疫情发展不同阶段制定有效的防控 ...

  9. 死猪脑”能复活吗?---评美国耶鲁大学医学院实验研究

    来源:科学网博客 4月17日,英国<自然>杂志刊发了科学家对于"复活"死猪脑的尝试:美国耶鲁大学医学院的研究团队将已经死亡4小时的猪脑接入新开发的BrainEX体外灌注 ...

最新文章

  1. es6常用语法和特性
  2. oracle可视化工具_零代码玩转数据可视化
  3. Tcl与Design Compiler (三)——DC综合的流程
  4. 大盘点: KubeCon EU 2019 应用管理领域的新看点!
  5. WP7中HttpWebRequest异常
  6. 使用函数进行邮件发送的示例
  7. 仿照七牛云图片处理类实现的C#帮助类
  8. jQuery学习_具备吸附功能的拖曳框
  9. 计算机应用怎么写,计算机应用专业描述怎么写
  10. java面向对象程序设计课后习题答案_JAVA面向对象程序设计课后习题参考答案
  11. android投屏到web,网络视频投屏Web Video Cast v5.2.0 for Android 解锁高级版
  12. 《A Relation-Specific Attention Network for Joint Entity and Relation Extraction》论文
  13. Mitmproxy 新版配置上游(二级)代理
  14. python爬千图网高清图片
  15. ios本地文件内容读取,.json .plist 文件读写
  16. idea 报错Process finished with exit code 1
  17. Enzo丨Enzo 抗原回收试剂,pH 6方案
  18. charles windows 和苹果手机进行连接抓包
  19. 2022年危险化学品经营单位主要负责人最新解析及危险化学品经营单位主要负责人考试资料
  20. 全国计算机技术与软件专业技术考试----(高级资格/高级工程师)各资格证详细介绍

热门文章

  1. 去掉警告:PerformSelector may cause a leak because its
  2. 袁哥写的漏洞研究方法总结
  3. IT-标准化-系列-7.使用VPC+VNC管理虚拟机
  4. 向sqlce 里插入和取出一个Image
  5. Springboot 日志、配置文件、接口数据如何脱敏?老鸟们都是这样玩的!
  6. 数据库存储引擎大揭秘,不看不知道这里面的骚操作可真多!
  7. 大写的服,看完这篇你还不懂RocketMQ算我输
  8. 这才是微服务拆分的正确姿势,值得学习!
  9. Redis史上最强【集群】入门实践教程
  10. 一个接口查询关联了十几张表,响应速度太慢?那就提前把它们整合到一起