鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

深度神经网络往往存在过拟合的问题,需要Dropout、权重衰减这样的正则化方法的加持。

而最近的研究表明,如果对Dropout“剪掉”的神经元的结构进行利用,就能实现比随机替换更好的效果。

问题是,实际应用中,针对不同的问题,利用结构的方法需要人工设计,对Dropout的模式进行调整,泛化能力不足。

那么,是否能设计一种针对CNN、Transformer这样的深度神经网络,自动学习Dropout模式的方法?

现在,谷歌大神Quoc V. Le的团队,就提出了一种名为AutoDropout的方法。

相关论文已经入选AAAI 2021。

将设计Dropout模式的过程自动化

AutoDropout的主要目的,就是将设计针对专门场景的Dropout模式这件事自动化。

研究人员为此设计了一个新的结构化Dropout模式的搜索空间。这个搜索空间囊括了许多现有的Dropout模式。

不妨先以CNN为例,来看一下该方法是如何实现的。

CNN中的Dropout模式搜索空间

在CNN中,搜索空间的基本模式是一个连续的矩形,矩形经过平铺,就会产生一个Dropout模式。

定义矩形的超参数,是高度和宽度;而定义平铺的超参数,是步幅和重复次数。

除了对矩形进行平铺之外,还需要将两个几何变换引入搜索空间:围绕空间中心旋转,沿着每个空间维度进行剪切。

在得到dropout模式之后,研究人员将其应用于批量归一化层的输出——根据研究人员的经验,在网络的其他地方进行应用,往往会导致搜索过程中训练的不稳定。

如果CNN中存在残差连接,控制器则会进一步判断,是否把dropout模式应用到残差分支中。

控制器模型和搜索算法

AutoDropout的控制器是通过强化学习来训练的。

控制器实际上是一个Transformer网络。该网络生成token以描述Dropout模式的配置。

如下图所示,对于CNN中的每一层,都需要8个token来创建Dropout模式。

不过,这样搜索算法可能需要花费大量的时间进行训练,为此,研究人员也进行了并行性方面的改善工作。

Transformer中的Dropout模式搜索空间

这样的方法同样适用于Transformer。

与CNN中最大的不同在于,搜索空间中的dropout模式可以灵活地应用于Transformer层的多个子层,比如query、key、value、softmax、输出投影和残差等。

因此,研究人员针对每一个子层,各自应用了独立的dropout模式。

实验结果

为了验证AutoDropout的效果,研究人员分别在CNN和Transformer模型中应用了AutoDropout。

对于CNN,主要应用在有监督图像分类任务和半监督图像分类任务。

对于Transformer,主要考虑语言模型和机器翻译。


可以看到,在CIFAR-10和ImageNet上,AutoDropout都有效改善了SOTA模型的结果,并且优于DropBlock等需要人工介入的方法。

而与使用Variational Dropout方法训练的Transformer-XL模型相比,AutoDropout同样带来了更好的表现。

不过,研究人员也提到,AutoDropout的缺点是搜索成本很高。

有关作者

本文有两位作者。

Hieu Pham,谷歌大脑和卡内基梅隆大学共同培养的博士生,本科毕业于斯坦福大学。

另一位作者是Quoc V. Le大佬。他是吴恩达的学生,Google Brain的创立者之一,也是谷歌AutoML项目的幕后英雄之一。

传送门

论文地址:
https://arxiv.org/abs/2101.01761

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

加入AI社群,拓展你的AI行业人脉

量子位「AI社群」招募中!欢迎AI从业者、关注AI行业的小伙伴们扫码加入,与50000+名好友共同关注人工智能行业发展&技术进展

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

谷歌大脑最新研究:用AutoML的方式自动学习Dropout模式,再也不用手动设计相关推荐

  1. 谷歌大脑最新研究:不用「训练」!高斯过程「超越」随机梯度下降

    来源:雷克世界 编译:嗯~阿童木呀.多啦A亮 概要:近年来,深度神经网络作为一种灵活的参数模型,以能够适应复杂的数据模式而著称. 可以这样说,一个具有独立同分布(independent identic ...

  2. 灾难性遗忘_谷歌大脑新研究:单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!...

    鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI 雅达利游戏,又被推上了强化学习基础问题研究的舞台. 来自谷歌大脑的最新研究提出,强化学习虽好,效率却很低下,这是为啥呢? --因为AI遭遇了「 ...

  3. 谷歌大脑新研究:强化学习如何学会用声音来观察?

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 编译 | 王晔 校对 | 维克多 人类已经证明,大脑中的神经系统拥有 ...

  4. Hinton领衔谷歌大脑新研究,拯救被认成步枪的乌龟

    栗子 安妮 编译整理 量子位 出品 | 公众号 QbitAI 最近,深度学习之父Geoffrey Hinton带领的谷歌大脑团队,提出了一种防御对抗攻击的新方法. 一种叫作DARCCC的技术,能将重构 ...

  5. 谷歌大脑高级研究科学家:我的六年机器学习博士生涯总结

    编译 | 陈彩娴 编辑 | 青暮 机器学习读博是什么体验?期间遇到的挫折与挑战又要如何应对? 在ML领域小有名气的青年科学家Maithra Raghu总结了自己在六年读博经历中所汲取的经验与教训,希望 ...

  6. ViT作者、谷歌大脑研究员翟晓华:大规模视觉表征学习

    智源导读:从2020年,Transformer开始在CV领域大放异彩.ViT(Vision Transformer)是Google在2020年提出的直接将transformer应用在图像分类的模型,后 ...

  7. 华为、中大、谷歌合作最新研究黑白漫画场景可批量上色

    给定一个场景草图,我们的系统将按照用户指定的基于语言的指令为前景对象实例和背景逐渐着色,从而自动生成彩色卡通图像. 作者信息 介绍 基于自然的,非接触式有趣的,基于语言的输入已被证明有效地完成了从图像 ...

  8. 告别深度学习炼丹术!谷歌大脑提出“权重无关”神经网络

    来源:新智元 本文约5600字,建议阅读10+分钟. 无需权重训练!谷歌再向深度学习炼丹术发起"攻击". [ 导读 ]神经网络训练中"权重"有多重要不言而喻.但 ...

  9. 谷歌大脑AutoML最新进展:不断进化的阿米巴网络

    原作 Esteban Real Root 编译自 Google Research Blog 量子位 出品 | 公众号 QbitAI 自然界用了5亿年时间. 才把神经系统从最原始的雏形--阿米巴(Amo ...

最新文章

  1. 【Spring】面向切面编程AOP
  2. 用python画蝴蝶_图形化编程经验分享,画笔基础,软件包括Python、Kittenblock
  3. 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏
  4. leetcode-876. 链表的中间结点解法
  5. myelcipse和maven搭建项目
  6. c++中std::find_std :: find()与C ++中的示例
  7. 热烈祝贺《大数据》主编郑纬民教授当选中国工程院院士!!!
  8. OpenCV学习笔记:矩阵/向量处理
  9. jQuery hover事件鼠标滑过图片半透明标题文字滑动显示隐藏
  10. java获取发件人_如何获取发件人outlook / Exchange的SMTP地址
  11. MySql表空间的概念
  12. HPE Gen9 使用 RESTful API 管理服务器
  13. mysql中的rman备份与恢复_RMAN备份与恢复实践(转)
  14. 解决pip pandas 安装提示time out
  15. 百度地图-将经纬度转化为地址
  16. 智公网:公务员行测基础考点
  17. 雷总:我也想做高级工程师 !
  18. 【2021.03.19】长调用与短调用
  19. luogu P1373 小a和uim之大逃离
  20. Hadoop面试题和答案

热门文章

  1. Pycharm 基本快捷键
  2. 自定义msi安装包的执行过程
  3. webrtc fec
  4. mac composer 使用
  5. Zabbix监控web项目
  6. 人少,登录速度就是快.
  7. python实现字符串切割
  8. iOS - Flutter混合开发
  9. python输入变量_Python如何获取用户输入
  10. Xamarin图表开发基础教程(8)OxyPlot框架