谷歌全新轻量级新模型ALBERT刷新三大NLP基准

ICLR 2020提交论文数量达到2594篇,比去年增加了近1000篇。其中,来自谷歌的一篇论文引起格外瞩目,该论文提出ALBERT模型,比BERT-large 参数更少,却在GLUE、RACE和SQuAD三大NLP基准测试中取得第一。>>>人工智能改变中国,我们还要跨越这三座大山 | 献礼70周年

由图灵奖获得者、人工智能巨头Yoshua Bengio 和 Yann LeCun牵头创办的顶级会议ICLR,被誉为深度学习“无冕之王”,获得学术研究者们广泛认可。

ICLR 2019 共收到 1591 篇论文投稿,其中 oral 论文 24 篇,poster 论文 476 篇。

ICLR 2020 更疯狂,到9月25日论文提交截止日期,已投稿的论文有2594篇!

全部论文:

https://openreview.net/group?id=ICLR.cc/2020/Conference

当然这也不算特别震惊,毕竟最近几年顶会论文的疯狂增长大家早就有了心理准备。

在这么多投稿中,一篇来自谷歌的论文很快引起研究社区瞩目。该论文提出一个名为ALBERT的模型,比BERT-large 参数更少,却在 GLUE 基准远远甩开 BERT-Large 拿到榜首。不仅如此,该模型横扫 GLUE、RACE 和 SQuAD,以显著的优势稳坐第一。

事情经过是这样的:

有Reddit网友发现,一个叫做 ALBERT 的模型,在 SQuAD 2.0 leaderboard 和 GLUE benchmark 都达到了最佳水准。这是一个前所未见的新模型,引起了大家的好奇。

ALBERT在SQuAD 2.0上排名第一

ALBERT在GLUE benchmark上排名第一

不久,终于有网友扒出了这个模型的论文,原来是 ICLR 2020 的一篇投稿,出自谷歌。

ALBERT 又叫 A LITE BERT,顾名思义就是一个轻量级的 BERT 模型。模型大固然效果好,但也超吃资源。训练一次不仅耗时、更费钱。甚至在某些情况下,由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因,更难提升模型大小。

谷歌研究人员对此提出了通过两种参数约简技术来降低内存消耗,加快 BERT 的训练速度的思路,于是就有了 ALBERT。

接下来,我们就来看一下这篇 ICLR 2020 投稿论文,来一探这个神仙模型的究竟。

制霸三大基准测试,ALBERT用了两招

在训练自然语言表示时,增加模型大小通常会提高下游任务的性能。然而,在某种程度上,由于GPU/TPU内存的限制、更长的训练时间以及意想不到的model degradation,进一步增大模型会变得更加困难。

为了解决这些问题,谷歌的研究人员提出了两种参数约简技术,以降低内存消耗,并提高BERT的训练速度。

实验表明,本文提出的方法得到的模型比原始BERT模型更好。我们还使用 self-supervised loss,专注于建模句子间的连贯性,并表明它始终有助于多句子输入的下游任务。

基于此方法的最佳模型在GLUE、RACE和SQuAD基准上都得到了最新的SOTA结果,而且与BERT-large相比,参数更少。

构建更大的模型的一个障碍是可用硬件的内存限制。考虑到目前最先进的模型通常有数亿甚至数十亿个参数,当我们试图扩展模型时,很容易遇到这类限制。在分布式训练中,训练速度也会受到很大的影响,因为通信开销与模型参数的数量成正比。

我们还观察到,简单滴增加模型的hidden size可能会导致性能下降,比如BERT-large。表1和图1给出了一个典型的例子,我们简单地将这个BERT-xlarge模型的hidden size增加到2倍,结果却很糟糕。

表1:在RACE测试中,增加BERT-large的hidden size导致模型性能下降。

图1:较大模型的masked LM精度较低,但没有明显的过拟合迹象。

针对上述问题,现有解决方案包括模型并行化(Shoeybi et al.,2019)和智能内存管理(Chen et al., 2016); Gomez et al., 2017)。这些解决方案解决了内存限制问题,但没有解决通信开销和model degradation问题。在本文中,我们通过设计一个比传统BERT架构参数少得多的架构来解决上述所有问题,称为A Lite BERT (ALBERT)。

ALBERT结合了两种参数约简(parameter reduction)技术,消除了在扩展预训练模型时的主要障碍

第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下,更容易增加隐藏大小。

第二种技术是跨层参数共享(cross-layer parameter sharing)。这种技术可以防止参数随着网络深度的增加而增加。

BERT和ALBERT模型的规模

这两种方法都在不严重影响性能的前提下,显著减少了BERT的参数数量,从而提高了参数效率。ALBERT的配置类似BERT-large,但参数量少了18倍,并且训练速度快1.7倍。参数约简技术还可以作为一种形式的正则化,可以使训练更加稳定,并且有助于泛化。

为了进一步提高ALBERT的性能,我们还引入了一个用于句子顺序预测(sentence-order prediction ,SOP)的自监督损失。SOP 主要聚焦于句子间的连贯,旨在解决原始BERT模型中下一句预测(NSP)损失低效的问题。

基于这些设计,ALBERT能够扩展到更大的版本,参数量仍然比BERT-large少,但是性能明显更好。

我们在 GLUE、SQuAD 和 RACE 三大自然语言理解基准测试上都得到了新的SOTA结果:在 RACE 上的准确率提高到 89.4%,在 GLUE 上的得分提高到 89.4,在 SQuAD 2.0 上的 F1 得分达到 92.2。

表10:GLUE基准测试的State-of-the-art 结果。

表11:在SQuAD 和 RACE 两个基准测试上的State-of-the-art 结果

论文地址:

https://openreview.net/pdf?id=H1eA7AEtvS

谷歌全新轻量级新模型ALBERT刷新三大NLP基准相关推荐

  1. 自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT

    来源:机器之心 本文约2200字,建议阅读5分钟 一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进. 来自谷歌研究院的研究者提出了一种使用 ...

  2. 谷歌推出新模型「pQRNN」,少量参数下进行文本分类,性能堪比BERT

    近日,谷歌推出了新模型「pQRNN」,它是由去年推出的「PRADO」进一步使用小模型改进而得,达到了SOTA结果.pQRNN的新颖之处在于,它可以结合一个简单的映射和一个quasi-RNN编码器来进行 ...

  3. 谷歌新模型刷新ImageNet纪录,第一作者是上海交大毕业生谢其哲

    2019-11-14 01:43:36 鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 谷歌的EfficientNet进化之后,又刷新了ImageNet纪录. 这个叫Noisy Stud ...

  4. 从16.6%到74.2%,谷歌新模型刷新ImageNet纪录,第一作者是上海交大毕业生谢其哲...

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 谷歌的EfficientNet进化之后,又刷新了ImageNet纪录. 这个叫Noisy Student的新模型,将ImageNet图像分 ...

  5. 谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:AI科技评论 过去几年间,迁移学习给 NLP 领域带来了丰硕的成果,掀起了 ...

  6. 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Tran ...

  7. 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Transformer跨界计算机视觉虽然已取得了一些不错的成绩,但大部分情况下,它还是落后于最先进的卷积网络. 现在,谷歌提出了一个叫做Co ...

  8. 谷歌Transformer再升级——新模型实现性能、速度双提升,发展潜力巨大

    "数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 当我们在翻译软件上输入 &quo ...

  9. 一个TensorFlow的新模型,Kaparthy小哥用了都说好

    昨天午饭时分,营长注意到Kaparthy小哥(特斯拉AI主管.马斯克红人.李飞飞高徒)的Twitter活跃了起来: 大意是说,Google一周前给TensorFlow增加的新模型NASNet让人很是兴 ...

最新文章

  1. 什么是拜占庭将军问题
  2. 园林工程中植物搭配要注意哪些地方?
  3. 无刷新读取数据库 (ajax)
  4. node读写本地文件
  5. 牛逼!Docker遇到Intellij IDEA,再次解放了生产力~
  6. Windows系统下nodejs安装及配置
  7. 使用.udl快速测试与数据库的连接并得到连接字符串
  8. Python中类、对象与self详解
  9. D - 最长公共子序列问题-详细过程
  10. shell逻辑判断和-a区别
  11. Web前后端缓存技术(缓存的主要作用是什么)
  12. Activity launchMode
  13. 京瓷1020手动双面打印提示_自动双面打印时纸张是如何被翻转的?
  14. MQ消息队列的12点核心原理总结
  15. 2021年终总结——脚踏实地,为下一次腾飞积蓄力量
  16. 代价地图、局部规划器调参说明
  17. INT_MIN和INT_MAX
  18. 万诤:同心同向同行,才算得上不负遇见
  19. 自定义 Drawable实现灵动红鲤鱼特效
  20. 一个恋爱小故事告诉你什么是gRPC?!

热门文章

  1. python类的继承 被继承类放在类后面的括号中
  2. 分区文件http://wenku.baidu.com/view/d839d1868762caaedd33d4b7.html
  3. 数据库名、实例名、数据库域名、全局数据库名、服务名,
  4. SUN 论坛http://forums.sun.com/forum.jspa?forumID=840
  5. 《强化学习周刊》第39期:近似最优深度、多智能体广义、角色动画强化学习...
  6. 《强化学习周刊》第28期:UNCC提出全新脑-机交互学习模式:内在互动强化学习...
  7. 青源 LIVE 第 20 期 | 复旦大学吴祖煊:高效视频内容识别
  8. 5分钟 NLP系列—— 11 个词嵌入模型总结
  9. 清华大学人工智能研究院自然语言处理与社会人文计算研究中心成立,重磅推出两场前沿学术报告和三项特色开源成果...
  10. 经典论文复现 | LSGAN:最小二乘生成对抗网络