晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI

几周前,谷歌发布了新的NLP模型XLNet,它在20项基准测试中均优于BERT。

但是与BERT相比,XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问:XLNet如果只接受与BERT相同规模的训练数据会如何?XLNet的胜利是否只是数据集的胜利?

今天,XLNet研究团队在Medium网站上用实际数据解答了众人的疑惑。他们使用近乎相同的数据集在XLNet和BERT之间进行公平对决,看看前者的性能到底有没有本质的提升。

参数配置

为了保证公平性,团队确保BERT和XLNet中几乎所有可能的超参数尽量相同。在无法保证二者相同的情况下,他们还让参数的优势更向BERT倾斜。

超参数用的是原来BERT作者发布的数据。也就是说,这么做更有可能针对BERT而不是XLNet进行优化。

具体的超参数设置如下:

  • 相同的batch size:256

  • 相同的训练步数:1M

  • 相同的优化器:Adam,学习率1e-4,10K预热,线性衰减

  • 相同的训练语料库:Wikipedia + BooksCorpus。XLNet团队使用与BERT repo中描述相同的工具来处理维基百科。但由于某些未知原因,XLNet维基百科语料库只有20亿单词,而BERT有25亿单词。因此XLNet训练集反而更小。

  • 相同的模型架构参数:24层,1024个隐藏单元,head数16

  • 相同的微调超参数搜索空间

他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:

  • 在之前的实现中,未被覆盖的token在预训练中看不到CLS和SEP。在现在的实现中,未被覆盖的token可以看到CLS和SEP,这与BERT一致。

  • 在微调中,XLNet使用“BERT格式”[CLS,A,SEP,B,SEP]取代[A,SEP,B,SEP,CLS]。

此外,他们还考虑了BERT的三种变体,并报告每个单独任务的最佳微调结果。

  • 模型-I:作者发布的原始BERT

  • 模型-II:具有全词覆盖的BERT,也是由作者发布

  • 模型-III:由于下一句预测(NSP)可能会影响性能,使用已发布的BERT代码预训练一个新的没有NSP损失的模型。

以上的设置可能会为BERT带来一些优势,因为BERT可以通过不同的变体获得单个任务的最佳性能。

对比结果

二者在SQuAD、RACE等测试集上的结果如下,过程中没有使用数据扩增、集成学习或多任务学习。

测试结果说明了一些问题:

  1. 使用几乎相同的数据和训练方法,XLNet在所有数据集上均以相当大的优势超越BERT。

  2. 10倍数据对训练效果的提升不如从BERT到XLNet的变化明显。11个基准测试中,有8个从BERT切换到XLNet的提升更为明显。

  3. 在CoLA和MRPC等一些基准测试中,更多数据上训练的模型得分反而低于在较少数据上训练的模型。

上述结果中让我们获得了一些宝贵的经验。

  1. XLNet确实提高了性能。实验结果1表明,在相同的训练条件下XLNet相对于BERT具有优势。

  2. XLNet-Large可以更好地进行优化。实验结果2和3似乎表明XLNet-Large(更多训练数据)没有充分利用数据规模。

对未来工作的启发

XLNet团队表示,将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下训练细节可能会发挥重要作用:

数据相关:数据规模、数据来源、数据清洗、数据编码、数据格式化。
优化相关:学习率、batch size、训练步数、优化器。
这些超参数之间可能有高阶的相互作用。
Facebook AI最近的RoBERTa进入GLUE排行榜第一,似乎也暗示了训练细节的重要性。

原文链接:
https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

作者系网易新闻·网易号“各有态度”签约作者

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手相关推荐

  1. pytorch微调bert_香侬读 | RoBERT: 没错,我就是能更强——更大数据规模和仔细调参下的最优BERT

    文章标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach 文章作者:Yinhan Liu, Myle Ott, Naman Goyal, ...

  2. 中国团队在精液中发现新冠病毒,“蛋疼”且“不行”:新冠可能对男性威胁更大...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新冠疫情下,男人不好当. 5月7日,中国的研究人员发布结果称,在中国本土的病中.愈后男性病例精液样本里,都检出新冠病毒. 这也进一步印证了 ...

  3. bert 多义词_BERT之后,GLUE基准升级为SuperGLUE:难度更大

    选自Medium 作者:Alex Wang等 机器之心编译 参与:Panda BERT 等模型的进展已让 GLUE 基准在新模型的评估方面日渐乏力,为推动 NLP 技术的进一步发展,有必要对 GLUE ...

  4. 团队协作效率低?多半是这5大障碍搞的鬼

    管理学大师彼得·德鲁克曾说,随着知识经济的深入发展,在管理活动中,管理者要把人当人看,一切活动要以维护人性为中心展开.虽然从表面看以人性为中心很简单,但在实际的团队管理中,管理者往往忽视人性.比如,以 ...

  5. 更大的歌曲和言语,赢卡拉OK

    更大的歌曲和言语,赢卡拉OK! 开卡拉OK是通过时间和崇拜者广泛的途径.毕竟,拉链可以击败appealingness并调用唱很多其他最广泛的曲调与朋友的几罐啤酒和一些芯片.但是拉链可以使卡拉OK更棕榈 ...

  6. 转:团队协作效率低?多半是这5大障碍搞的鬼

    个人理解: 承认不足和私利,共建齐心协力.团队合作. 5大障碍:   缺乏信任 -- 不怕存在私心,就怕团队事务面前仍然私利大于公利   惧怕冲突 -- 一团和气不错,怕的是和气下的大锅饭.不做事:冲 ...

  7. 97. BERT微调、自然语言推理数据集以及代码实现

    1. 微调BERT 2. 句子分类 3. 命名实体识别 4. 问题回答 5. 总结 即使下游任务各有不同,使用BERT微调时只需要增加输出层 但根据任务的不同,输入的表示,和使用的BERT特征也会不一 ...

  8. 响铃:打赢“心智战争”,服装品牌只有“更张扬”

    文|曾响铃 来源|科技向令说(xiangling0815) 在互联网时代的新消费潮流冲击下,服装已经被定义为"传统产业",除了某些国际时装周还能凑点话题,多数品牌都难以找到走出&q ...

  9. XLNet再次超越BERT,技术发展太快,如何才能跟得上节奏?

    在过去的2-3天时间里,Google的XLNet又刷爆了朋友圈.在面对技术的快速迭代更新,我们也在第一时间把XLNet纳入到了训练营体系里,在模型发布的第三天就完成了所有教研的工作.2019年贪心学院 ...

最新文章

  1. vue 用key拿对象value_vue对象添加属性(key:value)、显示和删除属性
  2. 自动化办公之excel教程(8):单变量求解,规划求解,页面布局,打印设置
  3. 初中 昆虫记思维导图_初中物理各单元思维导图,帮孩子扫清初中所有物理知识点!(附电子版)...
  4. P4451-[国家集训队]整数的lqp拆分【生成函数,特征方程】
  5. python处理era5_python批量下载EC—ERA5再分析资料
  6. SWOT分析》思维导图,帮助你做好企业优势劣势分析图
  7. orl face data download
  8. 计算机办公软件海报,word知识面制作一个图文并茂的宣传海报
  9. PHP多国语言开发:CodeIgniter 2PHP框架中的多国语言,语言包(i18n)库
  10. 华为模拟器eNSP下载与安装
  11. 广告的术语和简称大全
  12. 百度java面试应届,秋招 百度二轮面试---血淋淋的经历写实
  13. 笔记本电脑用u盘一键重装系统步骤
  14. 铁流:兆芯处理器媲美国际主流水准?言过其实
  15. jQuery 特效:盒子破碎和移动动画效果
  16. c语言编写程序,输入正整数n,计算0到n以内所有奇数的和,c语言输入正整数n,计算1~n中的奇数和以及偶数和并输出....
  17. 读淘宝页面字节流提取宝贝图片地址宝贝标题宝贝价格
  18. 常见变异影响常见疾病,罕见变异影响罕见疾病?
  19. Canvas绘图在微信小程序中的应用:生成个性化海报 1
  20. 井里有一只蜗牛,他白天往上爬5米,晚上掉3.5 米,井深56.7米,计算蜗牛需要多少天才能从井底到爬出来

热门文章

  1. 工程项目如何实现采购效益最大化?
  2. Google平台搭建虚机
  3. 《VMware Virtual SAN权威指南》一第1章 VSAN概述
  4. 利用wget 抓取 网站网页 包括css背景图片
  5. Move to Another Changelist
  6. 《大数据的“道”“术”“释”》----读书摘录+思考
  7. 程序员如何优雅地使用 Mac? - OS X - 知乎
  8. Tair的桶分布策略介绍及新的机器级位置安全优先策略实现
  9. 解决linux ssh登陆缓慢问题
  10. 我站在电线杆上,等风把我吹干...