XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手
晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI
几周前,谷歌发布了新的NLP模型XLNet,它在20项基准测试中均优于BERT。
但是与BERT相比,XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问:XLNet如果只接受与BERT相同规模的训练数据会如何?XLNet的胜利是否只是数据集的胜利?
今天,XLNet研究团队在Medium网站上用实际数据解答了众人的疑惑。他们使用近乎相同的数据集在XLNet和BERT之间进行公平对决,看看前者的性能到底有没有本质的提升。
参数配置
为了保证公平性,团队确保BERT和XLNet中几乎所有可能的超参数尽量相同。在无法保证二者相同的情况下,他们还让参数的优势更向BERT倾斜。
超参数用的是原来BERT作者发布的数据。也就是说,这么做更有可能针对BERT而不是XLNet进行优化。
具体的超参数设置如下:
相同的batch size:256
相同的训练步数:1M
相同的优化器:Adam,学习率1e-4,10K预热,线性衰减
相同的训练语料库:Wikipedia + BooksCorpus。XLNet团队使用与BERT repo中描述相同的工具来处理维基百科。但由于某些未知原因,XLNet维基百科语料库只有20亿单词,而BERT有25亿单词。因此XLNet训练集反而更小。
相同的模型架构参数:24层,1024个隐藏单元,head数16
相同的微调超参数搜索空间
他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:
在之前的实现中,未被覆盖的token在预训练中看不到CLS和SEP。在现在的实现中,未被覆盖的token可以看到CLS和SEP,这与BERT一致。
在微调中,XLNet使用“BERT格式”[CLS,A,SEP,B,SEP]取代[A,SEP,B,SEP,CLS]。
此外,他们还考虑了BERT的三种变体,并报告每个单独任务的最佳微调结果。
模型-I:作者发布的原始BERT
模型-II:具有全词覆盖的BERT,也是由作者发布
模型-III:由于下一句预测(NSP)可能会影响性能,使用已发布的BERT代码预训练一个新的没有NSP损失的模型。
以上的设置可能会为BERT带来一些优势,因为BERT可以通过不同的变体获得单个任务的最佳性能。
对比结果
二者在SQuAD、RACE等测试集上的结果如下,过程中没有使用数据扩增、集成学习或多任务学习。
测试结果说明了一些问题:
使用几乎相同的数据和训练方法,XLNet在所有数据集上均以相当大的优势超越BERT。
10倍数据对训练效果的提升不如从BERT到XLNet的变化明显。11个基准测试中,有8个从BERT切换到XLNet的提升更为明显。
在CoLA和MRPC等一些基准测试中,更多数据上训练的模型得分反而低于在较少数据上训练的模型。
上述结果中让我们获得了一些宝贵的经验。
XLNet确实提高了性能。实验结果1表明,在相同的训练条件下XLNet相对于BERT具有优势。
XLNet-Large可以更好地进行优化。实验结果2和3似乎表明XLNet-Large(更多训练数据)没有充分利用数据规模。
对未来工作的启发
XLNet团队表示,将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下训练细节可能会发挥重要作用:
数据相关:数据规模、数据来源、数据清洗、数据编码、数据格式化。
优化相关:学习率、batch size、训练步数、优化器。
这些超参数之间可能有高阶的相互作用。
Facebook AI最近的RoBERTa进入GLUE排行榜第一,似乎也暗示了训练细节的重要性。
原文链接:
https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
加入社群 | 与优秀的人交流
小程序 | 全类别AI学习教程
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手相关推荐
- pytorch微调bert_香侬读 | RoBERT: 没错,我就是能更强——更大数据规模和仔细调参下的最优BERT
文章标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach 文章作者:Yinhan Liu, Myle Ott, Naman Goyal, ...
- 中国团队在精液中发现新冠病毒,“蛋疼”且“不行”:新冠可能对男性威胁更大...
贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新冠疫情下,男人不好当. 5月7日,中国的研究人员发布结果称,在中国本土的病中.愈后男性病例精液样本里,都检出新冠病毒. 这也进一步印证了 ...
- bert 多义词_BERT之后,GLUE基准升级为SuperGLUE:难度更大
选自Medium 作者:Alex Wang等 机器之心编译 参与:Panda BERT 等模型的进展已让 GLUE 基准在新模型的评估方面日渐乏力,为推动 NLP 技术的进一步发展,有必要对 GLUE ...
- 团队协作效率低?多半是这5大障碍搞的鬼
管理学大师彼得·德鲁克曾说,随着知识经济的深入发展,在管理活动中,管理者要把人当人看,一切活动要以维护人性为中心展开.虽然从表面看以人性为中心很简单,但在实际的团队管理中,管理者往往忽视人性.比如,以 ...
- 更大的歌曲和言语,赢卡拉OK
更大的歌曲和言语,赢卡拉OK! 开卡拉OK是通过时间和崇拜者广泛的途径.毕竟,拉链可以击败appealingness并调用唱很多其他最广泛的曲调与朋友的几罐啤酒和一些芯片.但是拉链可以使卡拉OK更棕榈 ...
- 转:团队协作效率低?多半是这5大障碍搞的鬼
个人理解: 承认不足和私利,共建齐心协力.团队合作. 5大障碍: 缺乏信任 -- 不怕存在私心,就怕团队事务面前仍然私利大于公利 惧怕冲突 -- 一团和气不错,怕的是和气下的大锅饭.不做事:冲 ...
- 97. BERT微调、自然语言推理数据集以及代码实现
1. 微调BERT 2. 句子分类 3. 命名实体识别 4. 问题回答 5. 总结 即使下游任务各有不同,使用BERT微调时只需要增加输出层 但根据任务的不同,输入的表示,和使用的BERT特征也会不一 ...
- 响铃:打赢“心智战争”,服装品牌只有“更张扬”
文|曾响铃 来源|科技向令说(xiangling0815) 在互联网时代的新消费潮流冲击下,服装已经被定义为"传统产业",除了某些国际时装周还能凑点话题,多数品牌都难以找到走出&q ...
- XLNet再次超越BERT,技术发展太快,如何才能跟得上节奏?
在过去的2-3天时间里,Google的XLNet又刷爆了朋友圈.在面对技术的快速迭代更新,我们也在第一时间把XLNet纳入到了训练营体系里,在模型发布的第三天就完成了所有教研的工作.2019年贪心学院 ...
最新文章
- vue 用key拿对象value_vue对象添加属性(key:value)、显示和删除属性
- 自动化办公之excel教程(8):单变量求解,规划求解,页面布局,打印设置
- 初中 昆虫记思维导图_初中物理各单元思维导图,帮孩子扫清初中所有物理知识点!(附电子版)...
- P4451-[国家集训队]整数的lqp拆分【生成函数,特征方程】
- python处理era5_python批量下载EC—ERA5再分析资料
- SWOT分析》思维导图,帮助你做好企业优势劣势分析图
- orl face data download
- 计算机办公软件海报,word知识面制作一个图文并茂的宣传海报
- PHP多国语言开发:CodeIgniter 2PHP框架中的多国语言,语言包(i18n)库
- 华为模拟器eNSP下载与安装
- 广告的术语和简称大全
- 百度java面试应届,秋招 百度二轮面试---血淋淋的经历写实
- 笔记本电脑用u盘一键重装系统步骤
- 铁流:兆芯处理器媲美国际主流水准?言过其实
- jQuery 特效:盒子破碎和移动动画效果
- c语言编写程序,输入正整数n,计算0到n以内所有奇数的和,c语言输入正整数n,计算1~n中的奇数和以及偶数和并输出....
- 读淘宝页面字节流提取宝贝图片地址宝贝标题宝贝价格
- 常见变异影响常见疾病,罕见变异影响罕见疾病?
- Canvas绘图在微信小程序中的应用:生成个性化海报 1
- 井里有一只蜗牛,他白天往上爬5米,晚上掉3.5 米,井深56.7米,计算蜗牛需要多少天才能从井底到爬出来
热门文章
- 工程项目如何实现采购效益最大化?
- Google平台搭建虚机
- 《VMware Virtual SAN权威指南》一第1章 VSAN概述
- 利用wget 抓取 网站网页 包括css背景图片
- Move to Another Changelist
- 《大数据的“道”“术”“释”》----读书摘录+思考
- 程序员如何优雅地使用 Mac? - OS X - 知乎
- Tair的桶分布策略介绍及新的机器级位置安全优先策略实现
- 解决linux ssh登陆缓慢问题
- 我站在电线杆上,等风把我吹干...