卷友们好,我是rumor。

其实我这个卷都不配叫卷,真正的NLP极卷之地,乃是GLUE与CLUE这两个榜单

GLUE

CLUE

两年多前BERT刚出来的时候,每每GLUE江山易主我都跟着激动一把,但慢慢刺激久了就麻木了,再看到新闻反而不关注技术,而是佩服同学们的毅力。尤其是达摩院的StructBERT老哥,不管我隔多久去看一眼GLUE,它都稳稳在上面,给人一种说不出的安全感。我还专门去打听过,据说作者老哥刷榜只是顺带,主要还在做业务,真真卷出了我的想象力。

GLUE无法触及大家的G点之后,又开始了CLUE之旅。去年刚正式发布,今年就被卷爆了

记得今年年初的时候我们旁边MT-BERTs组也在刷,恰好前一天腾讯LICHEE模型刚发稿登上了榜首,第二天MT-BERTs就登顶了,我们小群里还看热闹,想着别人看到腾讯的文章,结果打开CLUE是美团第一,不知道LICHEE的心理阴影面积有多大。

更刺激的是4月份,阿里刚发稿公布PLUG模型登顶分类榜单,过两天就看到了华为Pangu发稿说又给刷了,这年头不仅刷榜卷,发稿也卷,不快的话过两天SOTA就又换人了。

而老牌NLP厂商搜狗也不肝示弱,BERTSG在4月份被Pangu刷下去之后,5月份又刷了回来。

直到昨天又出现了新的榜首,来自QQ浏览器搜索的Motian同学。

所以目前中国选手的战况是,百度ERNIE同学仍然在玩GLUE,处于世界级霸主的地位,阿里、华为双管齐下,派出StructBERT、PLUG、NEZHA、Pangu两路夹击,腾讯依旧主张赛马机制,派出LICHEE、BERTSG、Motian多位健将。其他厂如平安、我团、OPPO、创新工场(TBH)采取游击战术,打完了就撤。

其实我最佩服大家的是不光分数卷,名字也卷的不行

国际化的思路是围绕芝麻街起名,国内则是充分发挥了想象力。

从华为哪吒开始就一发不可收拾,荔枝、盘古、孟子、摩天相继出世,还有智源的悟道、文汇。

一个比一个恢弘磅礴,起名的时间可能比预训练的时间都长

看着大佬们这么卷,我不禁关掉B站,开始学习如何提升预训练模型。

下面就让我们从有限的公开博客里,看看各位大体量选手都进行了哪些优化,迎面走来的分别是:

  • 腾讯Motian[1]:总榜第一、十亿参数、1TB训练数据、encoder架构

  • 搜狗BERTSG[2]:总榜第二、百亿参数、2TB训练数据、encoder架构

  • 华为Pangu[3]:总榜第四、千亿参数、40TB训练数据、encoder-decoder架构

  • 阿里PLUG[4]:分类榜第三、百亿参数、1TB训练数据、encoder-decoder架构

预训练优化

第一个公认的提分方法是把单纯的MLM改成WWM,融入更多中文词汇、短语的知识,Motian和BERTSG都有采用。

其次除了MLM外,各位选手还采用了多任务方式,比如Motian加入了搜索点击曝光任务;BERTSG参考了Cross thought和对比学习,学到更多句子级别特征,同时加入了文章标题生成和段落顺序预测任务;Pangu的encoder则是基于StructBERT,其中分别加入了WSO(打乱词序)以及改进的NSP任务。

在模型参数量提升后,收敛速度也成了问题,可以用分阶段预训练解决。Motian参考BERT使用两阶段预训练,先训128长度,再512长度;对于encoder-decoder架构,Pangu采取的方法是先训练基于StructBERT的encoder,之后加上decoder进行生成模型训练,前90%的时间保留MLM,后10%去掉。

Motian的博客中还提到了一个消除MLM预训练-精调不一致的方法,不进行Mask,而是采用随机词/同义词替换,也获得了一些提升。

位置编码

绝对位置编码存在以下问题:

  1. 预训练数据足够多时,可学习的位置编码比sinusoidal更好,但可延展性差,长度不能超出范围

  2. 通过对Attention计算的分解可以发现,位置编码相乘之前还会经过参数矩阵的变化,之后不一定能保存位置信息

  3. 在文本中,term之间的相对位置其实比绝对位置重要(比如北京到深圳vs深圳到北京,更重要的其实是谁在前面)

因此NEZHA、XLNET、T5、DeBERTa等模型都采用了相对位置编码的方案,Motian也使用了相对位置编码,发现可以有1个百分点的提升。

模型结构优化

虽然对于Transformer结构的改进已经很多了,但实际在大模型刷榜时用的并不多,比较有效的策略是把Post-LN改为Pre-LN,实际发现Post-LN在训练超大模型时,若没有设置好warmup,会导致收敛效果变差。

训练速度优化

大模型不可避免需要并行优化,不然一张卡根本放不下。

加速方法可以参考这篇文章,总结下来就是数据并行、重计算、Tensor并行、Pipeline模型并行、优化器模型并行。

速度优化对于算法工程师的挑战还是很大的,经常会出很莫名的bug,或者好不容易搞好了但是效果莫名下降。刚一点的厂干脆自己做框架,比如百度Paddle和华为MindSpore,阿里也和自家云计算平台进行了合作。

总结

其实博客看下来,真正的干货不算多,很多特定任务的trick都没有公开,比如GLUE上做匹配任务之前都会先在MNLI、SNLI上精调,CLUE上估计也会针对不同任务和数据集有特殊的策略。

Anyway,虽然刷榜有时候被认为是人力过剩的出口,但对于这种热榜来说,真正有提升是很难的,每次都是千分位上的前进,大部分的novelty有限,但也正是一小步一小步的改进才能迸发出更大的提升。

但一个不好的现象是榜单对模型体量没有限制,纯粹变成了大厂之间的游戏,即使有小模型榜单,刷出来也没有总榜的影响力大,大家觉得性价比低也就不去刷了,只能通过论文来对比单模型方法上的提升。

最后,我发现起名是真的难,英文的套路是围绕芝麻街,而国内则不甘心延续别人的套路,历史名人、神话故事、水果、抽象词汇一起上,搞得我想了一会儿也没想到更好的。

刷榜卷不起,起名还卷不起吗?

卷友们,咱们这就来举办一期起名大赛,卷爆大厂!

截止周五晚24点,评论区点赞数最多的名字,私信我拿88元现金红包!

参考资料

[1]

Motian: https://mp.weixin.qq.com/s/HQL0Hk49UR6kVNtrvcXEGA

[2]

BERTSG: https://pcedu.pconline.com.cn/1410/14101830.html

[3]

Pangu: https://www.sohu.com/a/463292432_491575

[4]

PLUG: https://finance.sina.com.cn/tech/2021-04-19/doc-ikmyaawc0523891.shtml


大家好我是rumor

一个热爱技术,有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「我的脑洞关上了」

你刷我,我刷你,霸榜CLUE甜蜜蜜相关推荐

  1. 2022斯坦福AI指数报告出炉!中国霸榜AI顶会,但引用量最低

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 2022年人工智能指数报告发布了 ...

  2. 霸榜 GitHub:去你丫的算法!

    公众号关注 "视学算法" 设为 "星标",每天带你逛 GitHub! 本文首发自公众号:GitHubDaily 大家好,我是小 G. 今天跟大家分享下,前不久我 ...

  3. 【学术相关】中国霸榜AI顶会,但引用量最低!最新斯坦福AI指数出炉!

      新智元报道   2022年人工智能指数报告发布了!这份报告中,中国在AI顶会论文上表现不凡,但在引用数量方面却低于美国.欧盟和英国. 今年的报告主要分为5大章节:研究及发展,技术表现,人工智能应用 ...

  4. “入圈”高端大获成功!小米10至尊版上市首月霸榜京东、天猫5000元以上档销量第一...

    9月17日上午,小米公司产品总监王腾通过微博分享了小米10至尊纪念版最新的销售情况.他表示,小米10至尊纪念版刚刚上市满月,已经在京东.天猫双平台5000元以上高端手机的销量排行中排名第一. 小米10 ...

  5. 连续10年霸榜第一?程序员「最常用」的编程语言是它?

    近日,StackOverflow 发布了<2022年度开发者调查报告>,了解的程序员朋友们应该知道,StackOverflow 年度开发者调查,是面向全球开发者进行的规模最大.最全面的一次 ...

  6. 中国 GitHub 霸榜乱象! 国内程序员的脸都被丢尽了!

    点击上方"Github中文社区",关注 看遍Github好玩的项目 作者:白哥 | 开发者技术前线 前几天huber哥我看到,一位叫 Balazs Saros 的国外开发者在 Me ...

  7. 中国 GitHub 霸榜乱象! 真是把国内程序员的脸给丢尽了!

    点击"开发者技术前线",选择"星标????" 让一部分开发者看到未来" 编辑:可可 开发者技术前线:出品 前几天前线编者看到,一位叫 Balazs S ...

  8. 2022 斯坦福AI报告:中国霸榜AI顶会,但引用量最低

    CVPR 2022 | 最全25+主题方向.最新50篇GAN论文汇总 本文 新智元 编辑:桃子 时光 [新智元导读]2022年人工智能指数报告发布了!这份报告中,中国在AI顶会论文上表现不凡,但在引用 ...

  9. 中国 GitHub 霸榜乱象! 别再给国内程序员丢脸了

    点击"开发者技术前线",选择"星标?" 在看|星标|留言,  真爱 作者:白哥 | 开发者技术前线 原创 前几天白哥我看到,一位叫 Balazs Saros 的 ...

最新文章

  1. DedeCms 5.7后台去除版权及去除广告的方法
  2. linux修改selinux
  3. 归并排序模板(附求逆序对)
  4. c语言输出参数是out,关于C语言中的输出输入流
  5. std map多线程_SEBR:多线程内存回收方案(1)之ConcurrentHasMap
  6. 数据结构与算法 | 计数排序
  7. 看了交大自产的电影《我的太阳》
  8. robust scene text recognition with automatic rectification
  9. Leetcode每日一题:181.employees-earning-more-than-their-managers(超过经理收入的员工)
  10. Qt5学习笔记之bin文件合成工具三:偏移量数据填充
  11. CSS属性之position
  12. 报错:[Microsoft][ODBC 驱动程序管理器] 无效的字符串或缓冲区长度
  13. 物料编码在PDM与ERP集成中的应用研究
  14. AE自带特效中英文对照表
  15. php创建对象出问题,activex部件不能创建对象
  16. CDN 网站部署全站加速服务
  17. 程序设计思维与实践 Week7 作业 A TT的魔法猫
  18. 五种网站Web服务器技术和网页设计技术
  19. 8.3 初步理解 Texture Alpha
  20. php格林威治时间,PHP默认时间是格林威治时间。

热门文章

  1. 1205: 你爱我么?
  2. rails 构建高性能web
  3. 水库水雨情监测系统方案分享-水库水位监测-水情监测
  4. java项目-第71期基于ssm的化妆品商城系统【毕业设计】
  5. 面试题 收集请求k千里马
  6. 视频编解码和MPEG4编码
  7. 移动网络http请求不到数据,wifi下可以
  8. 自己的JS框架--Amy框架。
  9. Github/gitee 上传文件最大100MB限制this exceeds file size limit of 100.0 MB
  10. Qualcomm msm8996 调试AMOLED屏