每天给你送来NLP技术干货!


来自:李rumor

卷友们好,我是rumor。

昨天刷Arxiv看到一篇比较有意思的文章:

Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130

文章只有两个作者,来自微软Azure的Cognitive Services Research Group,一作是位叫朱晨光的大佬,不查不知道,一查吓一跳,从此我又多了一位男神。

朱晨光大佬本科就读于清华姚班,据报道本科一年共发了8篇论文[1],随后就读于斯坦福,16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了,顶会也是发到手软:

所以这样的大佬亲自写文章,还是值得仔细看看的。

虽然这篇文章目前只有4页,却简明地涵盖了过去的一系列工作,并给出了大佬自己对于未来发展方向的insight

Impossible Triangle

在接触了一些大佬之后,我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚,并且套入到自己的思考框架里,从而清晰地找出解决思路。

在这篇文章中,晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境

即模型尺寸、少样本效果、精调效果三者不可兼得

目前的情况是,大部分模型只具备上述的一个或两个特性:

  • 预训练模型之所以是划时代的进展,是它具备了中等尺寸(一张卡即可精调)和全任务SOTA的精调效果

  • 而最近两年预训练模型都在往大尺寸发展,也就是具备了少样本效果,但他们的少样本效果依旧比不过中等模型的精调

虽然看到这里好像也没说啥,这就是大家都知道的事情,但巧妙的点是只用这么一个画的不是很fancy的三角,就概括了过去三年的进展。

那接下来大佬开始思考,如果要保持现有的两个角,又要往最后一个角努力,都能干啥?

  • 对于减少模型尺寸,一条典型的故事线就是蒸馏。但其中仍存在两个问题:一是学生模型很难达到原始模型的效果,二是原始的大尺寸模型的推理效率太低

  • 对于提升少样本表现,数据增强是一个好办法,比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本,但这类方法依旧受限于现有标注样本的多样性,泛化性能提升有限

  • 对于提升精调表现,最近一个比较火的故事是prompt,但这种方式对prompt的设计非常敏感,同时效果也很难超过目前的有监督SOTA

又是一些看似没说啥的话,但这三点就概括了一大堆的motivation。

最后,大佬给出了他的看法,接下来大模型怎样发展才能突破不可能三角?

他认为问题的解决会分为三个阶段:

  1. 在继续提升已有特性的同时向着另一个方向迈进

  2. 在某一个或几个NLP任务上,会出现同时具备三种特性的模型

  3. 在前两个阶段的基础上,在全任务上突破不可能三角

总结

可以看到,目前大佬的思路就是从个别NLP任务上进行突破,这也给很多NLPer提供了一个方向,毕竟现在的文章越来越卷了,动辄几十个作者一起刷几十个任务,用LeCun的建模就是:

当然,不同大佬的思路也是不同的,比如Jeff Dean一直说的Pathways,也是个很好的点。

不管是往哪个方向走,今天这篇文章都给了我很大的启发,不只是说预训练模型的发展,而是怎样去更清晰地看待问题,如果这个事情让我来讲,我可能会画一个繁杂的脑图,写上一篇上万字的综述,而沉浸到细节里,就注定最后给出的insight也是细枝末节。

化繁为简,站在更抽象的层面,才能找到新坑。

参考资料

[1]

朱晨光:一个从不通宵的AI研究员: https://www.163.com/dy/article/G9VB9H430511DPVD.html


最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

预训练模型的下一步?突破Impossible Triangle相关推荐

  1. PaddleClas预训练模型ResNet50_vd_ssld精度突破84%

    提到"野生动物非法贸易"大家一定不陌生,根据国际刑警组织的研究估算,每年和野生动物相关的非法贸易额高达200亿美元,是仅次于毒品和军火的全球第三大犯罪.打开这个潘多拉盒子,我们会发 ...

  2. 清华唐杰团队:一文看懂NLP预训练模型前世今生

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 搞出了全球最大预训练模型的悟道团队,现在来手把手地教你怎么弄懂预训练这一概念了. 刚刚,清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综 ...

  3. 2021 AI技术盘点:预训练模型5大进展

    [专栏:前沿进展]2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展.其中,预训练模型无疑是2021年的重点发展领域.年初的Switch Transformer开启万亿参 ...

  4. CMU和谷歌联手放出XL号Transformer!提速1800倍 | 代码+预训练模型+超参数

    乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI XL号的Transformer来了! 近日,CMU和谷歌联手发布一篇论文,介绍了一种新的语言建模方法Transformer-XL. 这里的X ...

  5. 周明:预训练模型在多语言、多模态任务的进展

    2020-09-12 15:34:16 作者 | 周明 编辑 | 陈彩娴 8月29日至30日,由中国科学技术协会.中国科学院.南京市人民政府为指导单位,中国人工智能学会.南京市建邺区人民政府.江苏省科 ...

  6. 预训练模型(2)---- Transformer-XLGPT2XLNet

    预训练模型(2) 1. Transformer-XL 句段层级的循环 相对位置编码 Transformer-XL 三大优势 Transformer-XL 计算过程 2. GPT2 语言模型 GPT-2 ...

  7. 智能文档理解:通用文档预训练模型

    预训练模型到底是什么,它是如何被应用在产品里,未来又有哪些机会和挑战? 预训练模型把迁移学习很好地用起来了,让我们感到眼前一亮.这和小孩子读书一样,一开始语文.数学.化学都学,读书.网上游戏等,在脑子 ...

  8. 人大团队研究:面向文本生成,预训练模型进展梳理

    作者 | 刘媛媛 来源 | 数据实战派 文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PL ...

  9. 刘群:华为诺亚方舟NLP预训练模型工作的研究与应用 | AI ProCon 2019

    演讲嘉宾 | 刘群(华为诺亚方舟实验首席科学家) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 预训练语言模型对自然语言处理领域产生了非常大的影响,在近期由CSDN主办的 ...

  10. NLP这两年:15个预训练模型对比分析与剖析

    作者 | JayLou 来源 | 知乎 前言 在之前写过的<NLP的游戏规则从此改写?从word2vec, ELMo到BERT>一文中,介绍了从word2vec到ELMo再到BERT的发展 ...

最新文章

  1. PHP内置函数生成随机数的方法汇总
  2. 关于引进制转换(凌乱)
  3. Spring Boot——RabbitMQ
  4. web安全检查_如何利用现代Web检查器的功能
  5. python输入月份判断季节_用户输入月份,判断这个月是哪个季节。(要求使用列表)_学小易找答案...
  6. 废话少说 分析java抽象类与接口的区别
  7. 大数据如何应用于食品追溯管理
  8. Redis Cluster集群的配置
  9. 第二十九篇、UICollectionView瀑布流
  10. 5. Document open() 方法
  11. qt可以实现创建临时无线热点吗?_数据线断了,身边又没有路由,如何无线高速传输文件?...
  12. fish设置环境变量
  13. 1020-锰硅、硅铁、郑醇、焦煤、焦炭、尿素、纯碱、郑煤、EG、PVC跌停,郑煤期权,看涨期权跌停,看跌期权涨停,做市商停止报价
  14. 433MHz无线通信
  15. 【数据结构】 树与二叉树的基本概念、结构特点及性质
  16. eSpeak TTS 中英文真人发音引擎
  17. 接下来的认证考试 阿里云云计算专业认证考试(ACP级)
  18. 博一就完成了SCI论文发表要求是一种怎样的体验?
  19. Android OTG 连接单反相机,相机无法预览无法拍照片问题修复记录
  20. Nacos单机环境安装

热门文章

  1. Linux下的压缩和解压缩命令——compress/uncompress
  2. Java的多线程机制系列:(四)不得不提的volatile及指令重排序(happen-before)
  3. WPF仿微软事件和属性窗体,效果更炫!
  4. ssh之雇员管理系统(4)-改进的hibernate测试
  5. 公司招聘asp.net 工程师
  6. flash 与javascrip的t交互和注意事项
  7. AS数据库自动备份的DOS语句
  8. BZOJ2276: [Poi2011]Temperature
  9. GIT插件EGIT使用手册
  10. PBXCp Error