预训练模型的下一步?突破Impossible Triangle
每天给你送来NLP技术干货!
来自:李rumor
卷友们好,我是rumor。
昨天刷Arxiv看到一篇比较有意思的文章:
Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130
文章只有两个作者,来自微软Azure的Cognitive Services Research Group,一作是位叫朱晨光的大佬,不查不知道,一查吓一跳,从此我又多了一位男神。
朱晨光大佬本科就读于清华姚班,据报道本科一年共发了8篇论文[1],随后就读于斯坦福,16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了,顶会也是发到手软:
所以这样的大佬亲自写文章,还是值得仔细看看的。
虽然这篇文章目前只有4页,却简明地涵盖了过去的一系列工作,并给出了大佬自己对于未来发展方向的insight。
Impossible Triangle
在接触了一些大佬之后,我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚,并且套入到自己的思考框架里,从而清晰地找出解决思路。
在这篇文章中,晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境:
即模型尺寸、少样本效果、精调效果三者不可兼得。
目前的情况是,大部分模型只具备上述的一个或两个特性:
预训练模型之所以是划时代的进展,是它具备了中等尺寸(一张卡即可精调)和全任务SOTA的精调效果
而最近两年预训练模型都在往大尺寸发展,也就是具备了少样本效果,但他们的少样本效果依旧比不过中等模型的精调
虽然看到这里好像也没说啥,这就是大家都知道的事情,但巧妙的点是只用这么一个画的不是很fancy的三角,就概括了过去三年的进展。
那接下来大佬开始思考,如果要保持现有的两个角,又要往最后一个角努力,都能干啥?
对于减少模型尺寸,一条典型的故事线就是蒸馏。但其中仍存在两个问题:一是学生模型很难达到原始模型的效果,二是原始的大尺寸模型的推理效率太低
对于提升少样本表现,数据增强是一个好办法,比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本,但这类方法依旧受限于现有标注样本的多样性,泛化性能提升有限
对于提升精调表现,最近一个比较火的故事是prompt,但这种方式对prompt的设计非常敏感,同时效果也很难超过目前的有监督SOTA
又是一些看似没说啥的话,但这三点就概括了一大堆的motivation。
最后,大佬给出了他的看法,接下来大模型怎样发展才能突破不可能三角?
他认为问题的解决会分为三个阶段:
在继续提升已有特性的同时向着另一个方向迈进
在某一个或几个NLP任务上,会出现同时具备三种特性的模型
在前两个阶段的基础上,在全任务上突破不可能三角
总结
可以看到,目前大佬的思路就是从个别NLP任务上进行突破,这也给很多NLPer提供了一个方向,毕竟现在的文章越来越卷了,动辄几十个作者一起刷几十个任务,用LeCun的建模就是:
当然,不同大佬的思路也是不同的,比如Jeff Dean一直说的Pathways,也是个很好的点。
不管是往哪个方向走,今天这篇文章都给了我很大的启发,不只是说预训练模型的发展,而是怎样去更清晰地看待问题,如果这个事情让我来讲,我可能会画一个繁杂的脑图,写上一篇上万字的综述,而沉浸到细节里,就注定最后给出的insight也是细枝末节。
化繁为简,站在更抽象的层面,才能找到新坑。
参考资料
[1]
朱晨光:一个从不通宵的AI研究员: https://www.163.com/dy/article/G9VB9H430511DPVD.html
最近文章
EMNLP 2022 和 COLING 2022,投哪个会议比较好?
一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA
阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套! 后台回复【五件套】
下载二:南大模式识别PPT 后台回复【南大模式识别】
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!
预训练模型的下一步?突破Impossible Triangle相关推荐
- PaddleClas预训练模型ResNet50_vd_ssld精度突破84%
提到"野生动物非法贸易"大家一定不陌生,根据国际刑警组织的研究估算,每年和野生动物相关的非法贸易额高达200亿美元,是仅次于毒品和军火的全球第三大犯罪.打开这个潘多拉盒子,我们会发 ...
- 清华唐杰团队:一文看懂NLP预训练模型前世今生
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 搞出了全球最大预训练模型的悟道团队,现在来手把手地教你怎么弄懂预训练这一概念了. 刚刚,清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综 ...
- 2021 AI技术盘点:预训练模型5大进展
[专栏:前沿进展]2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展.其中,预训练模型无疑是2021年的重点发展领域.年初的Switch Transformer开启万亿参 ...
- CMU和谷歌联手放出XL号Transformer!提速1800倍 | 代码+预训练模型+超参数
乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI XL号的Transformer来了! 近日,CMU和谷歌联手发布一篇论文,介绍了一种新的语言建模方法Transformer-XL. 这里的X ...
- 周明:预训练模型在多语言、多模态任务的进展
2020-09-12 15:34:16 作者 | 周明 编辑 | 陈彩娴 8月29日至30日,由中国科学技术协会.中国科学院.南京市人民政府为指导单位,中国人工智能学会.南京市建邺区人民政府.江苏省科 ...
- 预训练模型(2)---- Transformer-XLGPT2XLNet
预训练模型(2) 1. Transformer-XL 句段层级的循环 相对位置编码 Transformer-XL 三大优势 Transformer-XL 计算过程 2. GPT2 语言模型 GPT-2 ...
- 智能文档理解:通用文档预训练模型
预训练模型到底是什么,它是如何被应用在产品里,未来又有哪些机会和挑战? 预训练模型把迁移学习很好地用起来了,让我们感到眼前一亮.这和小孩子读书一样,一开始语文.数学.化学都学,读书.网上游戏等,在脑子 ...
- 人大团队研究:面向文本生成,预训练模型进展梳理
作者 | 刘媛媛 来源 | 数据实战派 文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PL ...
- 刘群:华为诺亚方舟NLP预训练模型工作的研究与应用 | AI ProCon 2019
演讲嘉宾 | 刘群(华为诺亚方舟实验首席科学家) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 预训练语言模型对自然语言处理领域产生了非常大的影响,在近期由CSDN主办的 ...
- NLP这两年:15个预训练模型对比分析与剖析
作者 | JayLou 来源 | 知乎 前言 在之前写过的<NLP的游戏规则从此改写?从word2vec, ELMo到BERT>一文中,介绍了从word2vec到ELMo再到BERT的发展 ...
最新文章
- PHP内置函数生成随机数的方法汇总
- 关于引进制转换(凌乱)
- Spring Boot——RabbitMQ
- web安全检查_如何利用现代Web检查器的功能
- python输入月份判断季节_用户输入月份,判断这个月是哪个季节。(要求使用列表)_学小易找答案...
- 废话少说 分析java抽象类与接口的区别
- 大数据如何应用于食品追溯管理
- Redis Cluster集群的配置
- 第二十九篇、UICollectionView瀑布流
- 5. Document open() 方法
- qt可以实现创建临时无线热点吗?_数据线断了,身边又没有路由,如何无线高速传输文件?...
- fish设置环境变量
- 1020-锰硅、硅铁、郑醇、焦煤、焦炭、尿素、纯碱、郑煤、EG、PVC跌停,郑煤期权,看涨期权跌停,看跌期权涨停,做市商停止报价
- 433MHz无线通信
- 【数据结构】 树与二叉树的基本概念、结构特点及性质
- eSpeak TTS 中英文真人发音引擎
- 接下来的认证考试 阿里云云计算专业认证考试(ACP级)
- 博一就完成了SCI论文发表要求是一种怎样的体验?
- Android OTG 连接单反相机,相机无法预览无法拍照片问题修复记录
- Nacos单机环境安装
热门文章
- Linux下的压缩和解压缩命令——compress/uncompress
- Java的多线程机制系列:(四)不得不提的volatile及指令重排序(happen-before)
- WPF仿微软事件和属性窗体,效果更炫!
- ssh之雇员管理系统(4)-改进的hibernate测试
- 公司招聘asp.net 工程师
- flash 与javascrip的t交互和注意事项
- AS数据库自动备份的DOS语句
- BZOJ2276: [Poi2011]Temperature
- GIT插件EGIT使用手册
- PBXCp Error