2020-2021年NLP有什么核心技术的更迭吗?或者有什么推动领域发展的paper吗?
点击下面卡片,关注我呀,每天给你送来AI技术干货!
知乎:TniL
链接:
https://www.zhihu.com/question/455384157/answer/1852594882
编辑:深度学习自然语言处理公众号
已获作者授权
抛砖引玉,欢迎指正。讲一个预训练模型使用上的范式更迭:finetune 到 prompt-based tuning/task-reformulation。
从BERT开始,预训练模型的使用范式长期是pretrain->finetune的范式,即先在大量无标注语料上预训练一个模型,然后将模型(可选地,增加一定模块后)放到特定下游任务上的标注数据finetune。后来实验还表明在下游任务的数据上继续预训练,可以进一步压榨PTM的性能,所以有pretrain-> further pretrain -> finetune的范式[1][2]。这类方法思路就是通过调整PTM参数,来适应任务/数据特性,不过背后的机理还有待debate。
2020年的GPT3[3]放出的时候大家对它的反应无一例外都是都是惊奇于1700亿的参数量。不过这篇文章引出了一个很有意思的现象,正如它的标题:Language models are few-shot learners,在这样一个大规模PTM上,只要给出任务描述(和可选的少量样例)作为prompt,PTM无需更新参数也可以在下游任务达到不错的性能。
GPT3与传统finetune范式的对比
GPT3的few-shot设定虽然结果远没有达到SOTA,但是结果是非常吸引人的,因此引出了很多工作,大体思路是用自动构建的prompt代替人工设计的prompt,这类基于prompt的方法有一点比较大的优势:由于固定了PTM的部分,可以有多个任务共享同一个backbone,而任务特定的部分只有输入端prompt的部分,一般不会包含太多参数(类似adapters[4]的概念),这样就可以构造一个天然的多任务网络。
这里罗列几篇这类方法的工作:
AutoPrompt[5]提出了一种离散的prompt搜索方法,其中prompt中有一系列词表中的触发词,这些词被初始化为[MASK],然后通过基于梯度的top-k搜索迭代式地更新
AutoPrompt中选取候选更新词的方法
Prefix-tuning[6]在生成类任务上提出,将prompt作为一种任务特定、连续、可学习的prefix加到embedding和中间层激活的开头(这里还将prefix重参数化,否则结果不好),固定PTM部分参数不变。类似地,WARP[7] 令输入的prompt部分、以及label candidates可学习,这个方法只加入几千个参数即可在实验中接近finetune的结果。
P-tuning[8]使用LSTM输出的的(连续空间中的)伪token(加上一些任务相关的anchor token),从而使用GPT(生成)模型在理解任务上取得了超过BERT的结果(不过这篇工作的PTM参数也是在tuninng过程中更新的,所以没有参数上的优势,不过证明了适当的建模可以让GPT在理解任务上取得很好的效果)。
当然这一系列工作不是孤立出现的,比较相关的还有LAMA[9]、PET[10],都属于task reformulation,个人感觉这类将各种PTM tuning中的传统建模方法替代为基于模版填空/Prompting的方法是一种比较明显的趋势。
[1] How to Fine-Tune BERT for Text Classification?
[2] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
[3] Language models are few-shot learners
[4] Parameter-Efficient Transfer Learning for NLP
[5] AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts
[6] Prefix-Tuning: Optimizing Continuous Prompts for Generation
[7] WARP: Word-level Adversarial ReProgramming
[8] GPT Understands, Too
[9] Language Models as Knowledge Bases?
[10] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!
2020-2021年NLP有什么核心技术的更迭吗?或者有什么推动领域发展的paper吗?相关推荐
- 2021 年 NLP 重要国际会议时间
来源 | 哈工大讯飞联合实验室 HFL编辑部整理了2021年自然语言处理与计算语言学领域重要国际会议时间供读者参考. EACL 2021 投稿:2020年10月7日 通知:2021年1月11日 会议: ...
- 2020清华大学计算机学院黄翔,清华大学计算机科学与技术系2020—2021学年度学生会主席候选人名单公示...
原标题:清华大学计算机科学与技术系2020-2021学年度学生会主席候选人名单公示 根据<清华大学计算机科学与技术系学生会章程>和<清华大学计算机科学与技术系2020-2021学年度 ...
- 2021高考本溪高中成绩查询,本溪市高级中学2020—2021学年度(上学期) 高一高二期中表奖大会...
原标题:本溪市高级中学2020-2021学年度(上学期) 高一高二期中表奖大会 横空大气排山去,人间砥柱是此峰.在这个烟波致爽的时节,在这个书声琅琅的校园,璀璨的星辰却不仅高悬于九天之巅,也灵动在我们 ...
- 2018/2019/2020/2021/2022/2023年度计划阅读书籍(持续更新)
2018/2019/2020/2021/2022/2023年度计划阅读书籍 1. Java加密与解密的艺术(第二版) 作者:梁栋 在读 2. Spring源码深度解析 作者:郝佳 在读 3. 深入理解 ...
- 清华大学计算机学院92届韩松,清华大学计算机科学与技术系2020—2021学年度学生科协主席候选人名单公示...
原标题:清华大学计算机科学与技术系2020-2021学年度学生科协主席候选人名单公示 根据<清华大学计算机科学与技术系学生科学技术协会章程>,清华大学计算机科学与技术系2020-2021学 ...
- 凌汛 php,黄河全线开河 安度2020—2021年度凌汛期
内蒙古包头河段 (马韬 摄) 3月13日9时,黄河内蒙古河段最后封冻河段平稳开通,凌汛洪水安全进入万家寨水库,这标志着黄河安度2020-2021年度凌汛期.本年度黄河凌汛期历时111天,全河封冻总长 ...
- idea 2020 2021 maven不能下载jar包解决办法
idea 2020 2021 maven不能下载jar包解决办法 只需简单步骤就可以解决 打开idea 选择pom文件 右键 maven 选择 open 'settings.xml' 打开 修改mir ...
- USACO 2020~2021 February Contest GOLD 题解(3)
USACO 2020~2021 二月黄金组 题解(3) 3. Count The Cows As is typical, Farmer John's cows have spread themselv ...
- 赤峰市田家炳中学2021高考成绩查询,赤峰市田家炳中学开展2020—2021学年度第一次全体教师培训活动...
赤峰市田家炳中学开展2020-2021学年度第一次全体教师培训活动 天高云淡,金桂飘香,又一个收获的季节悄然来临.为提升教师业务素质,促进专业成长,8月28日,赤峰市田家炳中学开展了新学期第一次全体教 ...
- COCI 2020/2021 Svjetlo(树形DP)
COCI 2020/2021 Svjetlo 题目大意 求最短的树上路径(可以重复经过点或边)长度使得经过每个点的次数满足给定的奇偶性.树的大小为NNN. N≤500000N\le 500000N≤5 ...
最新文章
- 用ASP.NET如何读取NT用户名
- Boost之正则表达式_[转]
- 查询存在表1但不存在表2的所有数据
- AI技术在游戏开发中的五种有效尝试
- c语言char转cstring,CString、TCHAR*、char*转换 | 时刻需
- linux wireshark 安装教程,Linux下安装和运行Wireshark
- 5G 消息绝地求生:盘活短信 VS 击垮微信?
- 大数据分析的方法有哪些
- 函数的对象,函数的嵌套
- jar编译成exe可执行文件【图文教程】
- DoIP协议设计思路浅析
- SQL案例学习-员工考勤记录
- 北京大学计算机学院课程表,北京大学课程表.PDF
- Linux version 4.19.90-2003.4.0.0036.oe1.aarch64安装carbonData
- (Linux)误删文件恢复命令及方法
- JavaScript 数组和函数
- 程序人生 - 车辆年检与费用你知道多少?
- 最好的60个国外壁纸网站
- 萌娃投票程序php+mysql,PHP+MySql+jQuery实现的顶和踩投票功能
- 手机号登录和微信登录