文 | 天于刀刀

AI 真的太卷了!不但模型之间互相卷,现在直接开始和人类学生一起卷高考了!

近期,来自 CMU 两位学者提出的重构预训练模型(reStructured Pre-training, RST)在只有 GPT-3 十六分之一参数量的情况下,在2022年高考全国英语卷上豪取134分,碾压 GPT-3 的同时也远远超出了人类学生的英语平均分,正式加冕为人工智能第一实验中学大模型班的第一学霸。

人家的学习成绩不但是今年的表现相对出彩,还能稳定在130分上下,历年最高分还拿到过138.5分,听力和阅读理解都是满分!

从下表中可以看出 RST 在听力、完形填空和阅读部分碾压了 GPT-3,并且在写作部分和 GPT-3 相差无几,总分平均分高出15分!

在这里小编想安慰一下 GPT-3,咱今年考得不理想没关系,记得回家后让 OpenAI 买一套最新版的《五年高考三年模拟》,我们来年再卷!

可有时候气人的是,哪怕你刷再多的题(更多的数据用于训练),也架不住人家 RST 天生比你骨骼清奇啊(参数量少,更轻量级)!

在文章中,作者详细地阐述了她是基于什么思想,如何构筑训练数据,以及怎样训练模型结构的。

让小编惊喜的是,作者不仅仅是介绍了 RST 模型和高考英语测试系统 Qin,同时还提出了自然语言处理技术进化假说等综述性的结论,再搭配上其精美的手绘漫画配图,非常适合作为今年 NLP 前沿技术的科普文章。

接下来,让我们通过文章[1],来探究 RST 如此优秀的原因。

在这篇文章中,作者提出了一些新方法论,新的数据集[2]和代码[3]资源,新的高考英语测试基准[4],和新的表情包[5]。

让我们向作者致敬!

文中用一句话总结了自然语言处理技术的发展。

技术的迭代方向总是朝着系统开发者可以做更少的事去完成一个更好的更通用的系统。

这话说着有些拗口,但是这基本概括了自然语言处理技术的进化脉络。

  1. 在标签数据上的特征工程 feature engineering(监督学习);

  2. 使用特定结构的神经网络进行训练的结构工程 architecture engineering(预训练-微调-无上下文);

  3. 基于上下文的无监督预训练大模型 objective engineering(预训练-微调-有上下文);

  4. 注重零样本或少样本表现的泛用预训练大模型 prompt engineering(预训练-提示-预测)。

基于上面的种种思想,作者提出自然语言处理下一步的发展方向应该为:

  1. 强调数据储存和调用的预训练大模型 data engineering。

作者认为,在当今 NLP 领域中预训练大模型大行其道的时候,我们不能一股脑地堆积更大的模型和更多的数据,而需要考虑获取模型中数据信息的便利性。

简单来说,预训练大模型完成了对数据的储存和积累(data storing),而在下游任务中我们需要调用模型中的数据信息(data accessing)去解决业务。

在上图中可以看到,作者将预训练大模型类比为人脑和传统的数据库,都是数据储存的一个媒介。

而在进行数据检索的时候,人脑依靠的是思考,数据库依靠的是 SQL 语言,而预训练大模型则依靠的是 prompt。

但问题在于,同样是机器储存数据,我们知道使用 SQL 语言查询数据库的结果远比 prompt 来的更准确、更快速和更具有可解释性。

当前 prompt learning 的技巧并不能完全达到“所查即所得”的效果,同时不同下游任务中模型在预训练步骤中储存数据的方式也是不透明。

也就是说,下游任务并不知道使用何种 prompt 可以更好地从大模型中获取想要的结果。

(prompt 工程师上大分)

那么作者是如何解决这个问题的呢?

一言以蔽之,所有的诀窍就在模型的名字中:重构 + 预训练

为了最大化地利用现有的数据,作者将数据看作是由各种信号(signal)组成的,并且需要:

  1. Identify:在信息的海洋中定义和发现这些信号;

  2. Restructure:将各种信号重组为统一的格式让模型进行预测训练;

  3. Pre-train:选择预训练结构,并通过训练的方式储存数据;

  4. Fine-tune:使用结构化数据进一步微调以适应下游任务。

我们很少在文章中见到“信号”这种描述,小编感觉就是一个数据对的意思。

例如(“我喜欢夕小瑶,她是一个优雅的算法女神”;“夕小瑶”)就可看成是一个命名实体识别的信号。

作者在文中调研了许多不同的数据集,并且给出了他们对应所包含的信号样本。(如下图)

历尽千辛万苦获得信号后,下一步就是将其组合成一个统一的固定格式。

作者将信号分为两个主要类别:普通信号任务相关的信号

普通信号包含基础的语言知识,泛用性强,而任务相关的信号则有利于某些特定的下游任务。

对于普通信号来说,通常都是一些完形填空的类型,因此输入和输出可以采用互补的方式。

例如我们现在有一个普通信号:(夕小瑶是一个< X >的< Y >,< X >|< Y >,优雅 | 算法女神)。

那么我们的输入为“夕小瑶是一个< X >的< Y >”, 输出为“< X >优雅< Y >算法女神< Z >”。

对于任务相关的信号来说,我们可以使用选择式生成式的方式进行重组。

例如在情感分类任务中,选择式重组的结果为:“我喜欢夕小瑶。这句话是‘积极的’还是‘消极的’?”

而生成式重组的结果往往是:“我喜欢夕小瑶。请问这句话的情感倾向是什么?”

作者使用特殊标记“ TEXT: ”和“ QUERY: ”来区分普通文本和目标任务。同时对于每一个信号,作者构造了多种 prompts,使模型可以学习到多种提问的方式。

由于篇幅关系,后续的数学公式推导和附录中大段的 prompt 构造就不再一一介绍了。

感兴趣的同学可以自行查看原文,不要被112页的篇幅所吓到,正文部分基本到38页左右就结束了。

小编刀刀在阅读完全文后,感触最深的就是作者大胆地提出了对第五范式的猜想,基于当前流行的 prompt 思想,进一步想到了重构数据集,最终以达到 prompt in prompt out 的类似 SQL 查询的效果。

不论作者的猜想是否被最终印证,我想说当前业界的共识就是数据代表了一切,同时数据也是模型最大的提分点。

文中还曾提到,作者希望该英语测试系统可以帮助老师批改作业,指导学生学习进步,甚至可以在最后实现教育公平的目的。

在这个场景下,对于模型的可解释性其实有着较高的要求。

或许我们可以从 prompt 的不同构筑中,来进一步提高模型的表现。

但是很多情况下,深度学习模型很难做到保证一个稳定的、高水平的和可解释的输出结果。

小编期待能看到,之后作者就该模型的可解释性设计更多的实验(例如不同的 prompt 是否会有不同结果?),或者是真的设计一个仿真实验,来模拟评判人工智能是否真的能够辅助学生和老师的英语学习。

彩蛋小剧场:

(交稿了)
刀刀:写完啦,顺便想探讨下第五范式真的会是 data engineering 么 orz
刀刀:(typing)我觉得在 NLP 里数据不是一直很重要么,之前...
小瑶:第五范式不是降本增效吗(歪头)
刀刀:(删除删除) 
刀刀:夕总说的对啊!

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

[1] reStructured Pre-training, https://arxiv.org/abs/2206.11147

[2] reStructured-Pretraining, http://github.com/ExpressAI/reStructured-Pretraining

[3] rst-all-llb, http://huggingface.co/XLab/rst-all-llb

[4] Explainable Leaderboards (GaoKao), https://explainaboard.inspiredco.ai/benchmark?id=gaokao

[5] XLab emoji, http://expressai.co/peripherals/emoji-zh.html

AI开始卷高考了,英语已被卷到134分??相关推荐

  1. 2021年高考英语卷三成绩查询,2021年全国3卷高考外语卷难不难,今年全国3卷高考外语卷难度系数点评...

    2020年全国3卷高考外语试卷高考命题大纲,与2018年.2019年全国3卷外语卷相比,在考核目标.考试范围与要求等方面基本没有大的变化,增加了一些细节要求和知识点的考察,所以2020年全国3卷高考外 ...

  2. 2017年全国统考计算机英语,2017年全国II卷高考英语真题 2017全国II卷高考英语答案 (全文)...

    2017全国高考英语今日下午正式结束了,随着英语考试的结束也宣告了今年高考的结束.电脑百事网在考试后第一时间及时公布全国各省高考试题.答案解析.请广大考生家长及时关注,同时祝广大考生在2017高考中发 ...

  3. 浙大吴飞「舌战」阿里贾扬清:AI内卷与年薪百万,哪个才是真实?

    转自:机器之心 为了推动 AI 技术的应用创新,促进人工智能领域的学术交流.人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技术创新 ...

  4. 浙大吴飞“舌战”阿里贾扬清:AI内卷与年薪百万,哪个才是真实?

    编辑 | Linda 近日,浙江大学求是特聘教授.人工智能研究所所长吴飞与阿里云计算平台负责人贾扬清展开对话,交流人工智能技术与应用的发展趋势,并对内卷.AI 人才薪酬.读博.出国深造等工业界和学界关 ...

  5. 北京市中 高英语听说计算机考,2021年北京高考首次英语听说机考时间确定,共五种题型...

    从明年开始,北京市高考统考英语科目增加口语考试,连同之前的听力考试一起,实行一年两考.今天,北京教育考试院发布消息,2021年高考英语听说计算机考试首考将于2020年12月12日进行.12月7日起,考 ...

  6. 北京市高等教育英语听力计算机考试,北京市2021年普通高考第一次英语听力机考开考_学历教育网...

    原标题:2021年新高考第一项考试:英语听力第一次机考开考 今日,北京市2021年普通高考第一次英语听力机考开考,这也是2021年北京开始实行"新高考"的第一项考试.第一场次的考试 ...

  7. 成人高考 计算机英语作文,「2017成人高考高起专英语作文」求成人考试英语作文4篇!...

    联系老师 2017成人高考高起专英语作文: 求成人考试英语作文4篇! 1. self studyAbout self-study As adult students in shanghai TV Un ...

  8. 江苏统考计算机英语作文,高考江苏英语作文范文

    4 高考江苏英语作文范文三 My View on Developing the Car Industry 我对发展汽车工业的看法 With the development of modern indu ...

  9. AI测温落地趋势:已成日常刚需 产品形态呈细分化发展

    现如今不管走到哪儿,机场.车站.医院.商场.超市等公共场所都已经将体温检测作为常态化防疫手段.自全球疫情发生以来,不管欧洲.亚洲,还是中东.东南亚等国家都已经意识到,疫情防控的第一道关口便是测温. 而 ...

最新文章

  1. SharePoint2010沙盒解决方案基础开发——开发webpart读取绑定列表数据,并以一定的格式显示(加css样式)...
  2. DataTables提示:DataTables warning: table id=queueInfo_table - Requested unknown parameter 'type' for r
  3. hbase的shell客户端中不同符号的含义
  4. H5 C3中的概念(一)
  5. 常见数据库设计(1)——字典数据
  6. 小程序怎么打出横线效果_成都小程序开发:哪些因素会影响小程序的运营效果?...
  7. 中间固定两边自适应 两边固定中间自适应 promise
  8. 编程语言对比 引用数据类型-列表
  9. Boost库编译安装
  10. c语言正则表达式替换,Linux C 支持正则表达式的字符串替换函数...
  11. 快播(Qvod)也开始耍流氓了
  12. UVa 12261 High Score (贪心“向左走,向右走”)
  13. 【神科普】诺基亚:你以为它死了,其实它已重回世界第二
  14. office2010每次退出时更改会影响共用模板normal
  15. Matlab中滤波操作的相关函数
  16. Android代码修改SIM的PIN码,关于设置SIM卡PIN码及查询PUK码的教程
  17. wiki(维基)系统
  18. 数字分割(拆数字)的两种方法
  19. 实验二《面向对象程序设计》_实验报告
  20. 如何打造一款工业级5G CPE+WiFi6路由器-5G工业网关解密

热门文章

  1. Windows 10 Enterprise LTSB
  2. javacsv读写csv文件
  3. 让微积分穿梭于工作与学习之间(10):在椭圆弧上做匀速运动,我就无能为力了
  4. 区块链零知识证明能否破解《三体》的黑暗森林法?
  5. Robot Framework 环境搭建步骤 RIDE保存时提示没有权限 RIDE使用时候常用问题(在最后)
  6. 【Linux】死锁!!!
  7. 科技强国的使命召唤中,百度AI埋下三根未来“引线”
  8. 偷偷告诉你:21计算机考研一定要考这所985大学!
  9. docker pull 详解
  10. 计算机系统大作业 程序人生