唐旭 编译整理
量子位 出品 | 公众号 QbitAI

今天,OpenAI在其官方博客上发布了一篇题为《用非监督学习来提升语言理解》的文章,介绍了他们最近的一项研究:Improving Language Understanding by Generative Pre-Training

这项研究提出了一种将Transformer和非监督预学习相结合来处理语言任务的方法,并称,他们通过这种方法获得了“顶尖的”结果。

OpenAI表示,希望这些结果能够推动进一步的研究,将这种方法应用到更大、更多样的数据集中。

量子位将博客文章主要内容整理如下:

我们的系统运行分两个阶段:

首先,我们以一种非监督的方式,在一个非常大的数据规模下训练一个Transformer——使用语言模型作为训练信号;

然后,我们在一个小得多的数据集上对该模型进行调参,以帮助其解决特定的任务。

这种方法延续了我们之前的情绪神经元研究。此处,我们希望能对这种想法做进一步探索:我们是否而能够开发一个模型,在大规模数据下以非监督的方法对其进行训练,然后对其调参,使其能在多种不同任务上获得好的表现?

事实证明这种方法成效显著。只需要最小程度的调参,相同的核心模型就能被应用到差异极大的任务上。

我们的研究引入了半监督序列学习,这种方法展示了如何通过使用有监督调参后的非监督LSTM预训练来提高文本分类表现。它同时也延伸了ULMFiT,即对于一个数据集不可知的LSTM语言模型进行调参,来在一系列文本分类数据集上获得最佳表现的研究。

我们的研究还展示了如何在该方法中使用一个依托于Transformer的模型,使其在除文本分类数据集外更大范围的任务上获得成功,如常识推理、语义相似度和阅读理解。

它与ELMo类似,但具有更强的任务不可知性。

让我们感到尤其兴奋的结果,是这种方法在COPA, RACE和ROCStories三种数据集上的表现。这三种数据集为测试常识推理和阅读理解的表现而设计。

这证明了通过非监督技术来开发复杂语言理解能力的途径大有希望。

为什么是非监督学习?

监督式学习是近年来机器学习所获成功的核心组成部分。然而,它需要大规模的、仔细净化过的、昂贵的数据集才能有效发挥作用。

而正因为有潜力解决这些弊端,非监督学习才如此吸引人。因其避开了人工标注的瓶颈,非监督学习还能出色地配合当今计算力和原始数据可用性提升的趋势。对于非监督学习的研究非常活跃,但实际应用却很少。

有研究正试图通过利用非监督学习来增强那些包含大量无标注数据的系统,从而提升语言能力;通过非监督技术训练的语词表示,能够使用包含兆兆字节的大型数据集,结合监督式学习,来提升在一系列NLP任务上的表现。

直到最近,这些针对NLP的非监督技术使用了简单的模型和训练信号。Skip-Thought Vectors就是对这种方法潜力的一个早期展示。现在,研究者们正在使用一些新技术来进一步提升表现。这些方法包括使用预训练语句表示模型、语境化词向量以及通过自定义结构来融合非监督预训练和有监督调参的方法,比如我们自己的研究。

我们同时注意到,我们不需在某些特定任务上进行训练,就能使用底层语言模型执行这些任务。比如,在从多选题中选出正确答案任务上的表现,随着底层语言模型的改进而持续提升。

虽然,这种方法的表现同监督式学习相比仍然相差很远,其在一系列领域任务上的鲁棒性依旧令人鼓舞。使用随机生成的、不包含任何任务和常识信息的网络获得的表现并没有比随机使用这些启发式的方法更好。

我们还可以用存在于该模型中的语言功能性来执行情感分析。针对由正面和负面影评组成的Stanford Sentiment Treebank数据集,我们可以利用该语言模型,通过在语句后输入“很”,观察模型“正面”或“负面”的预测结果来判断一条影评的情感倾向。在完全没有针对任务对模型进行任何调整的情况下,这种方法能达到80%的准确性,与经典基准线持平。

我们的研究同样是对Transformer结构鲁棒性和功效的确认。

缺陷

这一项目有几个突出的问题值得注意:

计算需求:许多之前针对NLP任务的方法,都是从头开始在一块单独的GPU上对相对较小的模型进行训练。而我们的方法需要高成本的预训练步骤——在8快GPU上训练一个月。所幸该步骤只需进行一次,我们也会放出我们的模型,以便其他人避免这种情况。

这也是个大型模型(相较于之前的研究),需要更多的计算力和内存——我们使用了一个37层的Transformer结构,训练的序列长度打到了512个token。绝大部分实验都是在4块和8块GPU的系统上进行。该模型在新任务上的调参完成得非常快,在一定程度上缓和了额外的资源需求。

通过文本学习世界的局限性和偏见:网络上可用的书籍和文本并不包含关于世界的完整的、甚至准确的信息。最近有研究证明,特定种类的信息很难只通过文本来学习,另外有研究展示了模型会从数据分布中学习、挖掘出偏见。

依然脆弱的可推广性:尽管我们的方法提升了在多种不同类别任务上的表现,当今的深度学习NLP模型依然展现了令人惊讶的、违反直觉的行为,特别是当它们以系统的、对抗性的或去分布的方式被评估时。

尽管观测到了某些进展,我们的方法并没能避免这些问题。相较于之前的纯神经途径,我们的方法展现了鲁棒性上的提升。在Glockner et al. (2018)中引入的数据集上,我们的模型拿到了83.75%的成绩,与KIM的表现类似,而后者通过WordNet吸收进了外部知识。

未来

提升规模:我们观察到,该语言模型在表现上的提升与下游任务的提升密切相关。我们目前所用的是商品级的硬件(一台8CPU机器)和一个只有几千本书的训练数据集)大约5GB文本)。这说明在更强的计算力和更大的数据量下,这种方法还有巨大的提升空间。

改进调参:我们的方法目前还十分简单。更精细的调试和技术的转移(如ULMFiT中的技术)可能带来实质性的提升。

对于生成式与训练的更好理解:尽管我们在这里讨论了一些我们偏爱的观点,更加有针对性的实验和研究将会帮助区分那些竞争性的解释。比如,我们观察到的优点中,有多少是来自处理更大范围文本能力的提升?又有多少是来自关于世界知识的提升?

传送门

博客原文:https://blog.openai.com/language-unsupervised/

论文:

Improving Language Understanding by Generative Pre-Training
作者:Alec Radford、Karthik Narasimhan、Tim Salimans、Ilya Sutskever
地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Code:https://github.com/openai/finetune-transformer-lm

作者系网易新闻·网易号“各有态度”签约作者

活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

OpenAI新研究:通过非监督学习提升NLP任务表现相关推荐

  1. OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳

    来源:AI科技评论本文约3600字,建议阅读5分钟本文介绍了OpenAI新研究:扩散模型在图像合成的最新技术. 新模型在ImageNet512×512上实现了3.85FID,甚至在每个样本只有25次正 ...

  2. AI 能匹敌程序员了吗?OpenAI 新研究展​示 NLP 大模型的局限性

    作者:Ben Dickson 来源:数据实战派 Codex 在一篇新论文中,OpenAI 的研究人员展示了 Codex 的详细信息,它是一种生成软件源代码的深度学习模型. Codex 可以为 Open ...

  3. OpenAI最新研究:如何通过无监督学习提升「自然语言理解能力」?

    来源:amazonaws.com 摘要:长期以来,使用无监督(预)训练来提高区别性任务的性能表现一直是机器学习研究的一个重要目标.最近,OpenAI通过使用一个具有可扩展性的任务不可知系统,在一系列不 ...

  4. 从想法到实干,2018年13项NLP绝美新研究

    https://www.toutiao.com/a6638865460580319757/ 机器之心 2018-12-25 17:48:38 在即将过去的 2018 年中,自然语言处理有很多令人激动的 ...

  5. 模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度

    模式识别新研究:微软OCR两层优化提升自然场景下的文字识别精度 发表于2015-03-30 23:46| 6209次阅读| 来源CSDN| 8 条评论| 作者霍强 模式识别微软亚洲研究院微软OCR文字 ...

  6. 为什么ChatGPT用强化学习而非监督学习?

    为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见.在上周发布的<John Schulman:通往TruthGPT之路>一文中,OpenAI联合创始人.ChatG ...

  7. 提升 NLP 实战技能的一点建议

    作为最典型的 AI 领域之一,NLP  (自然语言处理,Natural Language Processing) 被誉为"人工智能皇冠上的明珠",这些年也是越来越热门,基本上是各大 ...

  8. 一周AI要闻回顾 | FB新研究颠覆CNN,加州新政允许无人卡车路测

    李根 发自 纽凹非寺  量子位 报道 | 公众号 QbitAI 2019年第16周,全球AI领域有诸多新进展. 量子位筛选整理出过去一周Top 10,从技术新突破.政策新风向和产业新动态3大方面,为你 ...

  9. 字节跳动CVPR 2023论文精选来啦(内含一批图像生成新研究)

    计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦. 今年的 CVPR 将于六月在加拿大温哥华举办,和往年一样,字节跳动技术团队的同学们收获了不少中选论文,覆盖文本生成图像.语义分割.目标检测.自 ...

最新文章

  1. 基于 Docker 的现代软件供应链
  2. 在ListBox中添加ToggleButton(有IsChecked属性)
  3. 【图像处理】——图像的二值化操作及阈值化操作(固定阈值法(全局阈值法——大津法OTSU和三角法TRIANGLE)和自适应阈值法(局部阈值法——均值和高斯法))
  4. 机器学习_贝叶斯算法
  5. php课后答案 唐四薪_PHP课后小结 12.20
  6. ac8265网卡linux驱动,英特尔8265无线网卡驱动
  7. 《3D游戏与计算机图形学中的数学方法》读书笔记--四元数
  8. 传智黑马python18期_传智博客黑马Python就业14期资料
  9. STM32:I2S驱动WM8978
  10. c fread 快读 详解_热量计算公式及例题详解
  11. 计算机数学与高中数学衔接,高中数学的断层与衔接研究论文
  12. [转载]Python中包装(wrapping)与代理(delegation)
  13. JeecgBoot 2.4.6 版本发布,基于代码生成器的企业级低代码平台
  14. Go开发 之 基础语法(变量的声明、初始化、作用域,匿名变量,多变量赋值,变量逃逸分析)
  15. arcgis更改图层坐标系_ArcGIS API for JavaScript 4.16 局部场景添加自定义坐标系的场景图层(已修改)...
  16. 基于springboot+vue个性化商城商品推荐系统 前后端分离 协同过滤 全套视频教程
  17. 软件理论基础学习笔记——命题逻辑系统
  18. Mac python2.7创作mid音乐文件
  19. 新手入门吉他推荐,第一把吉他从这十款选绝不踩雷!初学者吉他选购指南【新手必看】
  20. ROS wiki教程翻译

热门文章

  1. 第 0 章 阳哥MySQL高级
  2. python mock支付_python mock知识03
  3. python两大特性与四大语法_Day 1:Python 两大特性和四大基本语法
  4. js 定时器_Node.js实战6:定时器,使用timer延迟执行
  5. linux centos7.9图形界面版本下载_适合在任何地方使用的 Linux:15 个小型 Linux 发行版...
  6. oracle 参数脚本,oracle 查看隐含参数脚本
  7. runtime_mysql_users_proxysql的配置系统
  8. 在Vue中为什么需要组合API
  9. 使用Context和Hooks来管理状态
  10. c语言考试常考大题,C语言题库经典题 考试常考题.doc