文章目录

  • GPT
    • Introduction
    • Framework
      • Unsupervised pre-training
      • Supervised fine-tuning
      • Task-specific input transformations
    • Experiment
  • Language Models are Unsupervised Multitask Learners(GPT-2)
    • Abs
    • Introduction
    • Approach
      • Dataset & Model
    • Results
  • Language Models are Few-shot Leaners(GPT-3)
    • Abstract

视频资源参考: mli/paper-reading: 深度学习经典、新论文逐段精读 (github.com)

GPT

Introduction

  • 用无监督文本时的一些困难

    • 不知道用什么样的目标优化函数(损失函数),没有普适性的目标函数
    • 怎样把学到的文本的表示传到下游的子任务中。NLP中子任务差别比较大,没有统一的表示使得表示能够用于所有的子任务上面
  • 本文使用 semi-supervised 方法
  • 使用的架构是 Transformer
    • 作者认为 Transformer在迁移学习时比RNN等更好,能够学习到更健壮的特征。是因为其有更结构化的记忆,能更好地处理长文本信息,从而能更好地抽取句子层面和段落层面的语义信息。
    • 在做迁移的时候,用的是任务相关的表示

Framework

Unsupervised pre-training

使用标准的语言建模(用前面的词预测下一个词)目标来最大化下面的似然:

  • kkk 是窗口大小
  • 使用的多层的 Transformer decoder。预测第 iii 个词的时候,不会看到后面的词

  • U=(u−k,⋯,u−1)U=(u_{-k},\cdots,u_{-1})U=(uk,,u1) 是 token 的上下文向量,nnn 是层数,WeW_eWe 是 token 的 embedding 矩阵,WpW_pWp 是位置 embedding 矩阵

与BERT的区别:BERT 用的不是标准的语言模型,在预测一个被 mask 的词时,既能看到前面的,也能看到后面的,所以使用 Transformer encoder预测未来比完形填空更难,GPT 的目标函数更难。(更难,但是天花板更高)

Supervised fine-tuning

在数据集中,每个序列都有一个 label yyy,我们给出序列,来预测 label

  • 输入被放到预训练的模型中,来获得最后一个 transformer block的输出 hlmh_l^mhlm,然后被送到一个额外的线性输出层(带有参数 WyW_yWy)来预测 yyy

所以就是最大化下面的目标:

  • CCC 是数据集

我们发现,将语言建模作为微调的辅助目标有助于(a)改进监督模型的泛化,(b)加速收敛。因此,最终的目标为:

  • λ\lambdaλ 是超参

在 fine-tuning 阶段唯一的额外参数是 WyW_yWy 和 对分隔符 token 的 embedding

Task-specific input transformations

这里说的是如何将模型用于特定的任务(四个典型任务),其中 start,delim,extract 分别是 开始符,分隔符,抽取符,都是一些特殊的标记

  • Classification(分类):多分类
  • Entailment(蕴涵):三分类问题,前提 蕴涵/不蕴涵/不确定 假设
  • Similarity(相似):二分类问题,判断两段文字是不是相似。因此相似是对称的(a和b相似,b和a也相似),但是我们实验的时候会将文本设定先后顺序。所以我们先将a放前面,再将b放前面构造两个序列
  • Multiple Choice(多选):给n个答案,让模型选择认为正确的答案。做法是,如果有n个答案,就构造n个序列。每个序列都得到一个分数,最后用 softmax 得到正确答案的置信度。

这里的 Transformer 就是我们训练好的模型,可以看到,做下游任务时都不需要改变模型结构

Experiment

是在 BooksCorpus 数据集上训练出来的,里面有7000没有被发表的书

模型大小:用了 12 层 Transformer decoder,每一层的维度是 768。

  • Bert-base 用了 12 层 Transformer encoder,每一层维度也是 768。Bert-base 就是跟 GPT 来对比。
  • Bert-large 用了 24层,每一层维度是 1024,大小是 Bert-base 三倍。可以做这么大是因为它用了更大的数据集(BooksCorpus 800M words + English Wikipedia 2500M words)。

Language Models are Unsupervised Multitask Learners(GPT-2)

Abs

用了 WebText,有百万级别的文本,最大的 GPT-2 模型有 1.5B 参数。

本文的主要卖点是 zero-shot。

Introduction

主流任务都是在一个任务上收集一个数据集,然后来训练。这是因为,当前模型的泛化性都不是很好。Bert和GPT提出后,主流是在大的数据集上进行预训练,然后对子任务再 fine-tune。这仍然有两个问题

  • 在子任务上还是需要重新训练模型
  • 需要针对子任务收集数据集

这导致,模型在扩展到新任务时开销是比较大的。

GPT-2 还是做语言模型,但是在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型

Approach

GPT中,在微调的时候引入了开始符,间隔符等特殊符号,这些是模型在预训练时候没有见到过的(微调的时候会进行学习)。现在 GPT-2 要做的是 zero-shot,模型在做下游任务时不能进行微调,因此不能引入这些特殊符号,否则模型就会很困惑,输入的形式应该更像自然语言,和之前相似

这就引入了 prompt(McCann et al 2018年提出),让一些自然语言,来充当一些符号的作用。

  • 比如翻译任务,可以写成一个序列:translate to french, english text, french text。这里又有明显的起始,分隔,又是正常的自然语言
  • 阅读理解任务,可以写成:answer the question, document, question, answer 是同样的道理

为什么可以工作(可能):

  • 模型足够强大,能够理解提示符
  • 在文本里面,这样的话可能也很常见

Dataset & Model

数据:Common Crawl是一个网页抓取项目,抓取网页供大家下载。但是信噪比低,有些网页可能就是垃圾网页。使用了 Reddit(算是一些已经过滤好的网页),最后得到4500万个链接,最终的数据集有800w文本,40GB。

因为数据量很大了,因此可以设计更大的模型。一共设计了 4 个。

Results

和别的做 zero-shot 的方法比

在一些任务上还不错,一些任务上差一些。但是随着模型大小的增加,效果还在变好。

Language Models are Few-shot Leaners(GPT-3)

Abstract

  • GPT-3的参数量有 175 billion(1750亿),比以往的非稀疏语言模型(权重可以有很多 0,这样是稀疏模型)大十几倍。

  • GPT-3在做子任务时不需要进行任何梯度更新或微调

  • 在所有的 NLP 任务上都取得了很好的成绩,而且能生成一些新闻的文章(人类很难区分是不是机器写的)

【论文阅读】GPT系列论文详解相关推荐

  1. Learning without Forgetting 论文阅读和对应代码详解

    论文地址点这里 一. 介绍 基于终身学习思想,我们希望新任务可以分享旧任务的参数进行学习,同时不会出现灾难性遗忘.在这种场景下,需要开发一种简单有效的策略来解决各种分类任务.基于这种策略和单纯的想法, ...

  2. Transformer(二)--论文理解:transformer 结构详解

    转载请注明出处:https://blog.csdn.net/nocml/article/details/110920221 本系列传送门: Transformer(一)–论文翻译:Attention ...

  3. [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  4. [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  5. [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  6. [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  7. 大型企业网络配置系列课程详解(第一版)发布

    大型企业网络配置系列课程详解(第一版)<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office& ...

  8. Windows 网络服务架构系列课程详解(六) ---利用NLB群集实现WEB服务器的可靠性...

    Windows 网络服务架构系列课程详解(六) -----利用NLB群集实现WEB服务器的可靠性   实验背景: 在大型网络环境中存在这样一种情景,公司内部的FTP服务器出现故障或脱机了,而且不能快速 ...

  9. 革命性存储:易安ESATA系列产品详解

    革命性存储:易安ESATA系列产品详解<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office& ...

  10. 大型企业网络配置系列课程详解(五) --Frame-Relay配置与相关概念的理解

    大型企业网络配置系列课程详解(五)             --Frame-Relay配置与相关概念的理解   实验原理: Frame-Relay(帧中继)简称FR,是国际电信联盟通信标准化组(ITU ...

最新文章

  1. linux复杂逻辑判断,20.5 shell脚本中的逻辑判断
  2. python详细安装教程linux-python 在linux系统的安装教程
  3. php开发微信支付获取用户地址
  4. python字符串输入_python如何输入字符串
  5. 一般判五年几年能出来_A股十年不涨的“元凶”被揪了出来,指数不该被冤枉...
  6. UnityGI2:Lightmaps
  7. NCH MixPad Masters for Mac - 录音和混音软件
  8. Android EditText 不得不说的InputFilter、TextWatcher、ActionMode.Callback、OnEditorActionListener
  9. 7.nestjs文件上传
  10. 四轴锁付程序,三菱FX5U发脉冲控制主轴,与好伙伴伺服电批进行MODBUS485通讯,实时采集扭矩和圈数,浮高和滑牙检测
  11. Learning the Model Update for Siamese Trackers 论文学习
  12. 360为什么打不开html,360浏览器打不开怎么办
  13. 《周一清晨的领导课》笔记-NO.1
  14. 小学计算机京剧脸谱教案,小学脸谱教案
  15. 试除法解决分解质因数
  16. BERT uncased和cased的区别
  17. 利用拉勾网爬取的数据查看当前的数据分析岗的市场行情
  18. 进程同步生产者-消费者问题C语言,经典进程同步问题 --- 生产者和消费者
  19. pip安装OpenCV教程(简单步骤)基于python
  20. 微信小程序 使用腾讯地图SDK详解及实现步骤

热门文章

  1. LSF集群基本概念介绍
  2. 《Flutter实战》开源电子书
  3. maven:mirrors和repository的关系区别
  4. 运用Python——劳拉下棋_四连环游戏_重力四子棋游戏(代码与游戏判定)
  5. Unity表情聊天(NGUI图文混排)
  6. 程序员版本的八荣八耻,爱了
  7. mysql星期几转为英文_MySQL如何获取一个指定日期所对应的的星期几(英文星期信息-dayname函数)呢?...
  8. yxr:Makefile 简单样本
  9. Prometheus常用函数
  10. 499服务器响应,一边制造,一边讲解http状态码502|504|499|500