文章目录

GPT
- Introduction
- Framework
- - Unsupervised pre-training
  - Supervised fine-tuning
  - Task-specific input transformations
- Experiment
Language Models are Unsupervised Multitask Learners(GPT-2)
- Abs
- Introduction
- Approach
- - Dataset & Model
- Results
Language Models are Few-shot Leaners(GPT-3)
- Abstract

视频资源参考： mli/paper-reading: 深度学习经典、新论文逐段精读 (github.com)

GPT

Introduction

用无监督文本时的一些困难
- 不知道用什么样的目标优化函数（损失函数），没有普适性的目标函数
- 怎样把学到的文本的表示传到下游的子任务中。NLP中子任务差别比较大，没有统一的表示使得表示能够用于所有的子任务上面
本文使用 semi-supervised 方法
使用的架构是 Transformer
- 作者认为 Transformer在迁移学习时比RNN等更好，能够学习到更健壮的特征。是因为其有更结构化的记忆，能更好地处理长文本信息，从而能更好地抽取句子层面和段落层面的语义信息。
- 在做迁移的时候，用的是任务相关的表示

Framework

Unsupervised pre-training

使用标准的语言建模（用前面的词预测下一个词）目标来最大化下面的似然：

$k$ 是窗口大小
使用的多层的 Transformer decoder。预测第 $i$ 个词的时候，不会看到后面的词

$U=(u−k,⋯,u−1)U=(u_{-k},\cdots,u_{-1})$ 是 token 的上下文向量， $n$ 是层数， $W_e$ 是 token 的 embedding 矩阵， $W_p$ 是位置 embedding 矩阵

与BERT的区别：BERT 用的不是标准的语言模型，在预测一个被 mask 的词时，既能看到前面的，也能看到后面的，所以使用 Transformer encoder。预测未来比完形填空更难，GPT 的目标函数更难。（更难，但是天花板更高）

Supervised fine-tuning

在数据集中，每个序列都有一个 label $y$ ，我们给出序列，来预测 label

输入被放到预训练的模型中，来获得最后一个 transformer block的输出 $h_l^m$ ，然后被送到一个额外的线性输出层（带有参数 $W_y$ ）来预测 $y$

所以就是最大化下面的目标：

$C$ 是数据集

我们发现，将语言建模作为微调的辅助目标有助于(a)改进监督模型的泛化，(b)加速收敛。因此，最终的目标为：

$λ\lambda$ 是超参

在 fine-tuning 阶段唯一的额外参数是 $W_y$ 和对分隔符 token 的 embedding

Task-specific input transformations

这里说的是如何将模型用于特定的任务（四个典型任务），其中 start,delim,extract 分别是 开始符，分隔符，抽取符，都是一些特殊的标记

Classification（分类）：多分类
Entailment（蕴涵）：三分类问题，前提蕴涵/不蕴涵/不确定假设
Similarity（相似）：二分类问题，判断两段文字是不是相似。因此相似是对称的（a和b相似，b和a也相似），但是我们实验的时候会将文本设定先后顺序。所以我们先将a放前面，再将b放前面构造两个序列
Multiple Choice（多选）：给n个答案，让模型选择认为正确的答案。做法是，如果有n个答案，就构造n个序列。每个序列都得到一个分数，最后用 softmax 得到正确答案的置信度。

这里的 Transformer 就是我们训练好的模型，可以看到，做下游任务时都不需要改变模型结构。

Experiment

是在 BooksCorpus 数据集上训练出来的，里面有7000没有被发表的书

模型大小：用了 12 层 Transformer decoder，每一层的维度是 768。

Bert-base 用了 12 层 Transformer encoder，每一层维度也是 768。Bert-base 就是跟 GPT 来对比。
Bert-large 用了 24层，每一层维度是 1024，大小是 Bert-base 三倍。可以做这么大是因为它用了更大的数据集（BooksCorpus 800M words + English Wikipedia 2500M words）。

Language Models are Unsupervised Multitask Learners(GPT-2)

Abs

用了 WebText，有百万级别的文本，最大的 GPT-2 模型有 1.5B 参数。

本文的主要卖点是 zero-shot。

Introduction

主流任务都是在一个任务上收集一个数据集，然后来训练。这是因为，当前模型的泛化性都不是很好。Bert和GPT提出后，主流是在大的数据集上进行预训练，然后对子任务再 fine-tune。这仍然有两个问题

在子任务上还是需要重新训练模型
需要针对子任务收集数据集

这导致，模型在扩展到新任务时开销是比较大的。

GPT-2 还是做语言模型，但是在扩展到下游任务时，会有 zero-shot 的设定，不需要再重新训练模型

Approach

GPT中，在微调的时候引入了开始符，间隔符等特殊符号，这些是模型在预训练时候没有见到过的（微调的时候会进行学习）。现在 GPT-2 要做的是 zero-shot，模型在做下游任务时不能进行微调，因此不能引入这些特殊符号，否则模型就会很困惑，输入的形式应该更像自然语言，和之前相似。

这就引入了 prompt（McCann et al 2018年提出），让一些自然语言，来充当一些符号的作用。

比如翻译任务，可以写成一个序列：translate to french, english text, french text。这里又有明显的起始，分隔，又是正常的自然语言
阅读理解任务，可以写成：answer the question, document, question, answer 是同样的道理

为什么可以工作（可能）：

模型足够强大，能够理解提示符
在文本里面，这样的话可能也很常见

Dataset & Model

数据：Common Crawl是一个网页抓取项目，抓取网页供大家下载。但是信噪比低，有些网页可能就是垃圾网页。使用了 Reddit（算是一些已经过滤好的网页），最后得到4500万个链接，最终的数据集有800w文本，40GB。

因为数据量很大了，因此可以设计更大的模型。一共设计了 4 个。

Results

和别的做 zero-shot 的方法比

在一些任务上还不错，一些任务上差一些。但是随着模型大小的增加，效果还在变好。

Language Models are Few-shot Leaners(GPT-3)

Abstract

GPT-3的参数量有 175 billion（1750亿），比以往的非稀疏语言模型（权重可以有很多 0，这样是稀疏模型）大十几倍。
GPT-3在做子任务时不需要进行任何梯度更新或微调
在所有的 NLP 任务上都取得了很好的成绩，而且能生成一些新闻的文章（人类很难区分是不是机器写的）

【论文阅读】GPT系列论文详解相关推荐

Learning without Forgetting 论文阅读和对应代码详解
论文地址点这里一. 介绍基于终身学习思想,我们希望新任务可以分享旧任务的参数进行学习,同时不会出现灾难性遗忘.在这种场景下,需要开发一种简单有效的策略来解决各种分类任务.基于这种策略和单纯的想法, ...
Transformer(二)--论文理解：transformer 结构详解
转载请注明出处:https://blog.csdn.net/nocml/article/details/110920221 本系列传送门: Transformer(一)–论文翻译:Attention ...
[论文阅读] (13)英文论文模型设计（Model Design）如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
[论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
[论文阅读] (14)英文论文实验评估（Evaluation）如何撰写及精句摘抄（上）——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
[论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
大型企业网络配置系列课程详解（第一版）发布
大型企业网络配置系列课程详解(第一版)<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office& ...
Windows 网络服务架构系列课程详解（六） ---利用NLB群集实现WEB服务器的可靠性...
Windows 网络服务架构系列课程详解(六) -----利用NLB群集实现WEB服务器的可靠性实验背景: 在大型网络环境中存在这样一种情景,公司内部的FTP服务器出现故障或脱机了,而且不能快速 ...
革命性存储：易安ESATA系列产品详解
革命性存储:易安ESATA系列产品详解<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office& ...
大型企业网络配置系列课程详解（五） --Frame-Relay配置与相关概念的理解
大型企业网络配置系列课程详解(五) --Frame-Relay配置与相关概念的理解实验原理: Frame-Relay(帧中继)简称FR,是国际电信联盟通信标准化组(ITU ...

【论文阅读】GPT系列论文详解

文章目录

GPT

Introduction

Framework

Unsupervised pre-training

Supervised fine-tuning

Task-specific input transformations

Experiment

Language Models are Unsupervised Multitask Learners(GPT-2)

Abs

Introduction

Approach

Dataset & Model

Results

Language Models are Few-shot Leaners(GPT-3)

Abstract

【论文阅读】GPT系列论文详解相关推荐

最新文章

热门文章