GPT-3

李宏毅老师2020新课深度学习与人类语言处理课程主页：
http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频链接地址：
https://www.bilibili.com/video/BV1RE411g7rQ
图片均截自课程PPT、且已得到李宏毅老师的许可:)

考虑到部分英文术语的不易理解性，因此笔记尽可能在标题后加中文辅助理解，虽然这样看起来会乱一些，但更好读者理解，以及文章内部较少使用英文术语或者即使用英文也会加中文注释，望见谅

深度学习与人类语言处理 P32 系列文章目录

GPT-3
前言
I GPT-3
- 1.1 Introduction 引言
- 1.2 Ambition GPT系列的“野心”
- 1.3 Result 实验结果
- 1.4 Flaw 瑕疵
- 1.5 BUG

前言

在上两篇P30和P31中，我们学习到了Question Answering QA问题的，P30介绍QA中Question 答案和 Source 来源的种种，P31下一篇学习到了更为复杂、各式各样的QA中Question问题的部分，将会从三大经典问题讲起，以及它们可能的解法。

而在本篇P32中，我们将学习来自“暗黑大陆的模型”——GPT-3，将学习到GPT-3的目标、实验结果、瑕疵和有趣的BUG

I GPT-3

1.1 Introduction 引言

OpenAI最新的巨大的语言模型——GPT-3，论文题目如上图，可以看出这篇论文有非常多的作者。其实GPT-3和GPT-2没什么不同，都是语言模型，

但GPT-3神奇的是，它太过巨大，之前最大的模型是Turing NLG（17Billion，17 个十亿个参数），但是GPT-3是Turing NLG的十倍！

自行训练的话仅需1200万美金，在知乎上有关GPT-3的讨论都被打上了炫富和核武器的标签，内存大约占700GB，论文页数多达72页…等等

在此，你只需记住GPT-3就是一个字，“大”！

1.2 Ambition GPT系列的“野心”

GPT系列想要做的是zero-shot learning零样本学习。过去我们在使用BERT的时候，我们会先预训练好BERT，接下来针对每一个任务不同的少量数据进行模型的微调，这样得到每一个任务的模型。所以说在使用BERT解决具体任务的时候我们还是需要收集一些相关的有标签数据的，是没办法真正的零样本学习的。

但GPT系列，希望能够省去微调的步骤，经过预训练好的模型能够直接解决各式各样的具体任务。

那到底什么是零样本学习，让我们以英文翻译成法文为例：

Few-shot Learning：少样本学习，给出任务说明 + 一些范例 + 任务测试
One-shot Learning：单样本学习，给出任务说明 + 一个范例 + 任务测试
Zero-shot Learning：零样本学习，给出任务说明 + 无范例 + 任务测试

也就是说，我们给模型一个指示“翻译英文成法文”，在没有范例的情况下，接下来给模型输入英文，希望模型输出对应的法文，这显然是很大的挑战。且在GPT-3中少样本学习的样本是直接当作GPT-3的输入使用，而不是有监督的微调模型，论文中也是把这种学习的方式叫做In-context Learning。

那这个硕大无比的GPT-3表现如何呢？让我们来看看论文中的结果。

1.3 Result 实验结果

上图，也就是在实验中显示了42个任务的平均值（42这个数字的含义就是生命的意义），纵轴是正确率、横轴是模型的大小。可以看出，随着模型越来越大，三种不同方式的学习效果基本都是在持续变好。

接下来，让我们看几个GPT-3的神机。

首先，它可以做Closed Book QA。在QA任务中可以看文章、知识库这样的叫Open Book QA，而Closed Book QA是没有相对应的文章或知识库，直接询问问题，如“喜马拉雅山有多高？”。在上图我们可以看出，神奇的是少样本学习居然超过了在TriviaQA数据集上经过微调训练效果最好的模型。

以及，在SuperGLUE上也有这样神奇的实验效果。

当然，作为语言模型的GPT-3也是可以做生成的，如给出新闻标题，GPT-3可以写出来对应新闻。如上图，GPT-3也学会了造句。GPT-3也是会做数学问题，两位数的加减法正确率几乎100%，但四位数以上正确率仅在20%左右。

1.4 Flaw 瑕疵

上述讲了那么多GPT-3的神机，但其实GPT-3也是有一些瑕疵的。比如在NLI自然语言推理任务，NLI的任务就是给机器两个句子，判断这两个句子是矛盾、互相包含还是中立的关系。即使是最大的模型，在零样本和单样本学习上的正确率都很低，只有少样本学习给50个示例时，最大的模型正确率才到40%。

其实这也是比较好解释的，因为GPT-3的训练方式就是按照语言模型，根据已有的部分预测接下来的部分。在人类的正常语料中，两个矛盾的句子几乎不会接在一起，也因此GPT-3可能很少接触到NLI任务的有关数据。

1.5 BUG

有趣的是，在GPT-3中有这样一个BUG。因为训练资料大部分来自网络数据，最开始他们是希望这些网络数据并不要包含之后要测试的具体任务的数据，但是因为某种原因没有完全筛除之后的具体任务的有关数据。在此，发现这个BUG时已训练了一定时间，GPT-3太大了，没有办法重新训练了，只能够就这样了。

那怎么办呢？虽然没办法重新训练了，但是他们就改了一下测试数据，所以他们将测试数据分成 clean data 和 dirty data。所谓 clean data 就是GPT-3在训练时真的没有看过的， dirty data就是GPT-3在训练的时候其实时看到的。从上图可以看出，多数任务其实无论是clean 还是 dirty数据测试效果都一样，在上图水平线上面的是指用clean data效果更好，下面指用dirty data效果更好。

至此，来自暗黑大陆的GPT-3已结束，我们学习到了GPT-3的目标、实验结果、瑕疵和有趣的BUG

课程向：深度学习与人类语言处理 ——李宏毅，2020 (P32)相关推荐

课程向：深度学习与人类语言处理 ——李宏毅，2020 (P9)
Language Modeling For Speech Recognition 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tl ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P11)
Voice Conversion 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htm ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P10)
Voice Conversion 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htm ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P12)
Speech Separation 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.ht ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P17) 任务精简
Overview of NLP Tasks 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP2 ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P17) -2
Overview of NLP Tasks 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP2 ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P19)
BERT and its family:Introduction and Fine-tune 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu. ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P28-2)
Audio BERT 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html 视频链接 ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P22)
Conditional Generation by RNN & Attention 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu.t ...
课程向：深度学习与人类语言处理 ——李宏毅，2020 (P20)
BERT and its family:Introduction and Fine-tune 李宏毅老师2020新课深度学习与人类语言处理课程主页: http://speech.ee.ntu.edu. ...

课程向：深度学习与人类语言处理 ——李宏毅，2020 (P32)