文献阅读:Improving Language Understanding by Generative Pre-Training
- 文献阅读:Improving Language Understanding by Generative Pre-Training
- 1. 文章简介
- 2. 模型介绍
- 3. 实验考察
- 1. 训练数据
- 2. 实验结果
- 3. 消解实验
- 4. 总结 & 思考
- 文献链接:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
1. 文章简介
这篇文章是OpenAI在18年发表的一篇古早文章了,在这篇文章里面,OpenAI第一次提出了GPT模型。
因此,这篇文章放到如今,其实已经完全没有新东西了,里面的东西基本也早就被用烂了,除了OpenAI自己在此基础上引申出的GPT2,GPT3,InstructGPT以及传闻中即将放出的GPT4之外,Google也放出过大规模的LM像是PaLM之类的。到如今,做NLP相关工作的,不知道这篇文章的大概反而是少数了吧,就算没完整地读过,估摸着也知道这文章具体是做了啥的。
但是现在既然工作中涉及到了GPT相关的内容,就打算趁此机会回来把整个GPT系列的模型完整的整理一下。
2. 模型介绍
模型方面,其实就是一个Transformer Decoder模型,不过说Decoder也有点不太对,毕竟相较于原版的Transformer Decoder,这里没有cross attention layer,算是一个单向的transformer encoder吧,具体结构以及数据构造方式可以参考下图:
这一版本的GPT模型走的还是相对较为传统的预训练 + finetune的范式,或者说,在当时,印象中这是最早的一批开始走自监督模型预训练的工作之一了。
3. 实验考察
1. 训练数据
首先,我们来看一下模型训练所使用的数据集。
在预训练的部分,模型使用BooksCorpus数据,而在finetune阶段,文中使用了如下数据集进行了考察:
2. 实验结果
下面,我们来看一下GPT模型在上述各类任务当中的效果:
- NLI任务
- QA任务
- Sentence Similarity
- 分类任务
得到结果如下:
可以看到:
- GPT在几乎全部的任务当中都获得了SOTA的结果。
3. 消解实验
除了上述基础实验之外,文中还做了一些进阶考察,具体包括:
- 考察了层数对模型效果的影响;
- 比较了Transformer与LSTM的效果;
- 考察了预训练模型在zero-shot下的效果;
具体如下两图所示:
可以看到:
- 随着层数的增加,模型效果确实是持续提升的;
- Transformer模型(Fig2中右图实线)的效果是显著由于LSTM模型(Fig2中右图虚线)的;
- GPT预训练模型如果不经过finetune事实上也是可以呈现出不错的结果的。
4. 总结 & 思考
综上,这篇文章提出了GPT模型,主要就是提出了自回归模型的预训练模型范式,并且发现:
- 基于Transformer的预训练LM的效果是优于LSTM的,且效果可以随着层数和参数量的增大而持续提升;
- 预训练后得到的LLM即使不经过finetune,其效果也是可以的。
基于这两点,后续OpenAI发布的GPT2,GPT3乃至传闻中即将发布的GPT4,基本上都是在上述基础上不断地优化,因此虽然这篇古早到现在已经没啥值得一提的新东西了,但是意义上来说真心是开创性的牛逼工作了……
文献阅读:Improving Language Understanding by Generative Pre-Training相关推荐
- 阅读文献:“Improving Language Understanding by Generative Pre-Training”(GPT模型)
阅读文献:"Improving Language Understanding by Generative Pre-Training" Introduction 从原始文本中有效学习 ...
- 论文阅读《Improving Language Understanding by Generative Pre-Training》
论文地址:<Improving Language Understanding by Generative Pre-Training> 文章目录 论文介绍 相关工作 框架 预训练阶段 微调阶 ...
- Paper:GPT之《Improving Language Understanding by Generative Pre-Training》翻译与解读
Paper:GPT之<Improving Language Understanding by Generative Pre-Training>翻译与解读 目录 GPT之<Improv ...
- 【GPT】Improving Language Understanding by Generative Pre-Training
Paper Link: Improving Language Understanding by Generative Pre-Training GPT系列文章解读: [GPT2]Language Mo ...
- Improving Language Understanding by Generative Pre-Training
Abstract 由于标注数据的缺乏,直接训练判别式模型效果不是很理想. 本文展示了先在大规模未标注语料上预训练生成式语言模型然后在每个判别式任务上进行fine-tuning可以获得较大的效果提升. ...
- GPT:Improving Language Understanding by Generative Pre-Training(2018-6-12)
模型介绍 自然语言理解包括各种各样的任务,例如文本蕴含,问题回答,语义相似性评估和文档分类. 尽管大型的未标记文本语料库很丰富,但是学习这些特定任务的标记数据却很少,这使得经过严格训练的模型难以充分发 ...
- 《Improving Langugage Understanding by Generative Pre-Tranining》 —— GPT
目录 <Improving Langugage Understanding by Generative Pre-Tranining> 1.GPT历史意义 2.无监督预训练--通过大量未标记 ...
- 【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...
- Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr
Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...
最新文章
- html溢出攻击,溢出(漏洞)攻击的实现及防御
- Java案例——统计字符串中每个字符串出现的次数
- [PHP打野] 对pear-FSM的研究(一)基本了解
- css中padding和magin的区别
- springboot 初始化线程池_springboot项目中线程池的使用
- 看完这个你还不理解右值引用和移动构造 你就可以来咬我(中)
- Microsoft SQL Server Desktop Engine安装过程中遇到的问题(2)
- Python之父:为什么操作符很有用?
- Java 实现 HTML 转 PDF 文件
- 华为OSN7500结构特点及产品定位相关知识
- 【计算几何各种小模板总结贴】[不定期更新]
- 物理机能够ping通虚拟机,但是虚拟机无法ping通物理机
- 23位子网掩码是多少_子网掩码划分
- 2021年IT互联网高薪职位大盘点
- 1g内存编译android,如何让Android手机1G内存就“够用”?
- 作文素材:看完这23种蔬菜描写,恨不得穿过屏幕吃掉它们!
- 第三课——win10常用快捷键的使用
- win10服务器权限修改时间,大师为你解答win10系统时间无法修改没有权限的处理方案...
- 西瓜怎么切才能方便去掉西瓜籽
- 面试官最常问的面试题及答案,每1题都很经典