总结

GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于：
模型一个比一个大，数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot

GPT: Improving Language Understanding by Generative Pre-Training

论文：链接（使用通用的预训练模型来提升语言理解能力）

目前NLU（Natural Language Understanding）方向的局限性：有标签的数据相对较少，限制了模型性能的提升。

基本思想：

先在没有标签的数据集上训练预训练语言模型，再在子任务上微调（自监督学习）。与之前的任务（word2vec也是在没有标签的数据集上预训练语言模型）不同，微调时只需要改变模型输入的形式，而不需要对模型结构进行改变。模型结构选用的是12层的Transformer的decoder。
无监督的预训练过程

给定一个序列 U = { u i , … , u n } U=\{u_i,…,u_n\} U={ui,…,un}，使用一个标准的语言模型目标来最大化下面的似然函数：

L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ ) L_1(U)=\sum_ilogP(u_i|u_{i-k}, …, u_{i-1};\theta) L1(U)=∑ilogP(ui∣ui−k,…,ui−1;θ)

其中， k k k为上下文窗口大小， θ \theta θ代表模型参数。即给定一个模型（GPT中指的是Transformer decoder），给定前 k k k个词，预测当前词。
GPT系列学习笔记：GPT、GPT2、GPT3相关推荐
1. LLMs：OpenAI 官方文档发布提高 GPT 使用效果指南—GPT最佳实践(GPT best practices)翻译与解读
  LLMs:OpenAI 官方文档发布提高 GPT 使用效果指南-GPT最佳实践(GPT best practices)翻译与解读导读:为了获得优质输出,需要遵循几点基本原则: >> 写清 ...
2. 状态机系列学习笔记01
  状态机系列学习笔记01 有限状态机(FSM)概念定义总的来说,有限状态机系统,是指在不同阶段会呈现出不同的运行状态的系统,这些状态是有限的.不重叠的.这样的系统在某一时刻一定会处于其所有状态中的一 ...
3. lasso模型交替方向matlab_TCGA系列学习笔记（7）建模及模型评价
  微信公众号:生信小知识关注可了解更多的教程及单细胞知识.问题或建议,请公众号留言; TCGA系列学习笔记(7)建模及模型评价内容目录前言1. 背景知识1.1 Cox前提假设的验证1.2 lass ...
4. 【冬察冬见】FFmpeg系列学习笔记
  [冬察冬见]FFmpeg系列学习笔记综述 FFmpeg是领先的多媒体框架, 能够解码. 编码. 转码. 混流. 解密. 流媒体. 过滤和播放人类和机器创造的几乎任何东西. FFmpeg的名称来自MP ...
5. 西门子博途系列学习笔记SCL(二）——modbus Rtu
  西门子博途v16系列学习笔记SCL(二)--modbus Rtu 他说他曾经到过山羊之巅意大利的微风那般甘甜价值观的塌陷墨镜摘下露出他绝世容颜左东答莱右西科润受苦受难美利坚 ------ ...
6. Spring IOC系列学习笔记五：context:component-scan 节点解析
  原文地址程序员囧辉大佬相关文章 Spring IOC系列学习笔记一:前置刷新 Spring IOC系列学习笔记二:obtainFreshBeanFactory方法 Spring IOC系列学习笔记三 ...
7. 西门子博途系列学习笔记SCL(三)______自由口通讯（RS485轮询程序）
  西门子博途V16系列学习笔记SCL(三)___自由口通讯轮询程序(RS485) 西门子博途系列学习笔记SCL(三)______自由口通讯(RS485轮询程序) 文章目录西门子博途V16系列学习笔记S ...
8. HTML+CSS系列学习笔记.md01
  HTML+CSS系列学习笔记拨云见日 1.什么是HTML.CSS? 答:html css分别是指:1.超文本标记语言,html是一种标记语言,它包括一系列标签:2.层叠样式表,css是一种用来表现H ...
9. 李宏毅-ELMO、BERT、GPT视频笔记
  本文根据李宏毅老师2019最新的机器学习视频整理. 视频地址:https://www.bilibili.com/video/av46561029/?p=61 ppt下载地址:http://speech ...
最新文章
热门文章

GPT系列学习笔记：GPT、GPT2、GPT3

目录

总结

GPT: Improving Language Understanding by Generative Pre-Training

GPT系列学习笔记：GPT、GPT2、GPT3相关推荐

最新文章

热门文章