GPT系列学习笔记:GPT、GPT2、GPT3
目录
- 总结
- GPT: Improving Language Understanding by Generative Pre-Training
- GPT-2: Language Models are Unsupervised Multitask Learners
- GPT-3: Language Models are Few-Shot Learners
内容整理自:https://www.bilibili.com/video/BV1AF411b7xQ?spm_id_from=333.999.0.0
大家有时间还是去看李沐大佬讲,才一个半小时,收获很多~~~
总结
GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于:
模型一个比一个大,数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot
GPT: Improving Language Understanding by Generative Pre-Training
论文:链接(使用通用的预训练模型来提升语言理解能力)
目前NLU(Natural Language Understanding)方向的局限性:有标签的数据相对较少,限制了模型性能的提升。
基本思想:
先在没有标签的数据集上训练预训练语言模型,再在子任务上微调(自监督学习)。与之前的任务(word2vec也是在没有标签的数据集上预训练语言模型)不同,微调时只需要改变模型输入的形式,而不需要对模型结构进行改变。模型结构选用的是12层的Transformer的decoder。
无监督的预训练过程
给定一个序列 U = { u i , … , u n } U=\{u_i,…,u_n\} U={ui,…,un},使用一个标准的语言模型目标来最大化下面的似然函数:
L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ ) L_1(U)=\sum_ilogP(u_i|u_{i-k}, …, u_{i-1};\theta) L1(U)=∑ilogP(ui∣ui−k,…,ui−1;θ)
其中, k k k为上下文窗口大小, θ \theta θ代表模型参数。即给定一个模型(GPT中指的是Transformer decoder),给定前 k k k个词,预测当前词。
GPT系列学习笔记:GPT、GPT2、GPT3相关推荐
- LLMs:OpenAI 官方文档发布提高 GPT 使用效果指南—GPT最佳实践(GPT best practices)翻译与解读
LLMs:OpenAI 官方文档发布提高 GPT 使用效果指南-GPT最佳实践(GPT best practices)翻译与解读 导读:为了获得优质输出,需要遵循几点基本原则: >> 写清 ...
- 状态机系列学习笔记01
状态机系列学习笔记01 有限状态机(FSM)概念 定义 总的来说,有限状态机系统,是指在不同阶段会呈现出不同的运行状态的系统,这些状态是有限的.不重叠的.这样的系统在某一时刻一定会处于其所有状态中的一 ...
- lasso模型交替方向matlab_TCGA系列学习笔记(7)建模及模型评价
微信公众号:生信小知识 关注可了解更多的教程及单细胞知识.问题或建议,请公众号留言; TCGA系列学习笔记(7)建模及模型评价 内容目录 前言1. 背景知识1.1 Cox前提假设的验证1.2 lass ...
- 【冬察冬见】FFmpeg系列学习笔记
[冬察冬见]FFmpeg系列学习笔记 综述 FFmpeg是领先的多媒体框架, 能够解码. 编码. 转码. 混流. 解密. 流媒体. 过滤和播放人类和机器创造的几乎任何东西. FFmpeg的名称来自MP ...
- 西门子博途系列学习笔记SCL(二)——modbus Rtu
西门子博途v16系列学习笔记SCL(二)--modbus Rtu 他说他曾经到过山羊之巅 意大利的微风那般甘甜 价值观的塌陷 墨镜摘下露出他绝世容颜 左东答莱 右西科润 受苦受难美利坚 ------ ...
- Spring IOC系列学习笔记五:context:component-scan 节点解析
原文地址程序员囧辉大佬 相关文章 Spring IOC系列学习笔记一:前置刷新 Spring IOC系列学习笔记二:obtainFreshBeanFactory方法 Spring IOC系列学习笔记三 ...
- 西门子博途系列学习笔记SCL(三)______自由口通讯(RS485轮询程序)
西门子博途V16系列学习笔记SCL(三)___自由口通讯轮询程序(RS485) 西门子博途系列学习笔记SCL(三)______自由口通讯(RS485轮询程序) 文章目录 西门子博途V16系列学习笔记S ...
- HTML+CSS系列学习笔记.md01
HTML+CSS系列学习笔记 拨云见日 1.什么是HTML.CSS? 答:html css分别是指:1.超文本标记语言,html是一种标记语言,它包括一系列标签:2.层叠样式表,css是一种用来表现H ...
- 李宏毅-ELMO、BERT、GPT视频笔记
本文根据李宏毅老师2019最新的机器学习视频整理. 视频地址:https://www.bilibili.com/video/av46561029/?p=61 ppt下载地址:http://speech ...
最新文章
- AFN 切换BaseUrl
- Boost.Flyweight 序列化示例
- Java学习的快速入门:10行代码学JQuery
- 【渝粤题库】陕西师范大学210015幼儿园社会教育作业(高起专)
- js删除mysql记录_(DELETEUPDATE)修改、删除数据记录_MySQL
- 批处理 java环境_java环境配置简单批处理方法一键OK
- oracle 误删表空间文件启动不了数据库的解决办法
- jQuery琐碎笔记
- Redis 学习(二)
- 开发中一些常用的css小技巧
- (原创)攻击方式学习之(3) - 缓冲区溢出(Buffer Overflow)
- ThinkPad笔记本安装win10+Ubuntu17.10双系统
- les有学计算机的吗,拷问LES大涡模拟
- 解决“gettools.exe 已停止工作”问题
- CS188-Project 4
- 2020.11.14--AE--图层八种形式、图层面板图标、查看器面板
- 如何用阿里云服务器建立个人网站
- arcengine cliasic code(转)基于ArcGIS Engine + C#实现用户自定义动态电力符号
- 替代SSD?Crossbar进军中国存储市场
- 计算机显示没有可以的ip地址,w7电脑提示没有有效ip地址怎么处理
热门文章
- LLMs:OpenAI 官方文档发布提高 GPT 使用效果指南—GPT最佳实践(GPT best practices)翻译与解读