GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1AF411b7xQ?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

笔记:李沐老师GPT系列讲解 - 知乎今天分享的是李沐大神讲解GPT系列论文的读书笔记。GPT可以简单理解为是transformer的解码器。 GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili 上图是transformer,Bert,GPT的发表时间以及引用量。 GP…https://zhuanlan.zhihu.com/p/477227937

李沐的论文精读视频讲解的很好,我这里也只是做一些记录,看到GPT3以及衍生的一些应用,还是很震惊的,文本领域的预训练已经做到这种程度了,zero-shot、one-shot、few-shot还是真正能够落地的,在图像领域目前确实没有这样出众的工作。

GPT1用的解码的transformers,和bert用的编码的transformers是不同的,后者是双向的,前者是单向的,整体的架构还是pretraining+fine-tune的思路,bert也是这个思路,都是要在下游任务做fine-tuning的。

上图是如何迁移的任务的设计,这块还是挺有意思的,就是对现有任务进行一个任务的转换,比如第一个分类任务start+文本+extra之后的向量输入到transformers中,再送入线性分类器,比如十类,线性分类器的输出就是十类,然后得到最终的结果。

GPT2相对于GPT相对于bert之后想出来的一个升级版本,核心再zero-shot,不再下游做fine-tuning了,这是一个很好的思路,看GPT就是感觉作者强在不用在下游任务做fine-tuning,看起来更像是强人工智能了。GPT相较于bert和gpt1,参数更大,数据量更高,模型也更大。

GPT3的参数量进一步扩大,目前市面上很多的应用基于GPT3,比如微软的Copilot等等,在下游的子任务中是不需要更新梯度的,使用了few-shot的方法,one-shot就是给了一个正样本,few-shot就是将下游的仅有的一些提示组成一个长的序列进行判定,GPT3有1750亿参数,自己想训练肯定是不可能的,后续看看有没有白嫖的中文大模型拿来试试效果。

使用预训练好的语言模型,在进行微调,微调需要每个任务有一个任务相关的数据集以及和任务相关的微调,需要一个大的数据集并进行标号,当一个样本没有出现在数据分布中的时候,泛化性不见得比小模型好,当然了大模型的训练数据足够多,few-shot感觉有点像做语义检索的味道,在以训练的数据中找到了下游子任务的答案,然后输出,在copilot中的输出就有类似的案例,而且GPT3的网络训练数据更大。

上图中左边提供了one-shot/few-shot/zero-shot的形式,GPT提出了一种in-context learning,给出任务的描述和一些参考案例的情况下,模型能根据当前的任务描述、参数案例明白到当前的语境,即使在下游任务和预训练的数据分布不一致的情况下,模型也能表现的很好,GPT没有利用示例进行fine-tuning,而是让示例成为输入的指导,帮助模型更好的完成任务。

在zero-shot的设置条件下:先给出任务的描述,之后给出一个测试数据对其进行测试,直接让预训练好的模型去进行任务测试。

在one-shot的设置条件下:在预训练和真正翻译的样本之间,插入一个样本做指导。好比说在预训练好的结果和所要执行的任务之间,给一个例子,告诉模型英语翻译为法语,应该这么翻译。

在few-shot的设置条件下:在预训练和真正翻译的样本之间,插入多个样本做指导。好比说在预训练好的结果和所要执行的任务之间,给多个例子,告诉模型应该如何工作。

GPT/GP2/GPT3相关推荐

  1. 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

    参考: 李宏毅2021/2022春机器学习课程 王树森 RNN & Transformer 教程 Transformer 详解 文章目录 0. 背景:序列数据及相关任务 1. 早期序列模型 1 ...

  2. gpt 语言模型_gpt 3只是另一种语言模型,但更大

    gpt 语言模型 GPT-3 has takeover the NLP world in a very short period of time. It has proved the theory t ...

  3. GPT系列模型技术路径演进

    目录 前言 Transformer GPT-1 BERT GPT-2 GPT-3 InstructGPT/ChatGPT GPT-4 类ChatGPT产品 Google Bard(诗人) facebo ...

  4. Transformer 这么强,该从何学起?

    Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作.与卷积神经网络(CNN)相比,视觉 Tr ...

  5. 强的离谱, Transformer 模型与联邦机器学习详解!

    Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作.与卷积神经网络(CNN)相比,视觉 Tr ...

  6. 被嘲笑、误导的AI应该得到认可

    作者 | Eric Elliott 译者 | 弯月 责编 | 王晓曼 出品 | CSDN(ID:CSDNnews) 多年以来,人们一直对人工智能持怀疑态度.以至于"人工智能"这个词 ...

  7. 《人工智能算法工程师(高级)》

    工业和信息化部<人工智能算法工程师(高级)>职业能力培训项目 ​ 工信部课程链接: 工业和信息化部<人工智能算法工程师>职业能力培训项目https://www.tech-ski ...

  8. ChatGPT,背后的核心是什么?

    来源:远川科技评论 作者:钟靖怡 马冰莹 编辑:董指导 2022年12月份的时候,ChatGPT还只是个被人各种撩的聊天工具.但进入2023年后,已经向着效率工具迈进了. 微软宣布正和ChatGPT开 ...

  9. 【AI周报】2021图灵奖揭晓;字节开源veGiantModel;阿里开源EPL;谷歌AI框架Pathways论文放出

    01 行业大事件 2021图灵奖揭晓: 高性能计算先驱.超算TOP500榜单创始人之一Jack Dongarra获奖 他曾说过:未来的计算架构会是 CPU 和 GPU 的结合. 守了一天,终于揭晓! ...

  10. 万字综述梳理ChatGPT----一文搞懂弄潮儿ChatGPT技术原理、行业现状、投资前景

    本文是笔者自学ChatGPT的总结与思考,类型为综述文章,适合想全面了解ChatGPT或对人工智能感兴趣的小伙伴~~ 目录先行,自行找需,全文三万六千余字.分为三大模块,追求效率可跳转感兴趣部分直接开 ...

最新文章

  1. Go 学习笔记(2)— 安装目录、工作区、源码文件和标准命令
  2. Unity----Scene加载问题
  3. Php魔术函数学习与应用 __construct() __destruct() __get()等
  4. 未来教育python视频百度云-2019年计算机二级Python语言程序设计考试大纲
  5. python四十五:归一化继承
  6. SQL语法之基础查询(进阶1)and条件查询(进阶2)
  7. Linux deepin下普通用户免密切换至root用户
  8. php html asp .net iis tomcat,iis+apache+tomcat 整合共享80口 支持ASP .NET JSP PHP全能WEB服务...
  9. python 抓取网页链接_从Python中的网页抓取链接
  10. DCX读书报告Bring structure to the web有感
  11. 设计图书馆oracle触发器,Oracle触发器开发与设计
  12. Linux系统下的RZSZ(文件传输工具)
  13. AD7124的调试总结
  14. c语言杭电oj1090答案,杭电OJ水题答案.doc
  15. Configtool
  16. 企业联合体的形式_企业联合体与垄断的初探
  17. 计算机组成原理中EMAR是什么,计算机组成原理与汇编语言程序设计第3章2
  18. 使用纯css做一个播放器
  19. 全球与中国制冷压缩机润滑油市场深度研究分析报告
  20. 学历低,无法胜任工作,大佬告诉你应该怎么做

热门文章

  1. hutool的BeanUtil
  2. 怎样写Robots文件?
  3. win10快捷键大全 win10常用快捷键
  4. linux挂载40t硬盘,Centos支持40T磁盘阵列MD1200
  5. android edittext怎样获取输入的内容,如何获取edittext中输入的内容?
  6. Stealing packets
  7. 计算机软件系统配置,电脑配置修改_电脑配置修改软件
  8. 13.5 Prepared Statements
  9. python输入两个数求和笔试题_Python练习题1.1从键盘输入两个数,求它们的和并输出...
  10. 相对路径遍历Relative Path Traversal