前沿: GPT和ELMo一样是作为自回归模型。相对于ELMo来说,特征提取器换成了transformer。因为不同于LSTM的序列方式,transformer的方式需要考虑避免后面待预测的单词对当前的单词影响,所以需要引入一个masked multi-attention机制,其实就是后面单词被掩码了。
论文:
Improving Language Understanding by Generative Pre-Training
Language Models are Unsupervised Multitask Learners
目录:

  • 网络架构形式
  • 如何针对下游做微调
  • 和ELMo的相同点以及不同点
  • 实现细节

网络架构:


一看发现这TM不就是BERT吗?仔细一看,self-attention还是有很大的区别的,感觉也就是自回归和自编码的区别了,自回归需要避免所谓的将来单词对于现在的影响,自编码不用。

如何针对下游调整:
GPT是可以针对下游做微调的,就像上面架构图描述的一样。但是注意ELMo不行,ELMo更多的是学习word embedding。具体调试方法看上面。

对比ELMo,GPT,

PTMs-GPT,GPT2相关推荐

  1. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  2. 一个API调用27个NLP预训练模型:BERT、GPT-2全囊括,像导入NumPy一样容易

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 只需一个API,就能调用BERT.XLM等多种语言模型,逆天的GPT-2也一样轻松到碗里来,这样的模型库你是否期待? 现在,真的有人完成了 ...

  3. 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

    参考: 李宏毅2021/2022春机器学习课程 王树森 RNN & Transformer 教程 Transformer 详解 文章目录 0. 背景:序列数据及相关任务 1. 早期序列模型 1 ...

  4. 预训练语言模型整理(ELMo/GPT/BERT...)

    预训练语言模型整理(ELMo/GPT/BERT...)简介 预训练任务简介# 自回归语言模型# 自编码语言模型 预训练模型的简介与对比 ELMo 细节# ELMo的下游使用# GPT/GPT2# GP ...

  5. 虽被BERT碾压,但还是有必要谈谈BERT时代与后时代的NLP

    作者 | 吴金龙,爱因互动技术合伙人,算法负责人 来源 | 授权转载自AINLP(ID:nlpjob) 2018年是NLP的收获大年,模型预训练技术终于被批量成功应用于多项NLP任务.之前搞NLP的人 ...

  6. 一文回顾深度学习十年发展

    公众号关注 "视学苏案发" 设为 "星标",DLCV消息即可送达! 转自 | 大数据文摘出品 来源 | leogao.dev 随着21世纪第二个十年行将结束,我 ...

  7. 【深度学习前沿】一文回顾深度学习十年发展

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转自 | 大数据文摘出品 来源 | leogao.dev 随着21世纪第二个十年行 ...

  8. pytorch加载预训练模型_Pytorch-Transformers 1.0发布,支持六个预训练框架,含27个预训练模型...

    AI 科技评论按:刚刚在Github上发布了开源 Pytorch-Transformers 1.0,该项目支持BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等,并包含 ...

  9. 机器学习基于skcilearn tensorflow电子书_Tensorflow机器学习模型的跨平台上线

    本篇文章转载自博客园,作者: 刘建平Pinard 在用PMML实现机器学习模型的跨平台上线中,我们讨论了使用PMML文件来实现跨平台模型上线的方法,这个方法当然也适用于tensorflow生成的模型, ...

  10. Transformer 这么强,该从何学起?

    Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作.与卷积神经网络(CNN)相比,视觉 Tr ...

最新文章

  1. 突然发现我还有博客园的博客呢哈哈哈哈
  2. 首份《顶级数据团队建设全景报告》重磅发布: 逾半数据团队称人才储备不足
  3. Felgo简介--Qt开发者的福音
  4. 负数如何归一化处理_小白的图像处理入门(一)
  5. 零基础学python书籍-图书推荐:《零基础学Python(全彩版)》
  6. Linux/Unix IO多路复用之select网络编程(含源码)
  7. pthread_mutex_unlock()出错
  8. Python 汽车之家最新 全系车型参数(包含历史停售车型)
  9. 这 4 个远程桌面开源了!
  10. opencv 特征提取 -SIFT
  11. “大众摄影”“北外亚非学院”等网站被挂马
  12. 计算机系统相机怎么卸载,如何卸载摄像头驱动
  13. 易虎再谈网站被恶意刷流量和防恶意点击的解决思路
  14. Ps的动感模糊和扭曲效果
  15. SQL语句oracle中如何插入Date类型的数据
  16. 树莓派4B(armv7l,arm32)buster安装PyTorch、torchvision、torchaudio、onnxruntime
  17. 代达罗斯之殇-大数据领域小文件问题解决攻略
  18. _bstr_t与BSTR
  19. web3默克尔树MerleTree白名单校验
  20. PSPad自定义语法高亮,notepad++自定义语言格式

热门文章

  1. NVIDIA JETSON NANO三个版本核心的对比
  2. Unreal Engine 4 UE4 CAVE VR 立体 Stereo nDisplay 多通道
  3. 网络安全宣传月安全团队需要知道的关于PKI的九件事
  4. 什么是memcache,常见的memcache方法
  5. 在外包干了几年,感觉自己都快费了
  6. 3DMAX 9 角色建模3 uv展开
  7. android屏幕旋转生命周期,Activity、Fragment生命周期---横竖屏切换的生命周期
  8. Unity零基础到进阶 ☀️| UGUI布局 之Content Size Fitter组件介绍 和 使用示例
  9. python绘制散点图的步骤_python绘制散点图
  10. python工程师需要掌握什么技能_从事Python工程师具体需要掌握哪些技能