论文地址:《Language Models are Unsupervised Multitask Learners》
代码地址:https://github.com/openai/gpt-2

文章目录

  • 论文介绍
  • 模型框架
  • 实验分析
  • 结论

论文介绍

本文将常识推理和情感分析两项任务联系起来,采取更一般的方法。证明了语言模型可以在zero-shot下无需任何参数或架构的修改执行下游任务。

模型框架

核心依旧是Language Modeling,形式化为

,从中可以学习到
。单任务预测形式化为p(output|input),多任务则为p(output|input,task),通过将tasks,inputs和outputs都表示为符号序列,便可和上面的语言模型关联起来。

Training Dataset是从网页抓取得到的相对高质量内容,数据集命名为WebText,是4500万链接的一个子集,包含超过800万个文档,共40GB的文本数据,其中Wikipedia的文档被过滤以避免与测试评估任务的数据重叠。

Input Representation采用BPE(Byte Pair Encoding)方法,且在字节级别上进行合并但是限制合并不同类型的字符以避免类似dog. dog! dog?的出现。这种表示方式能够结合词级别语言模型的优点和字节级别的泛化性能,更加灵活。

模型框架基本同GPT,有一点小改动,例如Layer normalization前移到每个子模块之前(顶层多加一层Layer normalization),初始化策略,扩大词表等。


最小模型117M是原始GPT模型,345M是最大的BERT模型,最大的1542M模型为GPT-2模型。

实验分析


可以看到,在Zero-shot的情况下,WebText LMs几乎在所有测试数据集上达到了新的SOTA,除了1BW数据集,语言建模能力惊人。

另外还在很多其他任务上进行了对比实验,大多数也取得了提升,如下图:

结论

论文的主要贡献在于表明了“在一个足够大的、多样化的数据集上,训练一个超大的语言模型(high-capacity),能够很好泛化到其他任务上”。

论文阅读《Language Models are Unsupervised Multitask Learners》相关推荐

  1. 《基于卷积神经网络的深度迁移学习,用于燃气轮机燃烧室的故障检测》论文阅读

    目录 突出 抽象 引言 1.1动机 1.2文献综述获得的结论 1.3贡献 1.4组织 2方法 2.1燃汽轮机组故障知识共享 2.2迁移学习 2.3 基于卷积神经网络的深度迁移学习 2.4用于燃气轮机燃 ...

  2. 基于卷积神经网络和投票机制的三维模型分类与检索 2019 论文笔记

    作者:白静 计算机辅助设计与图形学学报 1.解决的问题 由于三维模型投影得到的视图是由不同视点得到,具有相对独立性,这种像素级的融合运算并没有直接的物理或者几何意义,更有可能造成图像有益信息淹没和混淆 ...

  3. TextCNN——基于卷积神经网络的文本分类学习

    1.CNN基础内容 CNN的全称是Convolutional Neural Network,是一种前馈神经网络.由一个或多个卷积层.池化层以及顶部的全连接层组成,在图像处理领域表现出色. 本文主要学习 ...

  4. 读懂深度迁移学习,看这文就够了 | 赠书

    百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...

  5. 一种基于卷积神经网络的图像去雾研究-含matlab代码

    目录 一.绪论 二.去雾卷积网络 2.1 特征提取 2.2 多尺度映射 2.3 局部均值 2.4 非线性回归 三.实验与分析 四.Matlab代码获取 一.绪论 雾是一种常见的大气现象,空气中悬浮的水 ...

  6. 机械臂论文笔记(一)【基于卷积神经网络的二指机械手 抓取姿态生成研究 】

    基于卷积神经网络的二指机械手 抓取姿态生成研究 论文下载 摘要 第1章 绪论 1.1 抓取生成国内外研究现状 1.1.1已知物体抓取生成 1.1.2相似物体抓取生成 1.1.3 未知物体抓取生成 1. ...

  7. 毕业设计 - 基于卷积神经网络的乳腺癌分类 深度学习 医学图像

    文章目录 1 前言 2 前言 3 数据集 3.1 良性样本 3.2 病变样本 4 开发环境 5 代码实现 5.1 实现流程 5.2 部分代码实现 5.2.1 导入库 5.2.2 图像加载 5.2.3 ...

  8. 基于卷积神经网络与迁移学习的油茶病害图像识别

    基于卷积神经网络与迁移学习的油茶病害图像识别 1.研究思路 利用深度卷积神经网络强大的特征学习和特征表达能力来自动学习油茶病害特征,并借助迁移学习方法将AlexNet模型在ImageNet图像数据集上 ...

  9. Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类)

    Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...

  10. 基于卷积神经网络实现图片风格的迁移 1

    卷积神经网络详解 一.实验介绍 1.1 实验内容 Prisma 是最近很火的一款APP,它能够将一张普通的图像转换成各种艺术风格的图像.本课程基于卷积神经网络,使用Caffe框架,探讨图片风格迁移背后 ...

最新文章

  1. vs配置编译c语言,为 VSCode 配置 C 语言编译环境
  2. Hackerrank GCD Product(莫比乌斯反演)
  3. Python 图片亮度
  4. GMIS 2017大会Saman Farid演讲:人工智能时代创业者面对的挑战和机会
  5. php 对象方法作为参数,在C++中对象如何作为参数传递和返回?(代码示例)
  6. mysql 有十进制类型吗_MySQL数据类型
  7. Python 新式类与经典类
  8. 外媒:欧盟针对谷歌语音助手展开反垄断调查
  9. html相对路径之前,HTML之绝对路径与相对路径
  10. 【图像融合】简单认识图像融合
  11. linux 程序崩溃 gdb调试coredump文件
  12. mysql 版本_mysql各个版本介绍
  13. Java、JSP电子书下载系统
  14. 如何用计算机计算log除法,对数计算器_如何使用计算器计算对数
  15. 整理一下用得着的链接
  16. 如何在Linux Shell脚本中添加GUI
  17. GameCenter 使用指南
  18. 关闭compactos_compact 命令详解 – 原来文件还能这样压缩!
  19. 二本电气工程应届生收割5个offer,转型大数据真的与专业无关
  20. Allegro通孔焊盘制作

热门文章

  1. laravel与thinkphp相比有哪些优势?他们之间的区别/优缺点在哪
  2. android toast 大小,Android Toast实现全屏显示
  3. python正则表达式和数据库
  4. HCSE5.0中文胶片
  5. 各种气象数据下载地址推荐
  6. 体验Windows Mobile 6.5 (模拟器)
  7. 电商与ERP集成方案
  8. Honeyview 漫画阅读器 v5.30.zip 下载
  9. Linux基础入门到精通之虚拟机中安装Linux系
  10. 视频教程-思科CCNP路由实验专题--EIGRP篇【适用于思科CCNA、CCNP】-网络技术