Paper Link: Language Models are Unsupervised Multitask Learners

GPT系列文章解读:
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners

Abstract

问答、机器翻译、阅读理解和摘要等NLP任务,通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题,由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值,达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数,在8个任务上有7个取得了sota结果。这些研究表明,这是一条构建语言处理系统的有效途径,该系统可以从自然发生的演进中学习执行任务。

introduction

提出了语言模型,在下游任务上不需要任何标号样本,也不用调整参数和修改网络结构。

Approach

Training Dataset

搜集的4500万网页链接中的WebText句子中,一些自然出现的法语英语互译的例子,如下表:

Model

作者构建了4个模型,词汇量扩展到50257个,文本序列长度从512到1024,更大的batch_size(512)

最小模型的参数有1.17亿,最大模型参数有15亿个。

Experiments

Language Modeling

和其他的 zero-shot learning model 对比结果:

GPT-2给出的最可靠的30个自然问题的答案:

【GPT2】Language Models are Unsupervised Multitask Learners相关推荐

  1. GPT2.0 Language Models are Unsupervised Multitask Learners 论文解读

    转载请注明出处,原文地址 本文是对<Language Models are Unsupervised Multitask Learners>的翻译,部分内容可能会存在理解错误,如有错误欢迎 ...

  2. Language Models are Unsupervised Multitask Learners 论文纪要

    本文是完整读过GPT-2 paper之后记录下来的觉得重要的地方,其中大部分摘自paper原文,有用中文部分记录自己读paper时想到的东西以及不懂的地方,求指教! 读GPT-2 paper之前可以作 ...

  3. Language Models are Unsupervised Multitask Learners 笔记

    语言模型是无监督的多任务学习者 摘要 自然语言处理任务,如问题回答.机器翻译.阅读理解和总结,通常是通过任务特定数据集上的监督学习来完成的.我们证明,当语言模型在一个称为WebText的数百万网页的新 ...

  4. 阅读文献“Language Models are Unsupervised Multitask Learner”(GPT-2)

    阅读文献"Language Models are Unsupervised Multitask Learner"(GPT-2) Abstract zero-shot:指在分类任务中 ...

  5. 论文解读:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

    论文解读:It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners   PET作者认为之前的P ...

  6. 【语言模型生成分子更好】Language models can learn complex molecular distributions

    Language models can learn complex molecular distributions[Nature Communications] 语言模型可以学习复杂的分子分布 pap ...

  7. 【GPT】Improving Language Understanding by Generative Pre-Training

    Paper Link: Improving Language Understanding by Generative Pre-Training GPT系列文章解读: [GPT2]Language Mo ...

  8. 【NLP】预训练模型综述

    预训练模型综述 摘要:近年来,预训练模型的出现将自然语言处理带入了一个新的时代.本文概述了面向自然语言处理领域的预训练模型技术.我们首先概述了预训练模型及其发展历史.并详细介绍自然语言处理领域的经典预 ...

  9. Prompt-based Language Models:模版增强语言模型小结

    ©PaperWeekly 原创 · 作者 | 李泺秋 学校 | 浙江大学硕士生 研究方向 | 自然语言处理.知识图谱 最近注意到 NLP 社区中兴起了一阵基于 Prompt(模版)增强模型预测的潮流: ...

  10. 【干货】我的机器学习入门路线图

    点击上方" AI有道 ",选择"置顶公众号" 关键时刻,第一时间送达! 因为之前有不少朋友在微信或 QQ 上问我,机器学习.深度学习应该如何入门呢?对应这一问题 ...

最新文章

  1. 详解DNS递归查询与迭代查询
  2. ibmmq 通道命令_IBM MQ 从接收通道获取数据
  3. 卫星通信频段:C频段、Ku频段和Ka频段
  4. OLEDB IMEX行数限制的问题
  5. 针对校园某服务器的一次渗透测试
  6. [渝粤教育] 西南科技大学 婚姻家庭继承法 在线考试复习资料
  7. 最新emoji表情代码大全_10月最新早上好问候语表情图片大全,朋友们大家早上好表情包!...
  8. 一篇讲给自己听的k8s网络模型
  9. 【STM8】IAR 项目新建步骤
  10. 质量团队的组建与升级
  11. 黑果安装步骤(手把手教你如何安装黑苹果)
  12. 2021年中国宽带网速发展状况分析:我国宽带网速增长快速[图]
  13. a360desktop有用吗_A360 Desktop 停用 - 2018 年 6 月 19 日
  14. 递归树求递归算法时间复杂度
  15. JVM调优之 -Xms -Xmx -Xmn -Xss
  16. 高级硬件工程师是怎样炼成的
  17. 【Linux】Centos安装mvn命令(maven)
  18. linux ubuntu安装教程6,1.1.6 安装 Linux(Ubuntu)下的 Mixly
  19. 离散数学 —— 二元关系(图、零图与平凡图、度、握手定理、平行边、简单图与完全图、补图、子图与生成子图、同构、通路与回路、点与边割集、最短路线问题、强弱联通图、邻接矩阵与可达矩阵、欧拉图、平面图等)
  20. Gateway集成Nacos和Sentinel

热门文章

  1. ASP入门教程 1小时ASP入门,非常简单
  2. 让XP系统也支持微软雅黑字体
  3. 深度剖析供应链风险管理
  4. word打开wps文件乱码_金山wps2007打开word2007文件为什么是乱码
  5. linux xfs文件系统故障修复,xfs文件系统修复方法
  6. kiriki模拟器Android9,Kirikiroid2模拟器
  7. ubuntu18.04引导界面、登录界面美化
  8. Vue报错信息Module not found: Error: Can‘t resolve ‘vue/types/umd‘ in
  9. 力扣第39题dfsdfs(respathtarget-candidates[1]i)#调用递归,组成目标的 i 可以重复用,不用i+1,def dfsdfs(resres,pathtarget,ind
  10. 推荐一款绘画软件krita,开源正版免费,适合ps用户