【GPT2】Language Models are Unsupervised Multitask Learners

2024-06-01 22:04:48

Paper Link: Language Models are Unsupervised Multitask Learners

GPT系列文章解读：
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners

Abstract

问答、机器翻译、阅读理解和摘要等NLP任务，通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题，由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值，达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数，在8个任务上有7个取得了sota结果。这些研究表明，这是一条构建语言处理系统的有效途径，该系统可以从自然发生的演进中学习执行任务。

introduction

提出了语言模型，在下游任务上不需要任何标号样本，也不用调整参数和修改网络结构。

Approach

Training Dataset

搜集的4500万网页链接中的WebText句子中，一些自然出现的法语英语互译的例子，如下表：

Model

作者构建了4个模型，词汇量扩展到50257个，文本序列长度从512到1024，更大的batch_size(512)

最小模型的参数有1.17亿，最大模型参数有15亿个。

Experiments

Language Modeling

和其他的 zero-shot learning model 对比结果：

GPT-2给出的最可靠的30个自然问题的答案：

【GPT2】Language Models are Unsupervised Multitask Learners相关推荐

GPT2.0 Language Models are Unsupervised Multitask Learners 论文解读
转载请注明出处,原文地址本文是对<Language Models are Unsupervised Multitask Learners>的翻译,部分内容可能会存在理解错误,如有错误欢迎 ...
Language Models are Unsupervised Multitask Learners 论文纪要
本文是完整读过GPT-2 paper之后记录下来的觉得重要的地方,其中大部分摘自paper原文,有用中文部分记录自己读paper时想到的东西以及不懂的地方,求指教! 读GPT-2 paper之前可以作 ...
Language Models are Unsupervised Multitask Learners 笔记
语言模型是无监督的多任务学习者摘要自然语言处理任务,如问题回答.机器翻译.阅读理解和总结,通常是通过任务特定数据集上的监督学习来完成的.我们证明,当语言模型在一个称为WebText的数百万网页的新 ...
阅读文献“Language Models are Unsupervised Multitask Learner”（GPT-2）
阅读文献"Language Models are Unsupervised Multitask Learner"(GPT-2) Abstract zero-shot:指在分类任务中 ...
论文解读：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
论文解读:It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners PET作者认为之前的P ...
【语言模型生成分子更好】Language models can learn complex molecular distributions
Language models can learn complex molecular distributions[Nature Communications] 语言模型可以学习复杂的分子分布 pap ...
【GPT】Improving Language Understanding by Generative Pre-Training
Paper Link: Improving Language Understanding by Generative Pre-Training GPT系列文章解读: [GPT2]Language Mo ...
【NLP】预训练模型综述
预训练模型综述摘要:近年来,预训练模型的出现将自然语言处理带入了一个新的时代.本文概述了面向自然语言处理领域的预训练模型技术.我们首先概述了预训练模型及其发展历史.并详细介绍自然语言处理领域的经典预 ...
Prompt-based Language Models：模版增强语言模型小结
©PaperWeekly 原创 · 作者 | 李泺秋学校 | 浙江大学硕士生研究方向 | 自然语言处理.知识图谱最近注意到 NLP 社区中兴起了一阵基于 Prompt(模版)增强模型预测的潮流: ...
【干货】我的机器学习入门路线图
点击上方" AI有道 ",选择"置顶公众号" 关键时刻,第一时间送达! 因为之前有不少朋友在微信或 QQ 上问我,机器学习.深度学习应该如何入门呢?对应这一问题 ...

最新文章

热门文章