前言

博客得主要目的是记录自己的学习收获,排版、行文都会比较随意,内容也主要以自己能理解的方式描述,还希望各位看客见谅。

本文为中国人民大学发表在IJCAI2021上的预训练语言模型文本生成综述论文。我目前的想法是重点关注文章的结构,再具体补充其中的内容。

论文链接:https://arxiv.org/abs/2105.10311


目录

前言

​编辑

引言

一、INTRODUCTION

二、PRELIMINARY

2.1 文本生成

2.2 预训练模型

2.3 基于预训练的文本生成方法

三、ENCODING INPUT REPRESENTATIONS

3.1 非结构化输入

3.1.1 段落级表示学习

3.1.2 文章级表示学习

3.1.3 多语言表示学习

3.2 结构化输入

3.3 多模态输入

四、DESIGNING PLMS FOR TEXT GENERATION

4.1 标准结构

4.1.1 Masked Language Models

4.1.2 Causal Language Models

4.1.3 Prefix Language Models

4.1.4 Encoder-Decoder Language Models

4.2 结构改进方法

4.2.1 扩展输入embedding

4.2.2 改进注意力机制

五、 OPTIMIZING PLMS FOR TEXT GENERATION


引言

一、INTRODUCTION

p1:文本生成的简单介绍——文本生成的目标是生成通顺可读的自然语言。文本生成技巧可以广泛应用于对话系统、机器翻译和摘要生成任务中。

p2-p4:文本生成的研究历史

  • p2:基于统计的方法——>面临 data sparsity的问题,需要smoothing
  • p3:基于深度学习的方法——>从seq2seq到attention和copy机制——>面临数据不够多,容易过拟合的问题
  • p4:基于PLM的方法——>好,所以我们关注

p5:本文与其他文本生成综述论文的区别——大部分综述是以任务的视角去描述文本综述的,如对话生成,摘要生成等。本文将更多从文本生成本身这个角度阐述。

p6:文章结构阐述


二、PRELIMINARY

2.1 文本生成

介绍了文本生成的定义。y=f_{\mathcal{M}}(x, \mathbb{P}),通过输入x的不同对文本生成进行分类。

2.2 预训练模型

2.3 基于预训练的文本生成方法

本文认为,如果希望利用预训练语言模型实现文本生成,需要重点考虑三个问题,这三个问题分别从输入数据模型结构优化方法的角度进行阐述。这三个问题分别是: