前言

博客得主要目的是记录自己的学习收获，排版、行文都会比较随意，内容也主要以自己能理解的方式描述，还希望各位看客见谅。

本文为中国人民大学发表在IJCAI2021上的预训练语言模型文本生成综述论文。我目前的想法是重点关注文章的结构，再具体补充其中的内容。

论文链接：https://arxiv.org/abs/2105.10311

前言

编辑

引言

一、INTRODUCTION

二、PRELIMINARY

2.1 文本生成

2.2 预训练模型

2.3 基于预训练的文本生成方法

三、ENCODING INPUT REPRESENTATIONS

3.1 非结构化输入

3.1.1 段落级表示学习

3.1.2 文章级表示学习

3.1.3 多语言表示学习

3.2 结构化输入

3.3 多模态输入

四、DESIGNING PLMS FOR TEXT GENERATION

4.1 标准结构

4.1.1 Masked Language Models

4.1.2 Causal Language Models

4.1.3 Prefix Language Models

4.1.4 Encoder-Decoder Language Models

4.2 结构改进方法

4.2.1 扩展输入embedding

4.2.2 改进注意力机制

五、 OPTIMIZING PLMS FOR TEXT GENERATION

引言

一、INTRODUCTION

p1：文本生成的简单介绍——文本生成的目标是生成通顺可读的自然语言。文本生成技巧可以广泛应用于对话系统、机器翻译和摘要生成任务中。

p2-p4：文本生成的研究历史

p2:基于统计的方法——>面临 data sparsity的问题，需要smoothing

p3:基于深度学习的方法——>从seq2seq到attention和copy机制——>面临数据不够多，容易过拟合的问题

p4:基于PLM的方法——>好，所以我们关注

p5:本文与其他文本生成综述论文的区别——大部分综述是以任务的视角去描述文本综述的，如对话生成，摘要生成等。本文将更多从文本生成本身这个角度阐述。

p6:文章结构阐述

二、PRELIMINARY

2.1 文本生成

介绍了文本生成的定义。 $y=f_{\mathcal{M}}(x, \mathbb{P})$ ,通过输入x的不同对文本生成进行分类。

2.2 预训练模型

2.3 基于预训练的文本生成方法

本文认为，如果希望利用预训练语言模型实现文本生成，需要重点考虑三个问题，这三个问题分别从输入数据，模型结构和优化方法的角度进行阐述。这三个问题分别是：

How to encode the input

【论文阅读笔记1】：Pre-trained Language Models for Text Generation: A Survey相关推荐

【综述阅读】Pre-trained Language Models for Text Generation: A Survey
Pre-trained Language Models for Text Generation: A Survey 中国人民大学 IJCAI 2021 论文链接:https://arxiv.org/p ...

论文阅读：Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA
论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA 来源:ACL 2 ...

论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey
本论文相关内容论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

论文阅读笔记：Latent Intention Dialogue Models
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言 Abstract Introduction Latent Intention Dialogu ...

文本检测论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

论文阅读笔记-场景图谱-图谱生成：Scene Graph Generation from Objects, Phrases and Region Captions
文章目录摘要引言正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...

DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

对抗训练-smart 论文阅读笔记
对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

文本分类论文阅读笔记
文章目录 CNN系列 Effective Use of Word Order for Text Categorization with Convolutional Neural Networks A ...

最新文章

对端边缘云网络计算模式：透明计算、移动边缘计算、雾计算和Cloudlet

MySQL修改和查看表类型

字典树--Xor问题

python3 获取当前路径_如何使用python3获取当前路径及os.path.dirname的使用

python小项目实例流程-推荐三个最适合零基础小白练手的python项目，分享给你！...

windows server2012

Android开发之--Preferences的使用

Eclipse中实现SpringBoot与Mybatis整合（图文教程带源码）

linux开端口不重启,Linux 防火墙开放端口(有时不生效可能是没有保存、重启导致)...

Dubbo 新编程模型之外部化配置

前端学习（662）：逻辑运算符练习

数据库---事务的隔离级别

使用开发者工具调试jsp页面中的脚本

unity 导入gltf_Unity3D使用glTF格式三维文件，glTF在unity中如何呈现，glTF导入unity

html类名定义规则_好程序员分享Java语言中的标识符规则

php无法查询excel数据,laravel phpexcel无法读取excel中中文表头列数据

词法分析器代码分析报告

Android三级缓存机制工具类的实现

爬虫登陆实战 --- QQ音乐扫码登陆

直通车点击软件测试自学,【图片】最给力直通车点击软件，防御直通车恶意点击秒杀软件，可测试效果_直通车吧_百度贴吧...

热门文章

用Win10自带的画图3D快速抠图

BBC news reading 3--前缀 patr

ERP系统集成实例 - 适应新常态

年底找工作，太难了！你觉得难吗？

mysql 取当天、昨天、上一个月、当前月和下个月数据

第一周第五讲夹逼准则及重要的极限I

惠普ZBOOK 15V G5 安装黑苹果（二）

windows编程实践之 QQ找茬

一道传说中爱因斯坦出的智力题

Kotlin 特性语法糖优势扩展高阶 MD