作者丨张浩宇

学校丨国防科技大学计算机学院

研究方向丨自然语言生成、知识图谱问答

本文解读的是一篇由国防科技大学微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法。

摘要

在本文中,我们基于编码器-解码器框架提出了一种新颖的基于预训练的方法,该方法可以由给定输入序列以两阶段的方式生成输出序列。

对于编码器,我们使用 BERT 将输入序列编码为上下文语义表示。对于解码器,在我们的模型中有两个阶段,在第一阶段,我们使用基于 Transformer 的解码器来生成输出序列的草稿;在第二阶段,我们分别 mask 草稿中的每个单词并将其提供给 BERT,然后基于 BERT 生成的输入序列和草稿的上下文语义表示,由一个基于 Transformer 的解码器来预测精化每个被 mask 位置的单词。

据我们所了解,我们的方法首次将 BERT 应用于文本生成任务。作为在这方面的首次尝试,我们在文本摘要任务上验证我们方法的效果。试验结果表明,我们的模型在 CNN/Daily Mail 和 New York Times 数据集上的性能超过了当前最好的方法。

研究动机

文本摘要是一种从给定文本中生成精炼信息的任务,近年来很多生成式摘要方法在基于神经网络的序列到序列模型上进行了改进。但是这些方法有一些不足:首先在解码器端,这些方法大都是从左向右的解码,因此在解码每个单词的时候只能看到上文,而无法看到下文;其次由于上下文不完整,这些方法无法在解码器端很好的利用预训练的上下文语言模型的能力。

同时,预训练的上下文语言模型(如 BERT)在很多自然语言处理任务上取得了很好的效果。本文工作希望探讨如何更好的利用此类预训练语言模型提高文本生成方法的效果。

研究方法

上图是作者提出的方法的结构图,它包含了一个编码器和两个解码器。方法包含以下部分:草稿生成过程以及精炼过程。

草稿生成过程中,编码器由预训练的 BERT 从输入文档中提取上下文表示,而后利用一个带有 Copy 机制的 N 层 Transformer 解码器,以从左向右的方式解码生成草稿。Copy 利用最后一层解码器的输出和编码器的输出计算注意力权重 α 和 Copy 概率,并和生成概率进行加权求和得到最终预测的概率:

这一阶段解码器端并没有使用 BERT 产生上下文表示。该过程的损失函数定义为:

摘要精炼过程的主要目的是利用 BERT 的上下文表示提高解码器的学习能力,因此该过程使用和草稿生成阶段相同的文档编码。在解码器端,我们提出了一个单次级别的精炼解码器,该解码器接受草稿作为输入,输出精炼后的摘要。

如模型图中所示,首先依次将摘要草稿中的每个单词掩盖住,而后将掩盖后的序列输入 BERT 并得到序列的上下文表示。而后这个上下文表示被输入 N 层 Transformer 的解码器并与源文档表示进行交互预测摘要的每个单词。

尽管该解码器也是自左向右的解码顺序,但是在每个时刻解码器都能够获得完整的上下文。从 BERT 的角度来看,输入的是完整序列而不仅仅是上文,输入的分布与 BERT 的预训练过程更加一致,这能够尽可能地让 BERT 输入更好的上下文语义表示,从而帮助解码器生成更佳的摘要。

直观上看,在我们第二次解码时,每个时刻解码器能够利用到的信息更多,降低了学习的难度。

在实验中,基于实验结果我们共享了两个解码器的参数,精炼过程的损失函数定义如下。

最后,由于最大化极大似然估计的目标对摘要等文本生成任务来说太过严格,可能会过度拟合,因此借鉴之前工作,我们将 ROUGE-L 作为另一个优化目标并利用强化学习对该目标进行优化,最终的学习目标是 MLE 和 ROUGE-L 的混合。

实验结果

为了验证模型的效果,作者在 CNN/DailyMail 和 NYT-50 两个摘要数据集上进行了实验,并与当前一些主要方法进行了对比。其中 NYT-50 数据集是 NYT 数据集中删选所有摘要长度大于 50 的样本得到。在 CNN/DailyMail 数据集上作者进行了消融实验,以此来验证每个模块的作用。

同时,为了验证摘要长度对模型性能的影响,作者对不同长度样本下模型性能相对于抽取式和生成式基准模型的平均提高进行了计算并分析。

同生成式模型相比,相比于长度更短的样本,在摘要长度为 40-80 区间内的样本中作者提出的模型达到了更高的性能提升;而同抽取式基准模型相比,在长度超过 80 的样本上,性能提升不大,这可能是由于实验设置截断的原因,也可能是因为这个区间训练样本太少,因此抽取式模型性能不会落后太多。

下面是两个模型预测(Pred.)和正确摘要(Ref.)的例子。

总结

本文主要的创新点在于设计了一个两阶段解码器的模型,从而更好地在解码器端利用预训练语言模型的能力辅助文本生成。与目前 SOTA 的方法相比,在两个摘要数据集上都有一定的性能提升。

点击以下标题查看更多往期内容:

  • Airbnb实时搜索排序中的Embedding技巧

  • 图神经网络综述:模型与应用

  • 近期值得读的10篇GAN进展论文

  • 自然语言处理中的语言模型预训练方法

  • 从傅里叶分析角度解读深度学习的泛化能力

  • 深度思考 | 从BERT看大规模数据的无监督利用

  • AI Challenger 2018 机器翻译参赛总结

  • 小米拍照黑科技:基于NAS的图像超分辨率算法

  • 异构信息网络表示学习论文解读

  • 不懂Photoshop如何P图?交给深度学习吧

#投 稿 通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 下载论文

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法相关推荐

  1. 【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》

    [1] 参考论文信息   论文名称:<基于预训练语言模型的案件要素识别方法>   发布期刊:<中文信息学报>   期刊信息:CSCD   论文写作分析摘要:本文非常典型.首先网 ...

  2. 基于预训练词向量的文本相似度计算-word2vec, paddle

    文章目录 0. 前言 1. 余弦相似度算子 2. 示例代码并验证 3. 基于词向量的文本相似度 3.1 读取word2vec文件 3.2 定义模型 3.3 运行模型 3.4 根据分数降序排列 3.5 ...

  3. CVPR 2019 论文解读 | 基于多级神经纹理迁移的图像超分辨方法 (Adobe Research)

    基于多级神经纹理迁移的图像超分辨方法 超分辨(Super-Resolution)图像恢复旨在从低分辨模糊图像中恢复出高分辨的清晰图像,是计算机视觉中的一个重要任务,在工业界有非常强的应用前景.CVPR ...

  4. CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

    近日,阿里巴巴大淘宝技术多媒体算法团队与计算机视觉青年学者刘偲教授团队合作论文:<GEN-VLKT: Simplify Association and Enhance Interaction U ...

  5. 基于预训练模型Bart的英文文本摘要summary生成

    环境 python==3.7 transformers==4.9.2 rouge-score==0.0.4 数据准备 将数据放在一个txt中,每行为一条,文章正文跟label的摘要用\t分割 构建数据 ...

  6. 基于句子嵌入的无监督文本摘要(附代码实现)

    ©PaperWeekly· 作者|高开远 学校|上海交通大学 研究方向|自然语言处理 本文主要介绍的是一个对多种语言的邮件进行无监督摘要抽取的项目,非常详细.文本摘要也是非常有意思的 NLP 任务之一 ...

  7. 【NLP】预训练时代下的文本生成|模型技巧

    今天推荐一篇人大出品的37页文本生成综述: A Survey of Pretrained Language Models Based Text Generation https://arxiv.org ...

  8. 为什么正则化可以起到对模型容量进行控制_论文解读 | 基于正则化图神经网络的脑电情绪识别...

    ©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言论文动机 现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题:1. 脑电图信号的拓扑结构 ...

  9. 论文解读 | 基于正则化图神经网络的脑电情绪识别

    ©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言 论文动机  现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题: 1. 脑电图信号的拓 ...

最新文章

  1. 【C++】Google C++编码规范(四):其他C++
  2. 【HTTP协议】域名
  3. 集成学习之Bagging
  4. 深入分析SpringBoot源码如何内嵌Tomcat容器?
  5. 算法分析与设计——蛮力法0/1背包
  6. python 列表嵌套字典 添加修改删除_【Python】列表嵌套字典修改字典里面的一个值却把全部的值都修改了。...
  7. Linux编程make命令
  8. oracle01537,ORACLE REUSE实验
  9. strtok_r实现方式之一
  10. 使用dataadapter和dataset更新数据库
  11. linux内核源码各个目录
  12. 联想新计算机开机黑屏,联想笔记本开机黑屏怎么办
  13. ssr使用mysql数据库_MySQL数据库安装与配置详解
  14. android自定义区域生成截图,一文看懂MIUI区域截屏 使用教程 (钉子户米6也能用)...
  15. 越南大老二,游戏规则说明
  16. 一文详解|增长那些事儿
  17. 大数据剖析 | 薪资没那么高,延毕率超60%,现代人读博都图什么?
  18. 16.[STM32]从原理开始带你了解DS18B20温度传感器-四位数码管显示温度
  19. 偏光显微镜研究聚合物的球晶形态
  20. 兄弟,不要偷看人家摄像头

热门文章

  1. 机器学习之贝叶斯垃圾邮件分类
  2. 机器学习之——学习率
  3. (转)JavaScript: 零基础轻松学闭包(1)
  4. 教你一步步发布一个开源库到 JCenter
  5. Java 第四周总结
  6. [转载]C#中注册Dll的问题
  7. dockerfile构建mysql_Dockerfile在linux上构建mysql8镜像并创建数据库-Go语言中文社区
  8. 简述python垃圾回收机制_python中的垃圾回收机制简述
  9. python无需修改是什么特性_用户编写的python程序无需修改就可以在不同的平台运行,是python的什么特征...
  10. mysql的FIQ怎么安装_MySQL数据库设计总结