文章目录

  • 1 引言
  • 2 本文模型
    • 2.1 Seq2Seq 注意力模型
    • 2.2 指针生成网络
    • 2.3 覆盖机制(Coverage mechanism)

Reference
1. Get To The Point: Summarization with Pointer-Generator Networks


seq2seq模型可用于文本摘要(并非简单地选择、重排原始文本的段落),然后这些模型有两个缺点:不易关注真实细节,以及倾向于生成重复文本

本文提出一种新颖的架构:使用两种方式增强标准的seq2seq注意力模型。第一,使用混合指针生成网络,利用指针从原文精确地复制单词,同时保留生成器产生新单词的能力。第二,使用覆盖机制跟踪哪些单词已经被摘取,避免生成重复文本。

1 引言

文本摘要任务旨在输出仅包含原文主要信息的压缩文本,大致具有两种方法:抽取式摘要式。抽取式方法直接抽取段落原文,而摘要式方法可能生成一些原文中并非出现的单词或短语,类似于人类写的摘要。

抽取式方法相对容易,因为直接抽取原文大段文本,可保证语法和准确性。从另一个角度来说,模型的经验能力对于生成高质量摘要至关重要,如改写、总结,以及结合现实世界知识,仅摘要式框架具备这种可能性。

摘要式总结较为困难,先前模型大多采用抽取式,最近提出的seq2seq模型使得摘要式总结成为可能。尽管seq2seq模型具备很大潜力,但它们也暴露了一些不良行为,如无法准确复制真实细节无法处理OOV问题,以及倾向于自我重复

本文提出一种网络结构,在多句上下文总结中解决以上三个问题。最近的摘要式模型主要关注与标题生成(将一两句话缩减至单一标题),我们相信长文本摘要挑战与实用性并存,本文使用CNN/Daily Mail数据集,其包含新闻文章(平均39句)和多句摘要,结果显示,本文提出的模型高于SOTA模型2个ROUGE点。

本文的混合指针生成模型通过指针从原文中复制单词,文本生成准确性提高,并解决了OOV问题,同时保留生成原文中未出现的新单词的能力,该网络可视为摘要方法和抽取方法之间的平衡,类似于应用于短文本摘要的 CopyNetForced-Attention Sentence Compression 模型。我们提出一种新型的覆盖向量(源于NMT,可用于跟踪和控制原文的覆盖率),结果表明,覆盖机制对于消除重复性非常有效。

2 本文模型

2.1 Seq2Seq 注意力模型

本文基线模型类似于图2中的模型:

文中各token依次输入至单层BiLSTM,网络输出编码器隐状态序列 h i h_i hi​,在时间步 t t t,解码器(单层单向LSTM)接收到先前单词的词向量(训练阶段为参考摘要的前一个单词,测试阶段为解码器上一时刻输出的单词),输出隐状态 s t s_t st​。

基于Bahdanau et al.(2015)注意力机制,计算注意力分布:

式中, v , W h , W s , b attn v, W_h, W_s, b_\text{attn} v,Wh​,Ws​,battn​为可学习的参数。注意力分布可看作为源单词的概率分布,告诉解码器应关注哪些单词生成下一个单词。接着,使用注意力机制加权编码器隐状态,输出上下文向量 h t ∗ h_t^* ht∗​:

上下文向量可看作为固定维度的、当前时间步从源中读取的内容,将其与解码器隐状态 s t s_t st​拼接,输入至两层线性网络,产生词典概率分布 P vocab P_\text{vocab} Pvocab​:

式中, V , V ′ , b , b ′ V, V', b, b' V,V′,b,b′为可学习参数。 P vocab P_\text{vocab} Pvocab​为词典中所有单词的概率分布,告知我们预测单词 w w w的最终概率分布:

训练阶段,时间步 t t t的损失为目标单词 w t ∗ w_t^* wt∗​的负对数似然:

整个序列的全部损失为

2.2 指针生成网络

本文模型为基线模型seq2seq和指针网络的混合,其允许通过指针复制单词,以及从固定大小的词典中生成单词。在图三所示的指针生成网络中,注意力分布 a t a^t at和上下文向量 h t ∗ h_t^* ht∗​可以利用2.1章节所述公式计算。

此外,时间步利用上下文向量 h t ∗ h_t^* ht∗​,解码器隐状态 s t s_t st​,解码器输入 x t x_t xt​计算生成概率分布:

式中,向量 w h ∗ , w s , w x w_{h^*},w_s,w_x wh∗​,ws​,wx​和变量 b ptr b_\text{ptr} bptr​为可学习参数, σ \sigma σ为sigmoid函数。 p gen p_\text{gen} pgen​可看作为软开关,用于选择是利用 P vocab P_\text{vocab} Pvocab​从词表中抽取单词,还是利用注意力分布 a t a_t at​从输入句抽取单词。

对于每一篇文档,将原文中所有出现的单词和词典结合为扩充词典,获得在扩展词典上的概率分布:

注意到,如果 w w w不存在与词典中,则 P vocab ( w ) = 0 P_\text{vocab}(w)=0 Pvocab​(w)=0;类似地,如果 w w w不存在于原文中,则 ∑ i : w i = w a i t = 0 \sum_{i:w_i=w}a_i^t=0 ∑i:wi​=w​ait​=0。产生OOV单词的能力是指针网络的主要优势之一,而我们的基线模型产生单词的数量局限于预设置的词典。损失函数如公式(6)和(7)所示,但我们修改为公式(9)所示的概率分布 P ( w ) P(w) P(w)。

2.3 覆盖机制(Coverage mechanism)

重复是seq2seq模型的常见问题,在生成多句时尤其明显(如图1所示),我们采用覆盖机制解决这个问题。覆盖机制模型中,我们维持之前所有解码步的注意力分布之和作为覆盖向量 c t \bm{c_t} ct​:

直观上, c t \bm{c_t} ct​为原文单词上的分布(未归一化),表示这些单词到目前为止从注意力机制中所获得的覆盖度。注意到, c 0 \bm{c^0} c0为零向量,因为初始时刻源文中没有任何单词被覆盖。

覆盖向量作为注意力机制的额外输入,将公式(1)改为

式中, w c w_c wc​是与 v v v具有相同长度的可学习向量。覆盖机制使得注意力机制的当前决策受其先前决策( c t c_t ct​之和)影响,因此应该更易避免注意力机制关注相同位置,从而避免生成重复文本。

我们发现,额外定义覆盖损失惩罚重复关注相同位置是必要的,覆盖损失

覆盖损失有界: covloss t ≤ ∑ i a i t = 1 \text{covloss}_t\leq\sum_ia_i^t=1 covlosst​≤∑i​ait​=1,公式(12)中的覆盖损失有别于机器翻译中的覆盖损失。MT中,假定翻译率大致为1:1,如果覆盖向量大于或小于1,其将作为惩罚向量。本文损失函数比较灵活,因为摘要不需要一致覆盖率,本文仅惩罚注意力机制与到目前为止的覆盖向量之间的重叠部分,防止重复关注。

最终,使用超参数 λ \lambda λ加权覆盖损失至先前损失,产生新的合成损失:

PGN: 指针生成网络(Get To The Point: Summarization with Pointer-Generator Networks)相关推荐

  1. 论文浅尝 | 利用指针生成网络的知识图谱自然语言生成

    论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答. 来源:Neurocomputing 382: 174-187 (2020) 链接:https://www.sciencedirect.co ...

  2. 深度之眼Paper带读笔记NLP.19:指针生成网络

    文章目录 前言 第一课 论文导读 摘要简介 抽取式文本摘要 基于TextRank的抽取式摘要 基于聚类的抽取式摘要 基于序列标注的抽取式摘要 文本摘要发展历史 生成式摘要 序列到序列结构 两类方法对比 ...

  3. 指针生成网络(PGN)的简单总结

    基于RNN的seq2seq: 好处: 用于文本生成,可以用于抽象总结. 坏处: 不准确的复制事实细节:无法处理OOV:生成文本有重复倾向:长文本下效果效果倾向于language model PGN分析 ...

  4. 基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

    作者 | Yang Yang.Xiaojie Guo.Jiayi Ma.Lin Ma.Haibin Ling 译者 | 刘畅 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) ...

  5. CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器 ...

  6. 干货 | 顾险峰:对抗生成网络的几何理论解释(附视频PPT)

    在近日举办的清华大数据"技术·前沿"系列讲座中,来自纽约州立大学计算机系终身教授,哈佛大学数学科学与应用中心兼职教授顾险峰老师做了主题为"对抗生成网络的几何理论解释&qu ...

  7. 直播 | 顾险峰教授讲座:对抗生成网络的几何理论解释

    深度学习中的对抗生成网络GAN是复杂分布上无监督学习最具前景的方法之一.虽然在工程上对抗生成网络取得巨大成功,在理论上对于GAN的理解依然肤浅. 本期清华大数据"技术·前沿"系列讲 ...

  8. 报名 | 顾险峰教授讲座:对抗生成网络的几何理论解释

    深度学习中的对抗生成网络GAN是复杂分布上无监督学习最具前景的方法之一.虽然在工程上对抗生成网络取得巨大成功,在理论上对于GAN的理解依然肤浅. 本期清华大数据"技术·前沿"系列讲 ...

  9. 悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点

    来源:新智元 本文共7372字,建议阅读10分钟. 本文为你整理了9月20日的AI WORLD 2018 世界人工智能峰会上陶大程教授的演讲内容. [ 导读 ]悉尼大学教授.澳大利亚科学院院士.优必选 ...

最新文章

  1. 刚入行的软件测试工程师如何自学软件测试?0 基础该怎么学习软件测试
  2. 高文院士:中国在AI领域有哪些长板和短板
  3. 再上24天班,小长假就来了!
  4. Windows 内核(WRK)简介
  5. 当执行进程ctrl+c关闭不了的时候的解决方法
  6. 2020Alibaba数学竞赛决赛试题
  7. 【FBI WARNING】一些Noip的黑科技 持续整理!
  8. mysql降级导入_mysql 升级和降级
  9. LinkedList源码阅分析
  10. 棋盘问题(信息学奥赛一本通-T1217)
  11. git clone报错:Permission denied (publickey). fatal: Could not read from remote repository...
  12. 判断连个单链表是否交叉,并找到交叉点
  13. MySQL数据库学习【第二篇】基本操作和存储引擎
  14. 概率生成模型-朴素贝叶斯(Naive Bayes)
  15. SecureCRT下载和设置
  16. excel文件修复工具_psd文件修复工具下载|Recovery Toolbox for ps 最新版v2.3.1.0 下载
  17. 100个python算法超详细讲解:三色旗
  18. Vue React大屏可视化进阶
  19. PTA 1031 查验身份证 (c语言)
  20. Cobalt编译流程分析

热门文章

  1. Freeswitch智能语音开发之TTS
  2. arcgis中mxd批量导图(tif,png,jpg,pdf)
  3. python毕业设计项目源码选题(10)电影院售票系统毕业设计毕设作品开题报告开题答辩PPT
  4. ubuntu借助windows的网络共享上网
  5. pta 03-树1 树的同构 SDUT 3340 数据结构实验之二叉树一:树的同构
  6. NETDMIS5.0位置度评价案例1
  7. Win7 VNC远程连接Centos桌面
  8. 大数据工程师和数据分析师有什么区别
  9. 数据库架构设计——数据库选型
  10. 微信棋牌源码虚拟机搭建Hadoop集群