中文标题:注意事实:基于知识增强的连贯性生成式文本摘要

论文链接:https://arxiv.org/pdf/2006.15435.pdf

发表:NeurIPS 2019

组织:斯坦福

Abstract

目前的生成式摘要存在两个问题:(1)生成的摘要与文章事实或常识不相符;(2)当源文章较长时,无法产生连贯的摘要。本文提出了基于Transformer模型的改进以解决上述问题,具体做法为:(1)将wikidata知识图谱中实体级别的信息吸收进模型之中,让模型更加注重事实;(2)使用Transformer-XL,使模型能够生成连贯的摘要。

1. Method

1.1 Transformer vs Transformer-XL

Transformer存在以下问题:

(1)Transformer上下文的处理长度是固定的,对于长句子来说表现比较差;

(2)由于固定的上下文处理长度,使Transformer无法根据句子边界来划分句子,导致生成的文本碎片化。

Transformer-XL对上述两个问题进行了改进:

(1)首先是提出了片段递归的方式,通过拼接当前段和前一个段使模型能够重新利用上个段的隐藏状态(将上一个片段缓存起来,留给下一个片段使用)。由于每次当前段都使用了上一片段的信息,使模型能够建模更长期的依赖。下面为Transformer-XL原论文的示例图:

(2)Transformer-XL使用相对位置编码代替绝对位置编码。对于传统的考虑绝对位置编码的Transformer的Attention计算公式如下:

其中E和U分别为词嵌入和绝对位置编码,将其展开得到如下公式:

而Transformer-XL对上式进行了改写:

改写的公式有三个变化:

(a)W_{k}被拆分为W_{k,E}W_{k,R},即词嵌入和位置编码不再共享权重矩阵;

(b)将绝对位置编码U改为相对位置编码R;

什么意思(c)引入了两个可学习参数u和v,代表对于所有query位置对应的query向量是相同的,即无论query位置如何,对不同词的注意偏差保持一直(个人并不理解这里是什么意思)。

总结:Transformer-XL能够建模更长的序列依赖关系,这对于摘要任务有很大提升,且Transformer-XL提前缓存前一段的隐藏状态,属于用空间换时间,效率上有巨大的提升。

1.2 Wikidata Knowledge Graph Entity Embeddings

Wikidata是一个免费开放的多关系知识图,存储了Wikipedia在内的许多平台的结构化数据。作者采样了其中500万个实体和2500万个关系三元组,通过TransE完成实体的表示。

TransE:可在低维实体嵌入空间中表示事实三元组之间的关系。具体来说,就是最小化实体和关系之间的基于边距的ranking criterion,这个度量使用L2范数作为相异性度量d,如下式所示:

其中S是关系三元组(h,l,t)的集合,h和t是实体集E里的元素,l是关系集L里的元素。[x]_{+}表示的是x中数值为正的部分,\lambda >0是一个边缘超参数。

通过用随机实体替换关系三元组的头或尾来构造损坏的关系三元组,从而形成负例集合,如以下公式所示:

低维实体和关系嵌入是通过随机梯度下降进行优化的,约束条件是实体嵌入的 L2 范数为1(在单位球面上),这对于获得有意义的嵌入很重要。

1.3 Model Architecture

整体模型结构如下图所示:

作者将Transformer结构进行了扩展,编码器端添加了一条单独的实体通道,与token通道并行,随后将两个通道的attention进行交叉。解码器端进行了同样的修改,添加了一条单独的masked实体通道和masked token通道并行,然后进行交叉。作者还加入了基于Transformer-XL的多头token注意力层,最后是线性层和softmax层得到输出。

实体链接器模块使用现成的实体提取器,并为提取的实体与 Wikidata 知识图消除歧义。被提取出来的实体首先用预训练Wikidata知识图谱的实体嵌入进行初始化,然后通过TransE进行学习。

实体转换学习器模块使用一系列用ReLU作为激活函数的前馈层。 这些模块学习到的实体与所对应的文本中的词位于同一子空间中。

2. Experiment

3. Conclusion

本文使用Transformer-XL解决传统Transformer建模长距离依赖时的问题,可以有效解决摘要任务在源文本很长时无法产生连贯摘要的问题。其次作者将wikidata知识图谱中实体级别的信息吸收进模型,解决生成的摘要与文章事实或人类常识不符的问题。

Mind The Facts: Knowledge-Boosted Coherent Abstractive Text Summarization相关推荐

  1. 【文本生成】评价指标:事实一致性Evaluating the Factual Consistency of Abstractive Text Summarization

    论文:2019年<Evaluating the Factual Consistency of Abstractive Text Summarization> https://arxiv.o ...

  2. 相似度系列-7:单维度:Evaluating the Factual Consistency of Abstractive Text Summarization

    Evaluating the Factual Consistency of Abstractive Text Summarization 在研究方法上,还需要不是特别的精致,而且,和人类的correl ...

  3. 主题论文总结1:structured text summarization(持续更新ing...)

    诸神缄默不语-个人CSDN博文目录 最近更新时间:2022.6.4 最早更新时间:2022.5.16 文章目录 1. 对structured text summarization这一概念的定义 2. ...

  4. SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记

    SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记 1. Motiva ...

  5. 【读】seq2seq—(4)LCSTS: A Large Scale Chinese Short Text Summarization Dataset

    本文转载自: 自动文摘(九) 目录 Abstract Introduction Data Collection Data Properties Experiment Conclusion and Fu ...

  6. 【论文阅读ACL2020】Leveraging Graph to Improve Abstractive Multi-Document Summarization

    题目:Leveraging Graph to Improve Abstractive Multi-Document Summarization (基于图表示的生成式多文档摘要方法 ) 会议:ACL20 ...

  7. pythontext函数用法汇总_Python - Text Summarization

    Python - Text Summarization 文本摘要涉及从大量文本生成摘要,该摘要在某种程度上描述了大量文本的上下文. 在下面的例子中,我们使用模块genism及其汇总函数来实现这一点. ...

  8. (八十四):A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining

    (八十四):A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining Abs ...

  9. Question Answering Text Summarization Datasets汇总

    Question Answering Text Summarization Datasets 目前对于自动文本摘要这一块,研究多数采用的是news articles的数据:DUC, Gigaword, ...

最新文章

  1. 如何快速实现HTML编辑器.NET组件
  2. R语言Affinity Propagation+AP聚类实战
  3. ios textview间距_iOS 设置TextView控件内容行间距
  4. HP DV3 笔记本 重装系统
  5. 应用:文件夹copy器(多进程版)
  6. C语言线性表realloc增加空间,数据结构C语言实现系列——线性表
  7. linux关闭firefox进程,Firefox 68+ 怎样关闭多进程
  8. git commit --amend 简单使用
  9. 好玩的Java塔防游戏,根本停不下来!五款经典又好玩的塔防游戏推荐
  10. Weclome to Thm-V九维空间
  11. QTest 命名空间
  12. swiper 轮播 多行多列 横向排列
  13. 游侠的基础技术总结——前言
  14. 使用wireshark抓取ICMP流量包并分析ICMP协议
  15. Depthwise卷积与Pointwise卷积
  16. 华为存储OceanStor 5110V5 CA证书即将过期告警处理
  17. HDOJ 2080 数学
  18. JNI 传递和返回基本参数
  19. 考研英语 长难句训练day68
  20. 樊登小读者,不做“带娃工具”的产品,只为亲子共同成长负责

热门文章

  1. 华为OD笔试 磁盘容量排序
  2. H5页面 解决移动端输入框键盘弹起背景图
  3. 对于目标文件系统,文件过大
  4. Linux用户类型简述
  5. 基于51单片机多功能智能台灯设计 视力灯 坐姿矫正套件 台灯 人体感应 包括实物+电路原理图+程序+proteus仿真
  6. c语言python学习笔记本,【答疑】python编程需要怎样的电脑配置啊? - 视频教程线上学...
  7. 关于亚马逊MWS API 看这一篇就够了
  8. flutter 阿里云上传文件
  9. Unity 高通AR
  10. 查看 / 修改本地 Git 用户名和邮箱地址