本系列博文主要介绍了在文本摘要领域神经网络模型的一些发展,主要基于如下几类模型:

  • Basic Encoder-Decoder model
  • Encoder-Decoder + Attention
  • Deep Reinforced model
  • Bert based model
  • GAN based model
  • Consideration

Consideration

EMNLP 2018 《On the Abstractiveness of Neural Document Summarization》

基于Encoder-Decoder的抽象式摘要模型已经可以取得不错的效果,作者在本文中希望通过计算摘要中不同单元(unit)和文档之间的交叠来判断它的抽象性(Abstractivenes)。经过实验发现,许多的抽象式模型生成的摘要的抽象性趋近于抽取式模型的效果,并且作者只使用简单的copy机制也可以得到相对较好的结果。

通过本文作者提出,源文档中的信息对于两种摘要模型的效果都起着重要的作用,若能更好的利用源文档中已有的信息,往往可以生成质量更高的摘要。

为了验证摘要的抽象性,作者在最长公共子序列(longest common subsequence)、n-grams和全句三个层级上计算摘要和源文档的交叠率。

文中所涉及的基准模型有:

  • basic Seq2Seq model
  • pointer-generator system
  • graph-based attention system
  • Distraction system
  • Deep reinforced model

所采用的数据集为CNN/Daily Mail。


从关于交叠率的实验结果中可以看出,pointer-generator模型和Reinforced model的值最大,这是pointer network的原理以及Reinforced model依赖的intra-attention机制所导致的结果。

虽然其他的模型的sentence的交叠率较低,但是从unigram的值可以看出生成的摘要中的词大部分还是来源于源文档。另外虽然graph-based model的值很低,但是它所产生的摘要表述的内容有时和源文档并不一致。

从中可以看出,上述的模型本质上还是严重依赖于直接从源文档中复制部分内容组成结果,摘要的抽象性并不高。

因为使用了pointer-generator model加上直接从注意力分布采样的方式建立一个简单的模型,验证仅从源文档中复制部分词或句子的方式能否得到好的摘要,模型的目标是最大化参考摘要中所包含词的似然函数值。


从ROUGE分数中可以看出,这种简单模型的效果和Lead-3差不多,再引入coverage机制后又可以一定程度的提升模型效果。


而且人工评判在信息量(informativeness,INF)、相关性(relevance,REL)和连贯性(coherence,COH)中的结果可以看出,采用单纯复制的方式得到的摘要并不差于其他的模型。

总结

现在的抽象式模型所生成的摘要本身的抽象性并不高,它们还是很大部分依赖于直接从源文档中复制某些内容,因此如何在保证语法正确、可读性良好和连贯性良好的基础上,提高生成摘要的抽象性,仍然是一个待解决的问题。


ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是文本摘要任务最常用、也最受到认可的指标,它是一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU:

  • ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词)评价摘要的质量。常用的有ROUGE-1,ROUGE-2,ROUGE-3
  • ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。如果生成的摘要和参考摘要的LCS越长,那么认为生成的摘要质量越高,不足之处在于,它要求n-grams一定是连续的
  • ROUGE-SU:该指标综合考虑uni-grams(n = 1)和bi-grams(n = 2),允许bi-grams的第一个字和第二个字之间插入其他词,因此比ROUGE-L更灵活。

ROUGE作为自动评价指标,它和人工评定的相关度较高,在自动评价摘要中能给出有效的参考。但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。但单一的使用ROUGE进行评估摘要的好坏也存在一些问题,ROUGE分数高的摘要可读性不一定好,因此才有了上面的结合强化学习的训练方式。


Baseline Models

Extractive model

Lead-3

SummmaRuNNer:

[Nallapati et al., 2017] Ramesh Nallapati, Feifei Zhai, and Bowen Zhou. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, pages 3075–3081, 2017.

Refresh:

[Narayan et al., 2018] Shashi Narayan, Shay B Cohen, and Mirella Lapata. Ranking Sentences for Extractive Summarization with Reinforcement Learning. arXiv preprint arXiv:1802.08636, 2018.

DeepChannel:

[Shi et al., 2018] Jiaxin Shi, Chen Liang, Lei Hou, Juanzi Li, Zhiyuan Liu, and Hanwang Zhang. DeepChannel: Salience Estimation by Contrastive Learning for Extractive Document Summarization. CoRR, 2018.

rnn-exl+RL:

[Chen and Bansal, 2018] Yen-Chun Chen and Mohit Bansal. Fast abstractive summarization with reinforce-selected sentence rewriting. arXiv preprint arXiv:1805.11080, 2018.

M A S K − L M g l o b a l MASK-LM^{global} MASK−LMglobal:

[Chang et al., 2019] Ming-Wei Chang, Kristina Toutanova, Kenton Lee, and Jacob Devlin. Language Model Pre-training for Hierarchical Document Representations. arXiv preprint arXiv:1901.09128, 2019.

NeuSUM:

[Zhou et al., 2018] Qingyu Zhou, Nan Yang, Furu Wei, Shaohan Huang, Ming Zhou, and Tiejun Zhao. Neural document summarization by jointly learning to score and select sentences. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018, Melbourne, Australia, July 15-20, 2018, Volume 1: Long Papers, pages 654–663, 2018

Abstractive model

PoniterGenerator+Coverage:

[See et al., 2017] Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL, pages 1073–1083, 2017.

ML+RL+intra-attn:

[Paulus et al., 2018] Romain Paulus, Caiming Xiong, Richard Socher, and Palo Alto. A deep reinforced model for abstractive summarization. ICLR, pages 1–13, 2018.

inconsistency loss:

[Hsu et al., 2018] Wan-Ting Hsu, Chieh-Kai Lin, Ming-Ying Lee, Kerui Min, Jing Tang, and Min Sun. A unified model for extractive and abstractive summarization using inconsistency loss. arXiv preprint arXiv:1805.06266, 2018.

Bottom-Up Summarization:

[Gehrmann et al., 2018] Sebastian Gehrmann, Yuntian Deng, and Alexander M Rush. Bottom-up abstractive summarization. arXiv preprint arXiv:1808.10792, 2018.

DCA:

[Celikyilmaz et al., 2018] Asli Celikyilmaz, Antoine Bosselut, Xiaodong He, and Yejin Choi. Deep Communicating Agents for Abstractive Summarization. arXiv preprint arXiv:1803.10357, 2018.


在整个过程中参考了很多网上的资料,由于忘记保存链接,这里就给出参考资料地址了,衷心感谢他人的付出~

Development of Neural Network Models in Text Summarization - 4相关推荐

  1. 论文阅读:A Primer on Neural Network Models for Natural Language Processing(1)

    前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...

  2. Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling论文笔记

    文章目录 摘要 方法 Encoder-Decoder Model with Aligned Inputs Attention-Based RNN Model 实验 论文连接:Attention-Bas ...

  3. 论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition

    论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition 原文地址:https:/ ...

  4. 感染神经网络模型的病毒 AI malware EvilModel: Hiding Malware Inside of Neural Network Models

    感染神经网络模型的病毒 EvilModel: Hiding Malware Inside of Neural Network Models code https://arxiv.org/pdf/210 ...

  5. [论文阅读] 《Compiling ONNX Neural Network Models Using MLIR》

    文章目录 <Compiling ONNX Neural Network Models Using MLIR> 要解决的问题 名字由来 解决方法 <Compiling ONNX Neu ...

  6. 论文阅读笔记|NNLP: A Primer on Neural Network Models for Natural Language Processing - Yoav Goldberg 2015

    书籍简介 本篇综述可看作神经网络模型应用于自然语言处理的启蒙读物.由于时间跨度较大,文中提到的模型比较古早,但此文包含该领域需要掌握的基础概念,且篇幅不长,通俗易懂,有一定价值,适合初学者阅读.以下是 ...

  7. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

    Mask TextSpotter 摘要 Mask TextSpotter利用了端对端学习流程的简单和顺利的优势,通过语义分割获得更准确的文本检测和识别.而且,在处理不规则形状的文本实例中,如弯曲文本, ...

  8. 开山之作:Maass、1997:Networks of Spiking Neurons: The Third Generation of Neural Network Models

    先来一个机翻译文 句子摘要: 这篇文章不假定关于脉冲神经元的先验知识,它包含了大量的参考文献,这些文献涉及到脉冲神经元网络中的计算和神经生物学的相关结果. 第一代是基于McCulloch-Pitts神 ...

  9. (zhuan) Recurrent Neural Network

    Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...

最新文章

  1. Ubuntu网卡地址配置、设置 DNS和主机名
  2. Python每日一练0004
  3. 如何在ADF中将参数传递给ActionListener
  4. MyBatis的初始化方式
  5. wamp下更改mysql密码
  6. php计算百分比加成_百分比计算器
  7. 利用dex2jar反编译apk
  8. sqlServer2005升级到sqlServer2008R2
  9. ADS仿真过孔阻抗(via designer)
  10. 简析主存数据库系统MMDB
  11. 二叉搜索树插入算法C#演示的代码
  12. 【图像算法朝圣之路二】虹膜识别1(K-means算法)
  13. ❤️字节跳动8年测试经验,彻夜无眠整理的40道自动化测试面试题(附精准答案),爆肝2W字❤️
  14. 看刘未鹏先生的博客的一些摘记
  15. Web2.0的系统架构与六大关键问题
  16. 《期权、期货及其他衍生产品》读书笔记(第三章:利用期货的对冲策略)
  17. 最实用的自用同花顺主力资金暴发进出公式
  18. 使用VBA实现数据统计
  19. window10 彻底关闭自动更新
  20. Arcgis中碎小斑块的处理

热门文章

  1. 有史以来最狂妄的演讲——Oracle CEO埃里森
  2. 初学汇编,另附汇编写1~100求和
  3. 江工网:公务员辞职后几年禁考
  4. 电脑重置网络 解决网络异常问题
  5. 快手短视频去水印API接口源码
  6. Python学习日记(十一) 内置函数
  7. 老王的JAVA基础课:第4课 以hello world学习基础语法
  8. Linux驱动学习--HDMI开发(二)HDMI驱动源码分析(RK平台)
  9. 对路径“xxx”的访问被拒绝
  10. Linux随笔(2)