每天给你送来NLP技术干货!


来自:NLP工作站

作者:刘聪NLP

写在前面

今天给大家带来一篇通过语义匹配进行抽取式摘要的论文「MatchSum」,发表于ACL2020,全名《Extractive Summarization as Text Matching》。

paper:https://arxiv.org/pdf/2004.08795.pdf
github:https://github.com/maszhongming/MatchSum

介绍

目前大多数抽取式摘要,大多对原始文档中的句子进行表征,并构建句子间的关系模型,最终选择分数较高的多个句子组成摘要;但是这往往会导致模型更倾向于选择高度概括的句子,而忽略了多个句子之间的耦合。该论文讨论了句子级(Sentence-level)和摘要级(Summary-Level)方法的优势和局限性,其中,句子级方法就是一句一句地进行抽取;摘要级方法就是对若干句进行抽取。并提出了一个新的摘要级框架MatchSum,将抽取式摘要定义为一个语义文本匹配问题,即一个好的摘要应该比不合格的摘要在语义上更类似于原始文档。

句子级和摘要级方法比较

定义一个文档,包含个句子;侯选摘要为,其中,;金标准摘要为;对于和的句子级分数为:

402 Payment Required

其中,为侯选摘要中的句子,为侯选摘要的句子个数,为侯选摘要句子与金标准摘要之间ROUGE分数。摘要级分数为:

其中,是将侯选摘要中所有句子作为一个整体,然后与金标准摘要计算ROUGE分数。

通常认为,最佳摘要(Best-Summary )是指所有候选摘要中摘要级得分最高的摘要。但在真实情况下,往往会出现句子级分数较低但摘要级分数较高的摘要,称之为珍珠摘要(Pearl-Summary)。也就是,存在一个侯选摘要,并且。显然,当一个候选摘要为珍珠摘要时,那么句子级方法就很难提取它。

为了确认珍珠摘要在真实数据集中是否会出现,在6种数据集上进行比较,数据集详情如下表所示,对于每个文档,将所有候选摘要按照句子级分数降序排序,并定义为最佳摘要的排名索引;也就是,如果,意味着最佳摘要是由得分最高的句子组成的;如果是,那么最佳摘要就是珍珠摘要。通过下图可以看出,对于所有的数据集,大多数最佳摘要都不是由得分最高的句子组成的,这说明句子级方法很容易陷入局部优化,错过了更好的候选摘要。并且从下图中我们可以看出,摘要级方法的性能增益随着数据集的不同而不同。

模型结构

为了解决上述问题,该论文提出了一个摘要级框架,可以直接对摘要进行评分和提取,即,将抽取式摘要任务转换为一个语义文本匹配问题,对原始文档和候选摘要(从原始文本中提取)进行语义空间中匹配,找到摘要级的最佳摘要。

Siamese-BERT

构建一个基于BERT模型的暹罗网络,如下图所示,计算原始文档与侯选摘要之间的语义相似度得分,即将原始文档输入到BERT-D模型中,取其[CLS]向量作为文档向量;将侯选摘要输入到BERT-C模型中,取其[CLS]向量作为摘要向量,其中BERT-D与BERT-C参数共享;最后利于余弦相似度计算文档向量与摘要向量之间距离,作为最终得分。在训练过程中,采用triplet loss更新权重,其中,(1)金标准摘要与原始文档的距离小于侯选摘要与原始文档的距离;

402 Payment Required

(2)对侯选摘要按照ROUGE分数降序排列,排名差距较大的候选摘要对之间的距离也应该较大。

其中,是边际值,是一个超参数,用于区分候选摘要的好坏。最终损失如下:

在推理阶段,从文档D中抽取所有候选摘要C中寻找最佳的摘要。

Candidates Pruning

如果将所有的句子直接排列组合,虽然比较简单,但是存在组合爆炸问题;那么如何确定候选摘要集的大小至关重要。该论文引入内容选择模块对原始文档进行裁剪。该模块为每个句子的重要性进行评分,并删除与当前文档无关的句子,获取删减文档

402 Payment Required

。其中,内容选择模块最终使用不包含trigram blocking策略的BertSum模型。最后对删减文档中所有的句子直接排列组合。

实验结果

针对6种摘要数据集进行实验,内容选择模块规格以及句子排列组合规格如下表所示,从下表中可以发现,在6种数据集上,MatchSum均取得了sota的效果。MatchSum模型可以灵活地选择任意数量的句子组成侯选摘要,而其他大多数方法只能提取固定数量的句子。虽然Trigram Blocking策略是一种简单而有效的冗余去除方法,但仅限于CNN/DM数据集。

总结

该篇论文将抽取式摘要任务转化为一个语义匹配任务的思路,主要是解决了抽取式摘要中信息冗余的问题,相较于BertSum方法中的Trigram Blocking策略,MatchSum方法灵活性以及泛化性更好。但是也额外增加了很大的计算成本,虽然采用暹罗网络可以避免重复计算原始文档的表征,但是侯选摘要集的表征依然耗费大量的时间成本,在工业落地时会成为一个隐患。

那么是否,可以在不重复表征的情况下,利用语义匹配任务的思路解决该问题,值得思考。

放假ing,但是也要学习。


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

MatchSum - 一种基于语义匹配的抽取式摘要框架相关推荐

  1. 论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

    笔记整理 | 李爽,天津大学 链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...

  2. 开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式生成式)

    开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式) 一.第四代开放信息抽取系统背景 第四代开放信息抽取系统的 ...

  3. sota结果是什么意思_文本摘要新框架,抽取式摘要“轻松”取得SOTA

    分享我们在ACL2020上一篇文本摘要的工作: 论文:Extractive Summarization as Text Matching 链接:https://arxiv.org/pdf/2004.0 ...

  4. 一种基于模板匹配的图像配准方法

    01 前言 如下图所示,有时候参考图像与浮动图像的灰度区别很大,但是它们又有某一个小区域比较相似,这种情况下直接通过特征点匹配或形变优化来配准的效果并不理想. 这个时候我们可以尝试使用模板匹配的方法来 ...

  5. 基于语义关联的中文查询纠错框架

    https://www.toutiao.com/a6682651993183355395/ 搜索引擎中, 一个好的纠错系统能够将用户输入查询词进行纠错提示, 或者将正确结果直接展示给用户,提高了搜索引 ...

  6. 一种基于LSTM的多功能序列预测框架设计

    背景及需求分析 风电和光伏发电功率具有较强的随机性和波动性,大规模新能源并网运行给电网调度部门的调峰调频工作带来了新的挑战.通过预测,新能源出力将从未知变为基本已知,调度运行人员可根据预测的波动情况, ...

  7. 一种基于注意力的Few-Shot目标检测统一框架(附论文下载)

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2201.02052.p ...

  8. BiliBili video(ppt 截图)【文本摘要】抽取式摘要最新进展 复旦大学ACL2020(Extractive Summarization)(思路太棒了 需要学习)

  9. 大规模环境下基于语义直方图的多机器人实时全局定位图匹配

    文章:Semantic Histogram Based Graph Matching for Real-Time Multi-Robot Global Localization in Large Sc ...

  10. 【Python】基于文本匹配的微信自动问答

    [Python]基于文本匹配的微信自动问答 摘要 一.引言 二.相关工作 三.方法描述 1.数据预处理 2.特征提取 3.文本匹配 四.代码部分 五.实验结果 六.总结 摘要   本文针对传统的基于规 ...

最新文章

  1. 操作无法完成后台打印程序无法运行
  2. Sentinel 1.5.0 正式发布,引入 Reactive 支持
  3. How can I pretty-print JSON in python?
  4. hdu-2209 dfs
  5. 深入了解Mybatis架构设计
  6. android 一个activity定时更新另一个activity的UI
  7. jmeter执行python脚本,Jmeter+Python-1问题记录jmeter执行Python3的脚本时报 ValueErro
  8. ssm使用全注解实现增删改查案例——EmpServiceImpl
  9. 8.Java web—JSP基本语法
  10. 一招教你查看Mac本机WiFi密码
  11. MySQL优化十大技巧
  12. rf2o_laser_odometry和robot_localization
  13. ArcGIS技巧】下载偏移影像后纠偏操作
  14. MTK Android 之MT6577驱动笔记
  15. 罗米欧与朱丽叶(徐志摩)
  16. mysql .frm文件丢失_MySQL frm ibd 文件丢失的恢复
  17. Interactive natural language question answering over knowledge graphs论文导读
  18. 生猪出售 matlab,数学建模论文-肥猪最佳销售时机问题.doc
  19. 文档在线化管理系统Confluce使用
  20. WIFI配网方案:1、蓝牙配网 2、WIFI自身配网 3、SmartConfig一键配网

热门文章

  1. LINUX-iostat命令讲解
  2. 程序4-1 对每个命令行参数打印文件类型
  3. 利用Word2010在博客园发布文章入门
  4. jquery操作下拉框(select)的一些说明
  5. VS2008引用webservice的奇怪BUG解决方案
  6. 20190905 Lombok常用注解
  7. influxdb 配置
  8. paroot忘记root密码
  9. Spring学习笔记3——使用注解的方式完成注入对象中的效果
  10. Part2-HttpClient官方教程-Chapter5-流利的API