2020
paper: https://arxiv.org/pdf/2003.08612.pdf

切入点：factual correctness

提出两个模型：

Fact-Aware Summarization model, FASUM：which extracts factual relations from the article to build a knowledge graph and integrates it into the neural decoding process.
a Factual Corrector model, FC：that can modify abstractive summaries generated by any
summarization model to improve factual correctness.

结论：

FASUM can generate summaries with higher factual correctness compared with state-of-the-art abstractive summarization systems.
FC improves the factual correctness of summaries generated by various models via only modifying several entity tokens.

细节参考香侬科技，如下只记录了本文关注的点。

测评指标&结果：

测评数据集：CNN/DailyMail 和 Xsum

FC指标：为了测评factual correctness。FactCC模型在xxx进行fine-tune之后用于评估。可以看到整理结果：
Noval n-grams：Diab论文中提到"less abstractive summaries are more factual consistent with the article"，所以作者想看看是否自己的模型"boost factual correctness simply by copying
more portions of the article"。为此，计算了sum中出现article不存在的n-gram的比例，越高说明抽象程度越高。
Relation Matching Rate RMR：为了测评factual correctness。将对事实的评估转化到从summary中抽取到三元组的准确率。具体来说从生成的sum中抽取出三元组合集Rs=(si,ri,oi)R_s = {(s_i,r_i,o_i)}Rs=(si,ri,oi) ，同样从原始的article中抽出三元组合集RaR_aRa，(si,ri,oi)(s_i,r_i,o_i)(si,ri,oi)和RaR_aRa比较会出现三种情况：Correct hit （CCC）命中、Wrong hit （WWW）、Miss （MMM）就是其他情况。基于此，定义RMR为：
RMR1=100×CC+WRMR_1=100 \times \frac{C}{C+W}RMR1=100×C+WC
RMR2=100×CC+W+MRMR_2=100 \times \frac{C}{C+W+M}RMR2=100×C+W+MC
为了评估RMR指标的质量，文章计算了人评估和RMR指标之间的correlation coefficient γ\gammaγ，计算得到γ=0.43\gamma=0.43γ=0.43，说明了RMR和人工评估结果之前存在可观察的关系。
Natural Language Inference NLI models：为了测评factual correctness。用BERT-large模型在MNLI数据集上进行fine-tune，模型输出三种类型：entailment, neutral and contradiction. 对应到这个任务的度量上，NLI的输入和输出分别是article和sum，通过衡量NLI模型输出的contradiction的比例来衡量争取事实比例，比例越小说明 article和生成摘要的冲突越小。
Human Evaluation：三个人，打分1-3，两个维度 factual correctness和informativeness。效果如下

为了测评FC部分的效果，作者从BottomUP和UNILM生成的sum中随机拿了100条，之后用FC进行correct，对比了corrected前后的效果，类似于业界的GSB吧，效果如下图，说明了FC能boost

[摘要生成]Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph相关推荐

【文本生成】评价指标：事实一致性Evaluating the Factual Consistency of Abstractive Text Summarization
论文:2019年<Evaluating the Factual Consistency of Abstractive Text Summarization> https://arxiv.o ...
相似度系列-7：单维度：Evaluating the Factual Consistency of Abstractive Text Summarization
Evaluating the Factual Consistency of Abstractive Text Summarization 在研究方法上,还需要不是特别的精致,而且,和人类的correl ...
Global Encoding for Abstractive Summarization 生成式文本摘要论文解读
论文解读 https://blog.csdn.net/wu13599hao/article/details/87864788?spm=1001.2014.3001.5501#Global_Encodi ...
TensorFlow文本摘要生成 - 基于注意力的序列到序列模型
1 相关背景维基百科对自动摘要生成的定义是, "使用计算机程序对一段文本进行处理, 生成一段长度被压缩的摘要, 并且这个摘要能保留原始文本的大部分重要信息". 摘要生成算法主要分 ...
知识图谱如何助力文本摘要生成
来源:丁香园大数据本文约3800字,建议阅读8分钟本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言文本生成类任务应用场景广泛, ...
TensorFlow 自动文本摘要生成模型,2016
TensorFlow 自动文本摘要生成模型 textsum: Text summarization with TensorFlow | Google Research Blog (文/ 谷歌大脑软件工 ...
ACL 2021 | SimCLS: 概念简单但足够有效的对比学习摘要生成框架
©PaperWeekly 原创 · 作者 | Maple小七学校 | 北京邮电大学硕士生研究方向 | 自然语言处理作者提出了一个概念简单但足够有效的摘要生成框架:SimCLS,在当前的 SOTA ...
Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting
ACL 2018 Fast Abstractive SUmmarization with Reinforce-Selected Sentence Rewriting github 背景对于文档摘要任 ...
【复盘比赛】SDP 2021@NAACL LongSumm 科学论⽂⻓摘要生成任务第一名
SDP 2021@NAACL LongSumm 科学论⽂⻓摘要生成任务第一名前言任务介绍问题描述数据展示模型尝试抽取模型尝试 DGCNN抽取模型 BertSumm 生成模型尝试 End2 ...

[摘要生成]Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph

测评指标&结果：

[摘要生成]Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph相关推荐

最新文章

热门文章