【文本生成】评价指标：事实一致性Evaluating the Factual Consistency of Abstractive Text Summarization

2024-03-30 21:06:45

论文：2019年《Evaluating the Factual Consistency of Abstractive Text Summarization》
https://arxiv.org/pdf/1910.12840.pdf

motivation

经研究高达30%的摘要是和原文事实不符的，到目前为止也没有非常好的办法去解决摘要与原文的事实一致性。

introduction

与事实一致的问题与两个问题最为接近：一个是natural language inference（NLI），一个是fact checking。

当前的NLI数据集一般都是短的单句匹配，事实一致性却是要与全文去匹配。

fact checking是事实与知识匹配，而事实一致性是原文提供的信息和原文作匹配，并不保证信息是否一致。

methods

本文用了一种弱监督的方法构造训练集，通过构造的sentence-document pair，可以判断是否与事实一致。

训练集由采样原文句子获得。

paraphrasing

采用回译方法，用Google Cloud Translation API，默认语义不变。
entity and number swapping

用NER识别后，随机替换。比如人名就替换成识别到的其他人名。用的是SpaCy NER tagger，默认语义发生改变。
pronoun swapping

先找出与性别有关的代词，再去另一个性别找对应的词。默认语义发生改变。
否认

直接加入否定词not或n’t。语义发生改变。
噪声

随机插入或删除某些词，增加鲁棒性。

测试集和验证集由人工标注。句子来源于摘要模型，摘要的每一句都和原文构成document-sentence pair。

模型使用BERT，分成两个类别 CONSISTENT 和 INCONSISTENT，使用 CLS 向量去做分类，这个模型叫 FactCC。同时做了个类似NER的模型，叫 FactCCX，标注出哪里与事实不符。

Result

FactCCX：

结论

简单，可操作性很强，用中文的语料也可以做。

【文本生成】评价指标：事实一致性Evaluating the Factual Consistency of Abstractive Text Summarization相关推荐

相似度系列-7：单维度：Evaluating the Factual Consistency of Abstractive Text Summarization
Evaluating the Factual Consistency of Abstractive Text Summarization 在研究方法上,还需要不是特别的精致,而且,和人类的correl ...
文本生成评价指标串串烧
1. 前言语言与图像,作为当前AI领域的两大热门方向,吸引了无数研究人员的目光.相比于图像,语言有简单易得,数据易于收取,存储空间低等优点,不过,由于语言本身的特性,他还有时序复杂,句式多变等缺 ...
【NLG】(六)文本生成评价指标—— ROUGE原理及代码示例
前奏: [NLG](一)文本生成评价指标--BLEU原理及代码示例 [NLG](二)文本生成评价指标-- METEOR原理及代码示例 [NLG](三)文本生成评价指标-- ENTROPY原理及代码示例 ...
【NLG】(二)文本生成评价指标—— METEOR原理及代码示例
前奏: [NLG](一)文本生成评价指标--BLEU原理及代码示例 1.METEOR原理 2004年,卡内基梅隆大学的Lavir提出评价指标中召回率的意义,基于此研究,Banerjee和Lavie(B ...
肝了1W字！文本生成评价指标的进化与推翻
一只小狐狸带你解锁炼丹术&NLP 秘籍作者:林镇坤(中山大学研一,对文本生成和猫感兴趣) 前言文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量.一个好的评价指标(或者设置合 ...
最全面的文本生成评价指标大盘点
点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:NLP情报局文本生成是自然语言处理最基础的任务之一,应用广泛,包括闲聊.写诗.作曲.讲故事等等,如图是清华大学"九歌"机 ...
文本生成评价指标-A Survey
文本生成是自然语言处理最基础的任务之一,应用广泛,包括闲聊.写诗.作曲.讲故事等等,如图是清华大学"九歌"机器人生成的五言绝句. 本文聚焦于文本生成的评价方式,通过综述论文解读,介 ...
文本生成客观评价指标总结（附Pytorch代码实现）
前言:最近在做文本生成的工作,调研发现针对不同的文本生成场景(机器翻译.对话生成.图像描述.data-to-text 等),客观评价指标也不尽相同.虽然网络上已经有很多关于文本生成评价指标的文章,本博 ...
让AI用事实说话，千言第二届面向事实一致性的生成评测比赛启动
火遍全网的ChatGPT让人惊叹全球热点技术AIGC(AI Generated Content,人工智能内容生成)的迅速发展,它似乎能够理解和产生复杂的想法,可以回复各种问题,进行有逻辑的对话,可以创 ...

最新文章

热门文章