论文:2019年《Evaluating the Factual Consistency of Abstractive Text Summarization》
https://arxiv.org/pdf/1910.12840.pdf

motivation

经研究高达30%的摘要是和原文事实不符的,到目前为止也没有非常好的办法去解决摘要与原文的事实一致性。

introduction

与事实一致的问题与两个问题最为接近:一个是natural language inference(NLI),一个是fact checking。

当前的NLI数据集一般都是短的单句匹配,事实一致性却是要与全文去匹配。

fact checking是事实与知识匹配,而事实一致性是原文提供的信息和原文作匹配,并不保证信息是否一致。

methods

本文用了一种弱监督的方法构造训练集,通过构造的sentence-document pair,可以判断是否与事实一致。

训练集由采样原文句子获得。

  • paraphrasing

    采用回译方法,用Google Cloud Translation API,默认语义不变。

  • entity and number swapping

    用NER识别后,随机替换。比如人名就替换成识别到的其他人名。用的是SpaCy NER tagger,默认语义发生改变。

  • pronoun swapping

    先找出与性别有关的代词,再去另一个性别找对应的词。默认语义发生改变。

  • 否认

    直接加入否定词not或n’t。语义发生改变。

  • 噪声

    随机插入或删除某些词,增加鲁棒性。

测试集和验证集由人工标注。句子来源于摘要模型,摘要的每一句都和原文构成document-sentence pair。

模型使用BERT,分成两个类别 CONSISTENT 和 INCONSISTENT,使用 CLS 向量去做分类,这个模型叫 FactCC。同时做了个类似NER的模型,叫 FactCCX,标注出哪里与事实不符。

Result

FactCCX:

结论

简单,可操作性很强,用中文的语料也可以做。

【文本生成】评价指标:事实一致性Evaluating the Factual Consistency of Abstractive Text Summarization相关推荐

  1. 相似度系列-7:单维度:Evaluating the Factual Consistency of Abstractive Text Summarization

    Evaluating the Factual Consistency of Abstractive Text Summarization 在研究方法上,还需要不是特别的精致,而且,和人类的correl ...

  2. 文本生成评价指标串串烧

    1. 前言 ​ 语言与图像,作为当前AI领域的两大热门方向,吸引了无数研究人员的目光.相比于图像,语言有简单易得,数据易于收取,存储空间低等优点,不过,由于语言本身的特性,他还有时序复杂,句式多变等缺 ...

  3. 【NLG】(六)文本生成评价指标—— ROUGE原理及代码示例

    前奏: [NLG](一)文本生成评价指标--BLEU原理及代码示例 [NLG](二)文本生成评价指标-- METEOR原理及代码示例 [NLG](三)文本生成评价指标-- ENTROPY原理及代码示例 ...

  4. 【NLG】(二)文本生成评价指标—— METEOR原理及代码示例

    前奏: [NLG](一)文本生成评价指标--BLEU原理及代码示例 1.METEOR原理 2004年,卡内基梅隆大学的Lavir提出评价指标中召回率的意义,基于此研究,Banerjee和Lavie(B ...

  5. 肝了1W字!文本生成评价指标的进化与推翻

    一只小狐狸带你解锁 炼丹术&NLP 秘籍 作者:林镇坤(中山大学研一,对文本生成和猫感兴趣) 前言 文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量.一个好的评价指标(或者设置合 ...

  6. 最全面的文本生成评价指标大盘点

    点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:NLP情报局 文本生成是自然语言处理最基础的任务之一,应用广泛,包括闲聊.写诗.作曲.讲故事等等,如图是清华大学"九歌"机 ...

  7. 文本生成评价指标-A Survey

    文本生成是自然语言处理最基础的任务之一,应用广泛,包括闲聊.写诗.作曲.讲故事等等,如图是清华大学"九歌"机器人生成的五言绝句. 本文聚焦于文本生成的评价方式,通过综述论文解读,介 ...

  8. 文本生成客观评价指标总结(附Pytorch代码实现)

    前言:最近在做文本生成的工作,调研发现针对不同的文本生成场景(机器翻译.对话生成.图像描述.data-to-text 等),客观评价指标也不尽相同.虽然网络上已经有很多关于文本生成评价指标的文章,本博 ...

  9. 让AI用事实说话,千言第二届面向事实一致性的生成评测比赛启动

    火遍全网的ChatGPT让人惊叹全球热点技术AIGC(AI Generated Content,人工智能内容生成)的迅速发展,它似乎能够理解和产生复杂的想法,可以回复各种问题,进行有逻辑的对话,可以创 ...

最新文章

  1. 系统设计与架构笔记:ETL工具开发和设计的建议
  2. R语言ggplot2可视化:ggplot2可视化水平堆叠条形图、并且在每个堆叠条形图的内部居中添加百分比文本标签信息
  3. 加密货币交易APP Robinhood增加了对以太坊经典的支持
  4. Atitit. 数据库-----catalog与schema的设计区别以及在实际中使用 获取数据库所有库表 java jdbc php  c#.Net...
  5. python自学书籍推荐豆瓣-【转】如果有人让你推荐Python技术书,请让他看这个列表...
  6. Patrol 7 架构下?的处理方法
  7. python 操作符 vs java 操作符
  8. 2020 年开源项目
  9. “我爱淘”冲刺阶段Scrum站立会议3
  10. ubuntu 中安装 Redis
  11. XPS查看器(XPS Viewer)适用Win10系统安装说明
  12. 黑马JAVA P177 定时器
  13. 本地计算机无法启动ansys,Ansys帮助文件无法打开的解决方法 | 坐倚北风
  14. 显存(Video Memory)
  15. 什么是OsmocomBB
  16. OSPF学习小结与实验
  17. HTTP 2.0 中文版
  18. 调用命令强制关闭windows进程
  19. 美丽的汤 xlsx格式 csv 格式
  20. mysql 修改密码

热门文章

  1. 如何理解广义线性回归分析Logistic输出的OR值?
  2. 如何修改HBulider X注释字体的颜色
  3. Zhong__xlrd基本使用
  4. 使用IBM InfoSphere Guardium监视和审计IBM DB2 for i数据库活动
  5. 真心话大冒险,一款小程序让你看清你朋友的内心
  6. 教你怎么去辨别电脑配置的好或坏
  7. 常用二极管,三极管参数
  8. java 自己实现 解析处理user-agent 获取设备信息 ip-ua转化归因
  9. [书目20131223]Android、iPhone、Windows Phone手机网页及网站设计:最佳实践与设计精粹 - 张亚飞...
  10. 软件工程(三)——结构化需求分析 (重点)