文章目录

  • ROUGE: A Package for Automatic Evaluation of Summaries
    • introduction
    • 基础模型
      • Rouge-N
      • Rouge_Nmulti
      • ROUGE-L: Longest Common Subs equence
        • 1**Sentence-level LCS**
        • 2**Summary-Level LCS**
      • ROUGE-W: Weighted Longest Common Subsequence
      • ROUGE-S: Skip-Bigram Co-Occurrence Statistics
        • ROUGE-SU: Extension of ROUGE-S
    • 结论
    • 总结

ROUGE: A Package for Automatic Evaluation of Summaries

上一篇中的BLEU是用于文本翻译任务的,主要基于n-grams的方法,评测是以准确率为主要的指标。
这篇是面向文本摘要任务,基于同义词、词序的overlap方法,评测以recall为主。

introduction

首先先介绍了summary关注的的几个方面:连贯性、简洁性、语法性、可读性和内容(Mani,2001)。
conherence/conciseness/grammatically/readaility/content.
在以往的方法中,提到了基于content的方法,包括cos相似度、unit overlap、longest common subsequence.
However they did not show how the result of these automatic evaluation methods correlated to human judgements.

基础模型

Rouge-N

Rouge_Nmulti

当multiple references被使用时,计算每个reference和candidate之间的Rouge 分值,然后取最大值作为最终这一candidate的分值。
在计算最终的Rouge_N的分值时,采用所有的candidate的平均值作为最终值。

ROUGE-L: Longest Common Subs equence

1Sentence-level LCS

LCS :longest common sequence.
基于LCS的评测,是计算precision、recall、f1分值。
两个summary之间的相似值。
summary X:length=m
summary Y:length=n
对应的P、R和F分值计算为:

ß = Plcs/Rlcs

The disadvantages that it only counts the main in-sequence words; therefore the other alternative LCSes and the shortest sequences are not reflected in the final score.

2Summary-Level LCS

当candidate summary中有n个sentences时,计算这n个sentence和一个summery sentence的longest sequence score


ROUGE-W: Weighted Longest Common Subsequence

β=Plcs/Rlcs

ROUGE-S: Skip-Bigram Co-Occurrence Statistics

police killed the gunman 对应的skip bi-grams有
(“police killed”, “police the”, “police gunman”,
“killed the”, “killed gunman”, “the gunman”)
在计算时,采用计算方法:
C(m,2)是所有全排的数量。
X reference,Y candidate

匹配和词序有一定的关联性。

可能会存在虚假匹配,比如,the the、of in 这种,文中提出的解决方式,限制skip distance的最大距离。

ROUGE-SU: Extension of ROUGE-S

当两个句子的词的顺序完全相反时,Rouge_S 的计算分值是0,但是这不太合理,提出了Rouge_SU。它是在Rouge_S的基础上加上了unigram作为计算单元????
We can also obtain ROUGE-SU from ROUGE-S by adding a begin-of-sentence marker at the beginning of candidate and reference sentences

在评估这个metric方法好坏时,采用的皮尔逊相关性。评价和人类评级分值的相关性。

结论

变量条件:
single summary
multi-document summary
short summary
exclusion of stopwords
multiple references

(1) ROUGE-2, ROUGE-L, ROUGE-W, and
ROUGE-S worked well in single document summarization tasks,
(2) ROUGE-1, ROUGE-L, ROUGE-W, ROUGE-SU4, and ROUGE-SU9 performed great in evaluating very short summaries (or headline-like
summaries)
(3) correlation of high 90% was hard to
achieve for multi-document summarization tasks but ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4, and ROUGE-SU9 worked reasonably well when stopwords were excluded from matching,
(4) exclusion of stopwords usually improved correlation, and
(5) correlations to human judgments were increased by using multiple references.

总结

这两篇文章都是先从“指标项”开始的,比如translation更关注什么指标?summary关注什么指标?一致性、流畅性等等。
上一篇是bi-grams
这一篇是:P/R/F,longest common sequence
有一个核心假设,比如,相同的公共子序列越长,则效果越佳。

相似度系列-3:传统方法ROUGE ROUGE: A Package for Automatic Evaluation of Summaries相关推荐

  1. ROUGE: A Package for Automatic Evaluation of Summaries

    ROUGE: A Package for Automatic Evaluation of Summaries 原文地址 时间:2004 Intro ROUGE的衡量方向是candidate相对refe ...

  2. 相似度系列9: unify USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation

    USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation 模型特点:multiple model ...

  3. 华为如何走出数据沼泽丨中国数度系列报道之一

    华为如何走出数据沼泽丨中国数度系列报道之一 2021-03-03 16:04 经济观察网记者 陈白/文20年前,当人类历史上最大的探天工程斯隆数字天空勘测开始的时候,它在新墨西哥的天文望远镜最初几周采 ...

  4. 软件测试颗粒度,测试用例之度——系列之颗粒度(上)

    测试用例颗粒度粗.细的特点是什么? 用例设计分析: 粗颗粒度面向宏观,面向正向的功能点.大的功能模块和整体性,体现测试用例的设计思路:细颗粒度面向微观,面对具体的一个个功能点的正向/负向逻辑,体现测试 ...

  5. 相似度系列-7:单维度:Evaluating the Factual Consistency of Abstractive Text Summarization

    Evaluating the Factual Consistency of Abstractive Text Summarization 在研究方法上,还需要不是特别的精致,而且,和人类的correl ...

  6. 相似度系列-6:单维度方法:Evaluating Coherence in Dialogue Systems using Entailment

    Evaluating Coherence in Dialogue Systems using Entailment coherence 英文中意味着连贯性.条理性. 这篇文章是面向对话应用的,更加关注 ...

  7. 机器翻译, 文本生成等任务评价指标 BLEU, ROUGE, PPL(困惑度)

    一:BLEU  1.1  BLEU 的全称是 Bilingual evaluation understudy,BLEU 的分数取值范围是 0-1,分数越接近1,说明翻译的质量越高.BLEU 主要是基于 ...

  8. ROUGE 简易安装教程

    ROUGE 简介 ROUGE 是一个系列的文本摘要评测指标,可用于评估机器摘要和人工摘要之间的相似度,主要包括以下具体指标: ROUGE-N:表示 N 元模型 (N-gram) 的匹配程度 ROUGE ...

  9. 【NLG】(六)文本生成评价指标—— ROUGE原理及代码示例

    前奏: [NLG](一)文本生成评价指标--BLEU原理及代码示例 [NLG](二)文本生成评价指标-- METEOR原理及代码示例 [NLG](三)文本生成评价指标-- ENTROPY原理及代码示例 ...

最新文章

  1. Facebook发布Detectron2,下一个万星目标检测新框架
  2. 【工作感悟】全网最经典26道Spring面试题总结
  3. Visual Paradigm 教程[UML]:如何在UML中绘制活动图?
  4. centos8 用u盘安装失败_CentOS 8 安装图解
  5. Delphi XE8 iOS与Android移动应用开发(APP开发)[完整中文版]
  6. Excel 通过 CONCATENATE 函数生成SQL
  7. 刚刚!2022年ABC中国大学排行榜发布
  8. Laravel5.6 模块化公众号与小程序系统(Laravel中学篇)
  9. 一般描绘性形容词_描绘性形容词和限制性形容词
  10. 简单实现Rectrofit+RXJAVA+Fresco
  11. linux学习工具:工欲善其事必先利其器(2)
  12. 语音转换成文本 技术实现_职业转换者指南,帮助您实现梦想的技术工作
  13. macOS Big Sur 11.2.3 (20D91) 虚拟机 ISO 镜像
  14. 【R语言】常用基本函数
  15. Learning AV Foundation(三)AVAudioRecorder
  16. 微软计算机电源怎么接,这个长得像电源插头的东西,真的是微软最新研发的迷你电脑?!...
  17. LearningSpark(5):Spark共享变量理解
  18. 流感传染(C程序设计进阶第2周)
  19. uniapp在线预览pdf文件
  20. 36家互联网大厂真实薪资曝光!平均月薪 25k+

热门文章

  1. Ubuntu 12.04 常用三种输入法及键盘错乱的调整
  2. C语言显示无法添加两个指针,【C语言】两个指针(地址)相减
  3. python新版个人所得税_Python 小案例 计算个人所得税
  4. 赛后复盘 - DataCastle 科大讯飞AI营销算法大赛
  5. esc键退出全屏 vue_解决了VUE在浏览器全屏下监听不到Esc键盘事件
  6. Java环境安装(Linux版)
  7. 积水成渊之python——os.path.join()
  8. 基于STM32MP157的鸿蒙学习(一)— 资料下载及入门
  9. 新款MacBook M2芯片 安装python
  10. 联想拯救者Y7000P鼠标卡顿问题(已解决)