关于ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘以及机器翻译的一组指标。

ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。

ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N是n-gram中n,取值有1,2,3,4),ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。

ROUGE-N

ROUGE-N在Chin-Yew Lin的论文中是这样定义的:

分母是人工摘要(也就是标准摘要)中n-gram的个数,分子是人工摘要和机器生成的自动摘要共现(重合)的n-gram的个数。可以看出,ROUGE与召回率的定义很相似。

举例:

机器生成的自动摘要:
the cat was found under the bed
人工生成的标准摘要:
the cat was under the bed

如果我们只考虑单个单词,自动摘要和标准摘要之间的重叠单词数量为6。但是,这并不能作为度量标准。为了获得良好的定量值,我们实际上可以使用二者共线的n-gram数来计算精度和召回率。

ROUGE背景下的精度与召回

上面的例子中,ROUGE-1的值可以很容易计算出来,为 6 6 {6 \over 6} 66​,这个值与召回率是一样的,也就是 r e c a l l = 6 6 recall={6 \over 6} recall=66​。

这意味着标准摘要(人工生成)中的所有单词都已被机器生成的自动摘要捕获。但是,有可能机器生成的摘要可能非常长,可以很容易捕获标准摘要中的所有单词。但是,系统摘要中的大部分单词可能都是无用的,使得摘要不必要地冗长。这就是精确度发挥作用的地方。在精确度方面,您实际测量的是, 机器生成的自动摘要中有多少实际上相关或需要?精度测量为:
n u m b e r _ o f _ o v e r l a p p i n g _ w o r d s t o t a l _ w o r d s _ i n _ m a c h i n e _ s u m m a r y number\_of\_overlapping\_words \over total\_words\_in\_ machine\_summary total_words_in_machine_summarynumber_of_overlapping_words​
分子是机器摘要和标准摘要共现的单词个数,分母是机器摘要中单词的个数。
在这个例子中 p e r c i s i o n = 6 7 = 0.86 percision={6 \over 7} = 0.86 percision=76​=0.86

这仅仅意味着系统摘要中的7个单词中的6个实际上是相关的或需要的。如果我们有以下标准摘要,而不是上面的示例: the tiny little cat was found under the big funny bed
那么这时精确度变为: p e r c i s i o n = 6 11 = 0.55 percision={6 \over 11} = 0.55 percision=116​=0.55

现在,这看起来不太好,是吗?那是因为我们在摘要中有不少不必要的词。当您尝试生成简洁的摘要时,精确度方面变得非常重要。因此,最好同时计算Precision和Recall,然后报告F-Measure。如果您的摘要在某种程度上可以通过某些约束来使摘要简洁或者是对精确度要求不高,那么您可以考虑仅使用Recall。其实现在的摘要评测任务一般只考虑recall。

ROUGE-2该如何计算?

自动摘要的Bigrams:
the cat, cat was, was found, found under, under the, the bed

标准摘要的Bigrams:
the cat, cat was, was under, under the, the bed
故ROUGE-2的值为 4 5 {4 \over 5} 54​,也就是 r e c a l l = 4 5 = 0.8 recall={4 \over 5}=0.8 recall=54​=0.8。此时 p e r c i s i o n = 4 6 = 0.67 percision={4 \over 6} = 0.67 percision=64​=0.67

ROUGE-N优点

直观,简洁,能反映词序。

ROUGE-N缺点

区分度不高,且当N>3时,ROUGE-N值通常很小。

应用场景

ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);

ROUGE-L

L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:

其中 L C S ( X , Y ) LCS(X,Y) LCS(X,Y) 是 X 和 Y X和Y X和Y的最长公共子序列的长度, m , n m,n m,n分别表示人工标准摘要和机器自动摘要的长度(一般就是所含词的个数), R l c s , P l c s R_{lcs},P_{lcs} Rlcs​,Plcs​​ 分别表示召回率和准确率。最后的 F l c s F_{lcs} Flcs​​ 即是我们所说的 R o u g e − L Rouge-L Rouge−L。在DUC中, β \beta β被设置为一个很大的数,所以 R o u g e − L Rouge-L Rouge−L几乎只考虑了 R l c s R_{lcs} Rlcs​,与上文所说的一般只考虑召回率对应。

优点

使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。

缺点

只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景

单文档摘要;短摘要评估。

Rouge-S

使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”。

优点

考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。

缺点

若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。

应用场景

单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);

参考
https://blog.csdn.net/qq_25222361/article/details/78694617
https://blog.csdn.net/lcj369387335/article/details/69845385
http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html

自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S相关推荐

  1. 自动文摘评测方法:Rouge-L、Rouge-N

    Rouge-L 的初认识 本人参加百度机器阅读理解比赛,发现阅读理解比赛的评价标注,以Rouge-L为主,若 Rouge-L相同的 话,则看 BLEU-4.由此可见,Rough-L 作为自动文摘评测方 ...

  2. 几个机器翻译与自动文摘评价指标

    文章目录 总体认识 客观评价指标 BLEU METEOR ROUGE ROUGE-N ROUGE-L ROUGE-S 参考资料 总体认识 自然语言中的机器翻译或者自动文摘任务的评价指标主要分为两大类: ...

  3. 【CIPS 2016】(8-10章)信息抽取、情感分析自动文摘 (研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息 ...

  4. 简易中文自动文摘系统(合集)

    目录 简易中文自动文摘系统(一):绪论 自动文摘的介绍 自动文摘分类 简易中文自动文摘系统(二):中文语料库的准备 中文语料库 jieba分词 简易中文自动文摘系统(三):模型训练 词向量 word2 ...

  5. 自然语言处理NLP——中文抽取式自动文摘(包括中文语料库处理、三种方法实现自动文摘、Rouge评价方法对自动文摘进行打分)

    利用三种方法实现抽取式自动摘要,并给摘要结果打分(一.textrank 二.word2vec+textrank 三.MMR 四.Rouge评测) 具体代码我上传到了Github上,其中有45篇小论文( ...

  6. Rouge | 自动文摘及机器翻译评价指标

    tag:评价指标,摘要,nlp Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标.它通过将自动生成 ...

  7. AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

    2020-01-06 10:17 导语:基本想法是优化多模态摘要训练的目标函数~ 作者 | 朱军楠.张家俊 多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片.文本等)的信息中生成图文式 ...

  8. 论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘

    论文笔记整理:刘雅,天津大学硕士. 链接: https://aaai.org/ojs/index.php/AAAI/article/view/6525 动机 近年来,随着计算机视觉以及自然语言处理技术 ...

  9. 中文自动文摘关键技术总结

    中文自动文摘关键技术总结 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多AI干货 csdn:https://blog.csdn.net/abcgkj github:ht ...

最新文章

  1. 《TensorFlow技术解析与实战》——导读
  2. MySQL之查看数据库编码
  3. 如何在Mac OSX Yosemite中将Ruby版本2.0.0更新到最新版本?
  4. stagefright omx小结
  5. 一个简单易用的代码生成工具
  6. 19、20 Context API
  7. 【2017年第4期】工业大数据技术与架构
  8. java 二分_java二分查找算法
  9. JS 获取WEB请求路径
  10. Apache Flink 在蔚来汽车的应用
  11. CAD自带图案填充代表意思
  12. 基于JavaEE电子商务交易系统
  13. Vscode,Open a folder or workspace…(File -> Open Folder)解决方案
  14. OneDrive彻底卸载
  15. JavaScript 汉字转拼音
  16. 知识中藏着美好的未来,社科院杜兰金融管理硕士项目是你前行路上的里程碑吗
  17. GAN论文精读以及基础讲解
  18. docker容器的资源消耗
  19. 【micropython】microbit声音模块
  20. 电力系统分析(第二版)Hadi Saadat matlab 第五章 输电线路模型及其特性(教材搬运)

热门文章

  1. 百万军中取上将首级如探囊取物, 千万行里改关键源码在弹指瞬间。 功能超强的程序编辑器!
  2. Windows 7-11/Server 三蛋多合一精简优化Windows系统
  3. C语言中的有符号与无符号(挖坑)
  4. Ubuntu 22 04 LTS gcc 安装失败
  5. volatile限定符——C++讲解
  6. * word 2000 与 word 2003 版本兼容性问题
  7. 罗升阳:那两年炼就的Android内功修养
  8. 用JS实现一个秒表计时器
  9. H264(AVC)/H265(HEVC)/H266(VVC):GOP的区别
  10. DDR Layout使用技巧