ROUGE评价算法学习

ROUGE（ Recall-Oriented Understudy for Gisting Evaluation），在2004年由 ISI 的Chin-Yew Lin 提出的一种自动摘要评价方法，现被广泛应用于 DUC（ Document Understanding Conference ）的摘要评测任务中。 ROUGE 基于摘要中 n 元词( n-gram )的共现信息来评价摘要，是一种面向 n 元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要，构成标准摘要集，将系统生成的自动摘要与人工生成的标准摘要相对比，通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目，来评价摘要的质量。通过与专家人工摘要的对比，提高评价系统的稳定性和健壮性。该方法现已成为摘要评价技术的通用标注之一。 ROUGE 准则由一系列的评价方法组成，包括 ROUGE-N(N=1、2、3、4，分别代表基于1元词到4元词的模型) ， ROUGE-L，ROUGE-S, ROUGE-W， ROUGE-SU 等。在自动文摘相关研究中，一般根据自己的具体研究内容选择合适的 ROUGE 方法。

其中，n表示n-gram的长度，{Reference Summaries}表示参考摘要，即事先获得的标准摘要，表示候选摘要和参考摘要中同时出现n-gram的个数，则表示参考摘要中出现的n-gram个数。不难看出，ROUGE公式是由召回率的计算公式演变而来的，分子可以看作“检出的相关文档数目”，即系统生成摘要与标准摘要相匹配的N-gram个数，分母可以看作“相关文档数目”，即标准摘要中所有的N-gram个数。

例：R1 : police killed the gunman.

R2 : the gunman was shot down by police.

C1 : police ended the gunman.

C2 :the gunman murdered police.

R1，R2 为参考摘要，C1，C2 为候选摘要。

ROUGE-1(C1)=(3+3)/(4+7)=6/11

ROUGE-1(C2)=(3+3)/(4+7)=6/11

ROUGE-2(C1)=(1+1)/(3+6)=2/9

ROUGE-2(C2)=(1+1)/(3+6)=2/9

C1与C2的ROUGE-1、ROUGE-2分数相等，但是意思完全不相同!

优点：

直观，简洁，能反映词序。

缺点：

区分度不高，且当N>3时，ROUGE-N值通常很小。

应用场景：

ROUGE-1：短摘要评估，多文档摘要（去停用词条件）;

ROUGE-2: 单文档摘要，多文档摘要（去停用词条件）;

（2）ROUGE-L（ Longest Common Subsequence )

子序列：一个给定序列的子序列就是该给定序列中去掉零个或者多个元素。
  公共子序列：给定两个序列X和Y，如果Z既是X的一个子序列又是Y的一个子序列，
  则序列 Z 是 X 和 Y 的一个公共子序列。
  LCS（最长公共子序列）：给定两个序列X和Y，使得公共子序列长度最大的序列是 X 和 Y 的最长公共子序列。

Sentence-Level LCS

计算公式：

其中X为参考摘要，长度为m，Y为候选摘要，长度为n，用F值来衡量摘要X与Y的相似度，在DUC测评中，由于，所以只考虑。

例： R1 : police killed the gunman.

C1 : police ended the gunman.

C2 : the gunman murdered police.

R1为参考摘要，C1，C2为候选摘要。

ROUGE-L(C1)=3/4

ROUGE-L(C2)=2/4

C1优于C2！

优点：

不要求词的连续匹配，只要求按词的出现顺序匹配即可，能够像n-gram一样

反映句子级的词序。

自动匹配最长公共子序列，不需要预先定义n-gram的长度。

缺点：

只计算一个最长子序列，最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景：

单文档摘要；短摘要评估。

例：R1 : police killed the gunman.

C1 :the gunman murdered police.

C2 : the gunman police killed.

R1为参考摘要，C1，C2为候选摘要。

ROUGE-L(C1)=2/4

ROUGE-L(C2)=2/4

ROUGE-2(C1)=1/4

ROUGE-2(C2)=2/4

C1与C2的ROUGE-L分数相等，但C2的ROUGE-2分数高于C1，C2优于C1!

Summary-Level LCS

将LCS应用到摘要级数相时，对参考摘要中的每一个句子与候选摘要中的所有句子比对，以union LCS作为摘要句的匹配结果。

计算公式：

其中R为参考摘要，包含u个句子，m个词，C为候选摘要，包含v个句子，n个词，长度为n，是句子和候选摘要C的union LCS。

例：参考只要集句子 : w1 w2 w3 w4 w5

候选摘要C包含两个句子

c1 : w1 w2 w6 w7 w8

c2 : w1 w3 w8 w9 w5

与 c1 的LCS 为w1 w2，与c2的LCS为w1 w3 w5，与C的union LCS 为w1 w2 w3 w5。

ROUGE-L(C)=4/5

ROUGE评价算法学习相关推荐

评价一个学习算法(斯坦福machine learning week 6)
1. 评价一个学习算法 1.1 如何少走弯路? 1.2 机器学习诊断法引入 1.2.1 背景当我们确定学习算法的参数的时候,我们考虑的是选择参量来使训练误差最小化.有人认为,得到一个非常小的训练误差 ...
3D 激光雷达地图相对精度自动评价算法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达标题:3D Lidar Mapping Relative Accuracy Automatic Eva ...
分享一下字符串匹配BM算法学习心得。
字符串匹配BM(Boyer-Moore)算法学习心得 BM算法是 Boyer-Moore算法的缩写,是一种基于后缀比较的模式串匹配算法.BM算法在最坏情况下可以做到线性的,平均情况下是亚线性的(即 ...
图像主观质量评价评分_视频质量评价算法之客观评价的性能指标
前言乱语说完数据集,先给大家结个尾吧(误) 视频质量评估(VQA)第二期来介绍几个评价视频质量评价算法的性能评估指标我发4,没有在套娃...... 简易小目录 SROCC(Spearman r ...
机器学习knn算法学习笔记使用sklearn库，莺尾花实例
** 机器学习knn算法学习笔记使用sklearn库 ,莺尾花实例. 具体knn算法是怎样的我这里就不再详细论述.在这里我注意总结我使用knn算法进行一个分类的分析 ** 分析过程 1.前期准备引入 ...
Python最优化算法学习笔记（Gurobi）
微信公众号:数学建模与人工智能 github地址:https://github.com/QInzhengk/Math-Model-and-Machine-Learning Python最优化算法学习笔 ...
4.页面评价算法 Heritrix应用与扩展
页面评价算法----pagerank算法网页评价算法作为网页的组织管理工具,充分利用了互联网的巨大链接结构,即一个网页被其他网页链接的数量就决定了该网页的重要性.网页评价算法可以保证系统对用户的需求 ...
一次递减代码matlab,DEA算法学习系列之三：一次性求解CCR模型所有DMU参数——效率、规模效益、有效性特征、调整值的matlab代码...
<DEA算法学习系列之三:一次性求解CCR模型所有DMU参数--效率.规模效益.有效性特征.调整值的matlab代码>由会员分享,可在线阅读,更多相关<DEA算法学习系列之三:一次性 ...
数学建模算法学习笔记
数学建模算法学习笔记作为建模Man学习数学建模时做的笔记参考文献: <数学建模姜启源第四版> 网上搜罗来的各种资料,侵删 1.线性预测 levinson durbin算法,自相关什么的 ...

ROUGE评价算法学习

ROUGE评价算法学习相关推荐

最新文章

热门文章