ROUGE评价算法学习
ROUGE( Recall-Oriented Understudy for Gisting Evaluation) ,在2004年 由 ISI 的Chin-Yew Lin 提出的一种自动摘要评价方法,现被广泛应用于 DUC( Document Understanding Conference )的摘要评测任务中。 ROUGE 基于摘要中 n 元词( n-gram )的共现信息来评价摘要,是一种面向 n 元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。该方法现已成为摘要评价技术的通用标注之一。 ROUGE 准则由一系列的评价方法组成,包括 ROUGE-N(N=1、2、3、4,分别代表基于1元词到4元词的模型) , ROUGE-L,ROUGE-S, ROUGE-W, ROUGE-SU 等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的 ROUGE 方法。
其中,n表示n-gram的长度,{Reference Summaries}表示参考摘要,即事先获得的标准摘要,表示候选摘要和参考摘要中同时出现n-gram的个数,则表示参考摘要中出现的n-gram个数。不难看出,ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。
例:R1 : police killed the gunman.
R2 : the gunman was shot down by police.
C1 : police ended the gunman.
C2 :the gunman murdered police.
R1,R2 为参考摘要,C1,C2 为候选摘要。
ROUGE-1(C1)=(3+3)/(4+7)=6/11
ROUGE-1(C2)=(3+3)/(4+7)=6/11
ROUGE-2(C1)=(1+1)/(3+6)=2/9
ROUGE-2(C2)=(1+1)/(3+6)=2/9
C1与C2的ROUGE-1、ROUGE-2分数相等,但是意思完全不相同!
优点:
直观,简洁,能反映词序。
缺点:
区分度不高,且当N>3时,ROUGE-N值通常很小。
应用场景:
ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);
(2)ROUGE-L( Longest Common Subsequence )
子序列: 一个给定序列的子序列就是该给定序列中去掉零个或者多个元素。
公共子序列: 给定两个序列X和Y,如果Z既是X的一个子序列又是Y的一个子序列,
则序列 Z 是 X 和 Y 的一个公共子序列。
LCS(最长公共子序列): 给定两个序列X和Y, 使得公共子序列长度最大的序列 是 X 和 Y 的最长公共子序列。
Sentence-Level LCS
计算公式:
其中X为参考摘要,长度为m,Y为候选摘要,长度为n,用F值来衡量摘要X与Y的相似度,在DUC测评中,由于,所以只考虑。
例: R1 : police killed the gunman.
C1 : police ended the gunman.
C2 : the gunman murdered police.
R1为参考摘要,C1,C2为候选摘要。
ROUGE-L(C1)=3/4
ROUGE-L(C2)=2/4
C1优于C2!
优点:
不要求词的连续匹配,只要求按词的出现顺序匹配即可,能够像n-gram一样
反映句子级的词序。
自动匹配最长公共子序列,不需要预先定义n-gram的长度。
缺点:
只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景:
单文档摘要;短摘要评估。
例:R1 : police killed the gunman.
C1 :the gunman murdered police.
C2 : the gunman police killed.
R1为参考摘要,C1,C2为候选摘要。
ROUGE-L(C1)=2/4
ROUGE-L(C2)=2/4
ROUGE-2(C1)=1/4
ROUGE-2(C2)=2/4
C1与C2的ROUGE-L分数相等,但C2的ROUGE-2分数高于C1,C2优于C1!
Summary-Level LCS
将LCS应用到摘要级数相 时,对参考摘要中的每一个句子 与候选摘要中的 所有句子比对,以union LCS作为摘要句 的匹配结果。
计算公式:
其中R为参考摘要,包含u个句子,m个词,C为候选摘要,包含v个句子,n个词,长度为n, 是句子和候选摘要C的union LCS。
例:参考只要集句子 : w1 w2 w3 w4 w5
候选摘要C包含两个句子
c1 : w1 w2 w6 w7 w8
c2 : w1 w3 w8 w9 w5
与 c1 的LCS 为w1 w2,与c2的LCS为w1 w3 w5,与C的union LCS 为w1 w2 w3 w5。
ROUGE-L(C)=4/5
ROUGE评价算法学习相关推荐
- 评价一个学习算法(斯坦福machine learning week 6)
1. 评价一个学习算法 1.1 如何少走弯路? 1.2 机器学习诊断法引入 1.2.1 背景 当我们确定学习算法的参数的时候,我们考虑的是选择参量来使训练误差最小化.有人认为,得到一个非常小的训练误差 ...
- 3D 激光雷达地图相对精度自动评价算法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:3D Lidar Mapping Relative Accuracy Automatic Eva ...
- 分享一下字符串匹配BM算法学习心得。
字符串匹配BM(Boyer-Moore)算法学习心得 BM算法 是 Boyer-Moore算法 的缩写,是一种基于后缀比较的模式串匹配算法.BM算法在最坏情况下可以做到线性的,平均情况下是亚线性的(即 ...
- 图像主观质量评价 评分_视频质量评价算法 之 客观评价的性能指标
前言乱语 说完数据集,先给大家结个尾吧(误) 视频质量评估(VQA)第二期 来介绍几个 评价视频质量评价算法的性能评估指标 我发4,没有在套娃...... 简易小目录 SROCC(Spearman r ...
- 机器学习knn算法学习笔记使用sklearn库 ,莺尾花实例
** 机器学习knn算法学习笔记使用sklearn库 ,莺尾花实例. 具体knn算法是怎样的我这里就不再详细论述.在这里我注意总结我使用knn算法进行一个分类的分析 ** 分析过程 1.前期准备 引入 ...
- Python最优化算法学习笔记(Gurobi)
微信公众号:数学建模与人工智能 github地址:https://github.com/QInzhengk/Math-Model-and-Machine-Learning Python最优化算法学习笔 ...
- 4.页面评价算法 Heritrix应用与扩展
页面评价算法----pagerank算法 网页评价算法作为网页的组织管理工具,充分利用了互联网的巨大链接结构,即一个网页被其他网页链接的数量就决定了该网页的重要性.网页评价算法可以保证系统对用户的需求 ...
- 一次递减代码matlab,DEA算法学习系列之三:一次性求解CCR模型所有DMU参数——效率、规模效益、有效性特征、调整值的matlab代码...
<DEA算法学习系列之三:一次性求解CCR模型所有DMU参数--效率.规模效益.有效性特征.调整值的matlab代码>由会员分享,可在线阅读,更多相关<DEA算法学习系列之三:一次性 ...
- 数学建模算法学习笔记
数学建模算法学习笔记 作为建模Man学习数学建模时做的笔记 参考文献: <数学建模姜启源第四版> 网上搜罗来的各种资料,侵删 1.线性预测 levinson durbin算法,自相关什么的 ...
最新文章
- linux配置文件怎么把某行后几个字符替换_vim(Linux运维)
- 抽象工廠與工廠方法的區別
- 海南大学植物保护学院刘铜教授课题组招聘简介
- 元胞自动机(Cellular Automata)
- es6箭头函数(墙裂推荐)
- STM32 RS485 和串口 只能接收不能发送问题解决
- css 网格布局_CSS网格布局
- 一图理解M0不同优先级中断及Pendsv切换
- 淘宝分布式NOSQL框架:Tair
- CF-1208D-线段树和树状数组双解
- 一起来学Spring Cloud | 第一章 :如何搭建一个多模块的springcloud项目
- Spring使用过程中遇到的一些问题
- MDT捕捉镜像提示错误
- word复制或粘贴等操作使应用未响应
- 计算机系统还原后 桌面不显示图标,电脑桌面图标不见了怎么恢复原状?电脑桌面便签不见了怎么找回...
- 视觉SLAM笔记(64) 八叉树地图
- TX2 外接硬盘,并随启动自动挂载
- Redis 集群可用性测试
- 快速屏蔽百度热榜百度广告百度推广
- Cadence OrCAD Capture CIS 输出带属性的PDF原理图