文章目录

总体认识
客观评价指标
- BLEU
METEOR
- ROUGE
- - ROUGE-N
  - ROUGE-L
  - ROUGE-S
参考资料

总体认识

自然语言中的机器翻译或者自动文摘任务的评价指标主要分为两大类：客观评价指标（即使用一些可计算的评价指标）和主观评价指标（即人工评测，通常是领域专家或者学者）。

客观评价指标有：

BLEU
ROUGE
METEOR

主观评测需要考虑一下三点：

流畅度
相关性
助盲性

客观评价指标

机器翻译与自动文摘任务最后生成的目标内容是自然语言描述语句，因此只要是这样的输出结果（即自然语言描述语句）的任务，都可以使用这些评测指标，主要包含四种：BLEU, ROUGE,METEOR,CIDEr。

BLEU

BLEU(BilingualEvaluationunderstudy)双语评估辅助工具BLEU(Bilingual Evaluation understudy)双语评估辅助工具BLEU(BilingualEvaluationunderstudy)双语评估辅助工具是一种流行的机器翻译评价指标。一种基于精确度的相似性度量方法，用于分析候选译文和参考译文中nnn元组共同出现的程度， 由IBM于2002年提出。对于一个待翻译句子，候选译文可以表示为cic_{i}ci，而对应的一组参考译文可以表示为Si={si1,si2,...,sim}∈SS_{i}=\{s_{i1},s_{i2},...,s_{im}\}\in SSi={si1,si2,...,sim}∈S, n−gramn-gramn−gram表示nnn个单词长度的词组集合，令ωk\omega_ {k}ωk表示第kkk组可能的 n−gramn-gramn−gram，hk(ci)h_{k}(c_{i})hk(ci)表示ωk\omega_ {k}ωk在候选译文cic_{i}ci中出现的次数，hk(sij)h_{k}(s_{ij})hk(sij)表示ωk\omega_ {k}ωk在参考译文sijs_{ij}sij中出现的次数, BLEUBLEUBLEU则按以下公式计算对应语句中语料库层面上的重合精度:
CPn(C,S)=∑i∑kmin(hk(ci),maxhk(sij)j∈m)∑i∑khk(ci)(1)CP_{n}(C,S)=\frac{\sum_{i}\sum_{k}min(h_{k}(c_{i}),max\,h_{k}(s_{ij}) j\in m)}{\sum_{i}\sum_{k}h_{k}(c_{i})}\ \ \ \ \ \ \ \ \ \ (1)CPn(C,S)=∑i∑khk(ci)∑i∑kmin(hk(ci),maxhk(sij)j∈m) (1)
其中，kkk表示了可能存在的 n−gramn-gramn−gram序号。min(hk(ci),maxj∈m,hk(sij))min(h_{k}(c_{i}),max\ j\in m,h_{k}(s_{ij}))min(hk(ci),max j∈m,hk(sij))表示截断计数，其计数方式为：将一个n-gram在候选翻译中出现的次数，与在各个参考翻译中出现次数的最大值进行比较，然后再取较小的那一个。l如下示例：

Candidate: the the the the the the the.
Reference 1: The cat is on the mat.
Reference 2: There is a cat on the mat.

假设，我们取 n=1n=1n=1 ，则一元组"the"在Candidate中出现的次数为7，在Reference 1中出现的次数为2，在Reference 2中出现的次数为1，则
min(hk(ci),maxj∈m,hk(sij))=min(7,max(2,1))=2min(h_{k}(c_{i}),max\ j\in m,h_{k}(s_{ij}))=min(7,max(2,1))=2min(hk(ci),max j∈m,hk(sij))=min(7,max(2,1))=2

容易看出CPn(C,S)CP_{n}(C,S)CPn(C,S)是一个精确度度量，但因为普通的CPnCP_{n}CPn值计算并不能评价模型输出结果（即，自然语言语句，比如翻译的结果，或者文档摘要的结果）的完整性，但是这个属性对于评价模型输出结果的质量是不可或缺的，因此研究者们最在最后的BLEUNBLEU_{N}BLEUN值之前加入BP惩罚因子。
惩罚因子 BP(BrevityPenalty)BP(Brevity\ Penalty)BP(Brevity Penalty)：
BP(C,S)=q(k∣x)=δk,y={1,lc<lse1−lslc,lc>lsBP(C,S)=q(k|x)=\delta_{k,y}=\left\{ \begin{aligned} 1,\ l_{c} < l_{s} \\ e^{1-\frac{l_{s}}{l_{c}}},\ l_{c} > l_{s} \end{aligned} \right.BP(C,S)=q(k∣x)=δk,y={1, lc<lse1−lcls, lc>ls
其中lcl_{c}lc表示候选译文cic_{i}ci的长度，lsl_{s}ls表示参考译文sijs_{ij}sij的有效长度（当存在多个参考译文的时候，选取和lcl_{c}lc最接近的长度。注：有的文献也直接将lsl_{s}ls表示为参考译文的最短句子长度），可以看出BP惩罚因子被用来调节待评价译文对参考译文的完整性和充分性的。

本质上，BLEUBLEUBLEU是一个 n−gramn-gramn−gram精确度的加权几何平均，最后的结果是待评价译文的统计候选翻译结果中n元组正确匹配次数与其中所有n元组出现次数的比值，按照以下公式计算：
BLEUN(C,S)=BP(C,S)exp(∑n=1Nwnlog(CPn(C,S)))BLEU_{N}(C,S)=BP(C,S)exp{(\sum_{n=1}^{N}w_{n}log(CP_{n}(C,S)))}BLEUN(C,S)=BP(C,S)exp(n=1∑Nwnlog(CPn(C,S)))
其中，N可以取1、2、3、4，而wnw_{n}wn（可以看作是权重）一般对所有的nnn取均值：1n\frac{1}{n}n1。
需要说明的是BLEUBLEUBLEU采用clipping策略，即：在参考译文中被匹配过的n元组应该被剪切掉，而不应该再被匹配。
BLEUBLEUBLEU在语料库层级上具有很好匹配的语句上表现很好，随着n的增加，在句子层级上的匹配越来来越差，因此 BLEU在个别语句上可能表现不佳。

总结如下：
主要特点：

n-gram 共现统计
基于准确率

应用场景：

机器翻译
自动摘要
文本生成

缺点：

只看重准确率，不看重召回率。
存在常用词干扰（可以用截断的方法解决）
短句得分较高（即使引入了brevity penalty，也还是不够）

改进：

截断：解决常用词干扰的问题
brevity penalty：改进短句得分较高的问题

METEOR

2004年由Lavir发现在评价指标中召回率的意义后提出了该度量办法：基于召回率的标准相比于那些单纯基于精度的标准（如BLEU），其结果和人工判断的结果有较高的相关性；METEOR 测度基于单精度的加权调和平均数和单字召回率，其目的是解决一些BLEU标准中固有的缺陷；METEOR也包括其他指标没有发现的一些其他功能，比如同义词匹配等，计算METEOR需要预先给定一组校准(alignment) mmm，而这一校准基于WordNet的同义词库，通过最小化对应语句中连续有序的块（chunks）chchch来得出；则 METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均，即基于F值：
METEOR=(1−Pen)FmeanMETEOR=(1-Pen)F_{mean}METEOR=(1−Pen)Fmean
其中，
Pen=γ(chm)θFmean=PmRmαPm+(1−α)RmPen=\gamma\left(\frac{ch}{m}\right)^\theta\\ F_{mean}=\frac{P_mR_m}{\alpha P_m+(1-\alpha)R_m}Pen=γ(mch)θFmean=αPm+(1−α)RmPmRm

Pm=∣m∣∑khk(ci)Rm=∣m∣∑khk(sij)P_m=\frac{|m|}{\sum_kh_k(c_i)}\\ R_m=\frac{|m|}{\sum_kh_k(s_{ij})}\\ Pm=∑khk(ci)∣m∣Rm=∑khk(sij)∣m∣

说明：
α、γ\alpha 、\gammaα、γ 和 θ\thetaθ均为用于评价的默认参数。
PenPenPen为惩罚因子，惩罚的是候选译文中的词序与参考译文中的词序不同。mmm表示候选译文中能够被参考译文中匹配的一元组的数量，chchch表示chunk的数量，chunk就是既在候选译文中相邻又在参考译文中相邻的被匹配的一元组聚集而成的单位。如下例子

Candidate: the president spoke to the audience.
Reference: the president then spoke to the audience.

在上述例子中，reference中的6个unigram都可以被匹配，但是其在reference中匹配的对象，却只有"the president" 和 "spoke to the audience"这两个字符串是相邻的，而这两个字符串就是两个chunk,即ch=2。

∑khk(ci)\sum_kh_k(c_i)∑khk(ci)表示候选译文的长度，∑khk(sij)\sum_kh_k(s_{ij})∑khk(sij)表示参考译文的长度。因此，METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均，并包含一个惩罚系数Pen和BLEU不同，METEOR同时考虑了基于整个语料库上的精确率和召回率，而最终得出测度。

总结如下：
主要特点：

unigram 共现统计
基于F值
考虑同义词、词干

应用场景：

机器翻译
自动摘要
文本生成
图片描述

缺点：

只有java实现
参数较多，有四个需要自己设置的参数
需要外部知识源，比如：wordNet，如果是wordNet中没有的语言，则无法用METEOR评测。

ROUGE

ROUGE（Recall-Oriented Understudy for Gisting Evaluation），在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法，是评估自动文摘以及机器翻译的一组指标。

ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要，是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要，构成标准摘要集，将系统生成的自动摘要与人工生成的标准摘要相对比，通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目，来评价摘要的质量。通过与专家人工摘要的对比，提高评价系统的稳定性和健壮性。主要考察翻译的充分性和忠实性，无法评价参考译文的流畅度，其计算的是N元组在参考译文和待测译文的共现概率。 在自动文摘相关研究中，一般根据自己的具体研究内容选择合适的ROUGE方法。
ROUGE包含以下四种：

类别	说明
ROUGE-N	基于N-gram共现性统计 (N的取值有1，2，3，4)
ROUGE-L	基于最长共有子句共现性精确度和召回率FmeasureF_{measure}Fmeasure统计
ROUGE-W	带权重的最长公有子句共现性精确度和召回率FmeasureF_{measure}Fmeasure统计
ROUGE-S	不连续二元组共现性精确度和召回率FmeasureF_{measure}Fmeasure统计
ROUGE-SU	该指标综合考虑uni-grams(n = 1)和bi-grams(n = 2)，允许bi-grams的第一个字和第二个字之间插入其他词，因此比ROUGE-L更灵活。

以上四种计算方式，最常用的是前两种(在此，也主要介绍这两种方法)：
ROUGE-N与BLEU计算方式类似，只是BLEU基于准确率，而ROUGE基于召回率；ROUGE-L中“L”指的是Longest Common Subsequence，计算的是候选摘要与参考摘要的最长公共子序列长度，长度越长，得分越高，基于F值。
说明：Longest Common Subsequence （LCS）的定义：假设存在序列X=[x1,x2,...,xm]X=[x_{1},x_{2},...,x_{m}]X=[x1,x2,...,xm]和Y=[y1,y2,...,yn]Y=[y_{1},y_{2},...,y_{n}]Y=[y1,y2,...,yn]，如果存在严格递增序列[i1,i2,...,ik][i_{1},i_{2},...,i_{k}][i1,i2,...,ik]是XXX的索引，对于每个j=1,2,...,kj=1,2,...,kj=1,2,...,k，总有xij=yjx_{ij}=y_{j}xij=yj则Y是X的子序列；序列X与序列Y的最大长度公共子序列成为LCS，用LCS(X,Y)LCS(X,Y)LCS(X,Y)表示。

ROUGE-N

ROUGE−N=∑S∈{Referencesummaries}∑gramn∈SCountmatch(gramn)∑S∈{Referencesummaries}∑gramn∈SCount(gramn)ROUGE-N=\frac{\sum\limits_{S\in \{Reference\ summaries\}}\sum\limits_{gram_{n}\in S}Count_{match}(gram_{n})}{\sum\limits_{S\in \{Reference\ summaries\}}\sum\limits_{gram_{n}\in S}Count(gram_{n})}ROUGE−N=S∈{Reference summaries}∑gramn∈S∑Count(gramn)S∈{Reference summaries}∑gramn∈S∑Countmatch(gramn)
其中，nnn表示n-gram,Count(gramn)Count(gram_{n})Count(gramn)表示一个n-gram的出现次数，Countmatch(gramn)Count_{match}(gram_{n})Countmatch(gramn)表示一个n-gram的共现次数。

ROUGE-N优点:
直观，简洁，能反映词序。
ROUGE-N缺点
区分度不高，且当N>3时，ROUGE-N值通常很小。
应用场景
ROUGE-1：短摘要评估，多文档摘要（去停用词条件）;
ROUGE-2: 单文档摘要，多文档摘要（去停用词条件）;

ROUGE-L

ROUGE−L=(1+β2)RlcsPlcsRlcs+β2PlcsRlcs=LCS(X,Y)mPlcs=LCS(X,Y)nROUGE-L=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}}\\ R_{lcs}=\frac{LCS(X,Y)}{m}\\ P_{lcs}=\frac{LCS(X,Y)}{n}ROUGE−L=Rlcs+β2Plcs(1+β2)RlcsPlcsRlcs=mLCS(X,Y)Plcs=nLCS(X,Y)
其中，X表示候选摘要，Y表示参考摘要，LCS(X,Y)LCS(X,Y)LCS(X,Y)表示候选摘要与参考摘要的最长公共子序列的长度，m表示参考摘要的长度，n表示候选摘要的长度。
优点
使用LCS的一个优点是它不需要连续匹配，而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram，因此您不需要预定义的n-gram长度。

缺点
只计算一个最长子序列，最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景
单文档摘要；短摘要评估。

ROUGE-S

使用了skip-grams，在参考摘要和待评测摘要进行匹配时，不要求gram之间必须是连续的， 可以“跳过”几个单词，比如skip-bigram，在产生grams时，允许最多跳过两个词。 比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”。
优点
考虑了所有按词序排列的词对，比n-gram模型更深入反映句子级词序。
缺点

若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数，需要指定最大跳跃词数的值。
应用场景
单文档摘要；ROUGE-S4，ROUGE-S9: 多文档摘要（去停用词条件);

总结如下：
主要特点：

n-gram 共现统计、最长公共子序列
基于召回率（ROUGE）和F值（ROUGE-L）

应用场景：

机器翻译
自动摘要
文本生成

缺点：

ROUGE是基于字的对应而非基于语义的对应，不过可以通过增加参考摘要的数量来缓解这一问题。

改进：

通过ROUGE-S 统计基于skip-gram而非n-gram
通过ROUGE-W考虑加权的最长公共子序列

论文关于ROUGE指标分析的结论：
我们发现:
1、ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S在单文档摘要任务中表现良好.
2、ROUGE-1、ROUGE-L、ROUGE-W、ROUGE-SU4和ROUGE-SU9在评价非常短的摘要(或类似标题的摘要)时表现出色.
3、相关高于90%时，很难实现对多文档摘要任务，但ROUGE-1,ROUGE-2,ROUGE-S4,ROUGE-S9,ROUGE-SU4,和ROUGE-SU9效果良好(stopwords排除在匹配时)
4、排除stopwords，通常能够提高相关性
5、①人类的评判通过使用多个引用，增加了其相关性。总之，我们证明了：ROUGE包可以有效地用于摘要的自动评估。
②在另一项研究中(Lin和Och 2004)， ROUGE -L、W和S在机器翻译的自动评估中也被证明是非常有效的。
③作者于2004年(Lin)报道了不同测试样本大小下，ROUGE的稳定性和可靠性。
④然而，如何在多文档摘要任务中实现与人类评判的高相关性，仍然是一个有待研究的课题。

参考资料

-浅述自然语言处理机器翻译常用评价度量
本文的一部分信息来自于此
-文本生成评价方法
本文中还含有其他的评价指标，需要的话可以看一下
-自动文摘评测方法

几个机器翻译与自动文摘评价指标相关推荐

中文自动文摘关键技术总结
中文自动文摘关键技术总结搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多AI干货 csdn:https://blog.csdn.net/abcgkj github:ht ...
Rouge | 自动文摘及机器翻译评价指标
tag:评价指标,摘要,nlp Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标.它通过将自动生成 ...
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
2020-01-06 10:17 导语:基本想法是优化多模态摘要训练的目标函数~ 作者 | 朱军楠.张家俊多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片.文本等)的信息中生成图文式 ...
论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘
论文笔记整理:刘雅,天津大学硕士. 链接: https://aaai.org/ojs/index.php/AAAI/article/view/6525 动机近年来,随着计算机视觉以及自然语言处理技术 ...
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
关于ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方 ...
自动文摘评测方法：Rouge-L、Rouge-N
Rouge-L 的初认识本人参加百度机器阅读理解比赛,发现阅读理解比赛的评价标注,以Rouge-L为主,若 Rouge-L相同的话,则看 BLEU-4.由此可见,Rough-L 作为自动文摘评测方 ...
自动文摘系统实现总结
自动文摘系统实现总结应用场景利用Ai系统帮助人把不同分类的大量文档自动做总结,重要点总结,比较典型公司美国alphasense公司主要做这块终端抽取重要信息,大量节省人力成本和时间成本自动文摘有 ...
【CIPS 2016】(8-10章)信息抽取、情感分析自动文摘 (研究进展、现状趋势)
CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文信息 ...
简易中文自动文摘系统（合集）
目录简易中文自动文摘系统(一):绪论自动文摘的介绍自动文摘分类简易中文自动文摘系统(二):中文语料库的准备中文语料库 jieba分词简易中文自动文摘系统(三):模型训练词向量 word2 ...

几个机器翻译与自动文摘评价指标

文章目录

总体认识

客观评价指标

BLEU

METEOR

ROUGE

ROUGE-N

ROUGE-L

ROUGE-S

参考资料

几个机器翻译与自动文摘评价指标相关推荐

最新文章

热门文章