BLEU:

所谓BLEU，最开始是用于机器翻译中。他的思想其实很native，对于一个给定的句子，有标准译文S1，还有一个神经网络翻译的句子S2。BLEU的思想就是对于出现机器翻译S2的所有短语，看有多少个短语出现在S1中，然后算一下这个比率就是BLEU的分数了。首先根据n-gram划分一个短语包含单词的数量，有BLEU-1,BLEU-2,BLEU-3,BLEU-4。分别就是把文章划分成长度为1个单词的短语，长度为2个单词的短语，。。然后统计她们出现在标准译文中个数，在分别除以划分总数，就是对应的BLEU-1分数，BLEU-2分数。。，其实就是准确率。看这些划分中有多少是出现在标准译文当中的。一般而言：unigram 的准确率可以用于衡量单词翻译的准确性，更高阶的 n-gram 的准确率可以用来衡量句子的流畅性，n{1,2,3,4}

但是BLEU会有个缺陷，假如我就翻译一个单词，而这个单词正好在标准译文中，那岂不是准确率100%，对于这个缺陷，BLEU算法会有个长度惩罚因子，就是翻译太短了就会有惩罚，不过，总的来说，还是偏向于短翻译分数高一点。

METOR:

其大意是说有时候翻译模型翻译的结果是对的，只是碰巧跟参考译文没对上（比如用了一个同义词），于是用 WordNet 等知识源扩充了一下同义词集，同时考虑了单词的词形（词干相同的词也认为是部分匹配的，也应该给予一定的奖励，比如说把 likes 翻译成了 like 总比翻译成别的乱七八糟的词要好吧？）。在评价句子流畅性的时候，用了 chunk 的概念（候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个 chunk，这个对齐算法是一个有点复杂的启发式 beam serach），chunk 的数目越少意味着每个 chunk 的平均长度越长，也就是说候选译文和参考译文的语序越一致。最后还有召回率和准确率两者都要考虑，用 F 值作为最后的评价指标。

ROUGE:

ROUGE算法基本思路和BLEU差不多，不过它统计的是召回率，也就是对于标准译文中的短语，统计一下它们有多少个出现在机器翻译的译文当中，其实就是看机器翻译有多少个翻译对了，这个评价指标主要在于标准译文中的短语都出现过，那么自然机器翻译的译文越长结果越好。

CIDEr:

常用语图像字幕生成，CIDEr 是 BLEU 和向量空间模型的结合。它把每个句子看成文档，然后计算 TF-IDF 向量（只不过 term 是 n-gram 而不是单词）的余弦夹角，据此得到候选句子和参考句子的相似度，同样是不同长度的 n-gram 相似度取平均得到最终结果。优点是不同的 n-gram 随着 TF-IDF 的不同而有不同的权重，因为整个语料里更常见的 n-gram 包含了更小的信息量。图像字幕生成评价的要点是看模型有没有抓取到关键信息，比如说一幅图的内容是『白天一个人在游泳池游泳』，其中最关键的信息应该是『游泳』，生成字幕时如果包含或者漏掉了一些别的信息（比如说『白天』）其实是无关紧要的，所以需要这么一种对非关键词降权的操作。

参考： https://www.zhihu.com/question/304798594/answer/567383628

通俗解释NLP任务四种评价指标(BLEU，METOR，ROUGH，CIDEr)相关推荐

perplexity 衡量指标_求通俗解释NLP里的perplexity是什么？
前面的回答都很优秀,但我想基于我的理解做个补充. 困惑度 Perplexity 是衡量语言模型好坏的指标,为了更好地理解其意义,首先有必要回顾熵的概念.根据信息论与编码的知识,我们知道熵代表着根据信 ...
mpls工作原理通俗解释_用这两种方法向最终用户解释NLP模型的工作原理还是不错的...
点击上方关注,All in AI中国上周,我看了一个关于"NLP的实践特性工程"的演讲.主要是关于LIME和SHAP在文本分类可解释性方面是如何工作的. 我决定写一篇关于它们的文 ...
机器翻译, 文本生成等任务评价指标 BLEU, ROUGE, PPL(困惑度)
一:BLEU 1.1 BLEU 的全称是 Bilingual evaluation understudy,BLEU 的分数取值范围是 0-1,分数越接近1,说明翻译的质量越高.BLEU 主要是基于 ...
协方差、相关系数---通俗解释
一.协方差的意义学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧 ...
Fleury (弗罗莱) 算法通俗解释
Fleury (弗罗莱) 算法通俗解释 1.定义 2.举例说明图2为连通图G,现利用Fleury算法求它的欧拉通路.(注意区分:欧拉通路.欧拉回路) 其中一种欧拉通路如下:4 5 8 7 6 8 9 ...
依赖注入通俗解释_我如何向团队解释依赖注入
依赖注入通俗解释最近,我们公司开始开发一个新的基于Java的Web应用程序,经过一些评估过程,我们决定使用Spring. 但是许多团队成员并不了解Spring和Dependency Injectio ...
Wasserstein metric的通俗解释
Wasserstein metric的通俗解释关注他 166 人赞同了该文章本文收录在无痛的机器学习第二季目录. Wasserstein GAN可以算是GAN界的一大突破了,有关它的介绍和使用心 ...
主成份(PCA)与奇异值分解(SVD)的通俗解释
主成份(PCA)与奇异值分解(SVD)的通俗解释 1. 问题描述在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量观测,收集大量数据以便进行分析,寻找规律.多变量大样本无疑会为研究和应用 ...
区块链是什么通俗解释_区块链技术是什么？区块链的通俗解释原来是这样！
原标题:区块链技术是什么?区块链的通俗解释原来是这样! 区块链概念诞生已有一段时间,但一直都是少数人知道它是什么,有什么样的价值,同时伴随着区块链的有数字货币,公链,智能合约等新兴概念的产出,我们该怎 ...
Linux与网络服务（一）网络服务相关概念通俗解释（科普向）
Linux与网络服务(一)网络服务相关概念通俗解释(科普向) 前言专业名词及概念的通俗解释云服务器云/云服务云计算弹性伸缩负载均衡公网IP 域名/域名备案端口 SSH(安全外壳协议)/ ...

通俗解释NLP任务四种评价指标(BLEU，METOR，ROUGH，CIDEr)

BLEU:

METOR:

ROUGE:

CIDEr:

通俗解释NLP任务四种评价指标(BLEU，METOR，ROUGH，CIDEr)相关推荐

最新文章

热门文章