BLEU、Meteor、ROUGE、CIDEr 和 SPICE。前两个是评测机器翻译的，第三个是评测自动摘要的，最后两个评价 caption 的。

1. Perplexity

其中，L是句子的长度， $PPL(w_{1:L}|I)$ 就是根据图像 I 给出的描述句子 $w_{1:L}$ 的 perplexity。而 $P(w_n|w_{1:n-1},I)$ 是根据图像 I 和前面的单词序列 $w_{1:n-1}$ 生成下一个单词 $w_n$ 的概率。
一句话：Perplexity 得分越低越好。

2. BLEU

Bilingual Evaluation Understudy，双语互评辅助工具。用于分析候选译文（待评价的译文）和参考译文中 N 元组共同出现的程度，IBM 于2002年提出的。
BLEU的优点是它考虑的粒度是 n-gram 而不是词，考虑了更长的匹配信息；BLEU的缺点是不管什么样的 n-gram 被匹配上了，都会被同等对待。比如说动词匹配上的重要性从直觉上讲应该是大于冠词的。BLEU是做不到百分百的准确的，它只能做到个大概判断，它的目标也只是给出一个快且不差自动评估解决方案。
优点很明显：方便、快速、结果有参考价值。
缺点也不少，主要有：

不考虑语言表达（语法）上的准确性；
测评精度会受常用词的干扰；
短译句的测评精度有时会较高（长度惩罚）；
没有考虑同义词或相似表达的情况，可能会导致合理翻译被否定；

$h_k(c_i)$ 表示 $w_k$ 翻译成译文 $c_i$ 中出现的次数，
$h_k(s_{ij})$ 表示 $w_k$ 在标准答案 $s_{ij}$ 中出现的次数，
$max_{j \in m}h_k(s_{ij})$ 表示某n-gram在多条标准答案中出现最多的次数，
$\sum_i \sum_j min(h_k(c_i),max_{j \in m} h_k(s_{ij}))$ 表示取n-gram在翻译译文和标准答案中出现的最小次数。
由于各N-gram统计量的精度随着阶数的升高而呈指数形式递减，所以为了平衡各阶统计量的作用，对其采用几何平均形式求平均值然后加权，再乘以长度惩罚因子，得到最后的评价公式：

参考文献：Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
一句话：基于准确率，BLEU 得分越高越好。

3. METEOR

METEOR 是基于BLEU进行了一些改进，其目的是解决一些 BLEU 标准中固有的缺陷。使用 WordNet 计算特定的序列匹配，同义词，词根和词缀，释义之间的匹配关系，改善了BLEU的效果，使其跟人工判别共更强的相关性。
METEOR 也包括其他指标没有发现一些其他功能，如同义词匹配等。

参考文献：Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
一句话：基于准确率和召回率，METEOR 得分越高越好。

4. ROUGE

ROUGE 是出于召回率来计算，所以是自动摘要任务的评价标准。其中有3个评价标准，分别是 ROUGE-N，ROUGE-L 和 ROUGE-S.

参考文献：Lin, C. Y. (2004). Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out.
一句话：ROUGE 得分越高越好。

5. CIDEr

CIDEr 是专门设计出来用于图像标注问题的。这个指标将每个句子都看作“文档”，将其表示成 Term Frequency Inverse Document Frequency（tf-idf）向量的形式，通过对每个n元组进行(TF-IDF) 权重计算，计算参考 caption 与模型生成的 caption 的余弦相似度，来衡量图像标注的一致性的。
从直观上来说，如果一些n元组频繁地出现在描述图像的参考标注中，TF对于这些n元组将给出更高的权重，而IDF则降低那些在所有描述语句中都常常出现的n元组的权重。也就是说，IDF提供了一种测量单词显著性的方法，这就是将那些容易常常出现，但是对于视觉内容信息没有多大帮助的单词的重要性打折。

考虑一张图片是 $l_i \in l$ (I: 全部测试集图片的集合)，对于一个n-gram, $w_k$ 和参考caption $s_{ij}$ ，tf-idf计算方式是

式中的 Ω是全部 n-gram 构成的词表。可以看出 idf 的分母部分代表的是 $w_k$ 出现于参考caption的图片个数。
那么，CIDEr的值可以用余弦相似度的平均值来计算：

类似于BLEU的做法：

这个指标的motivation之一是刚才提到的BLEU的一个缺点，就是对所有匹配上的词都同等对待，而实际上有些词应该更加重要。
CIDEr-D 是修改版本，为的是让 CIDEr 对于 gaming 问题更加鲁棒。

什么是 Gaming 问题？它是一种现象，就是一个句子经过人工判断得分很低，但是在自动计算标准中却得分很高的情况。为了避免这种情况，CIDEr-D 增加了截断（clipping）和基于长度的高斯惩罚。

参考文献：Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
一句话：CIDEr 得分越高越好。

6. SPICE

SPICE 也是专门设计出来用于 image caption 问题的。全称是 Semantic Propositional Image Caption Evaluation。前面四个方法都是基于 n-gram 计算的，所以 SPICE 设计出来解决这个问题。
SPICE 使用基于图的语义表示来编码 caption 中的 objects, attributes 和 relationships。它先将待评价 caption 和参考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees，然后用基于规则的方法把 dependency tree 映射成 scene graphs。最后计算待评价的 caption 中 objects, attributes 和 relationships 的 F-score 值。
参考文献：Anderson, P., Fernando, B., Johnson, M., & Gould, S. (2016, October). Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision (pp. 382-398). Springer, Cham.
一句话：SPICE 得分越高越好。

待评价 caption 和它的 dependency tree及scene graph

计算 F-score 的 objects, attributes and relationships

Image Caption 常用评价指标相关推荐

错误类型、混淆矩阵及目标检测常用评价指标
目标检测常用评价指标本文主要参考陈恺大佬在B站商汤账号的介绍mmdetection的视频. 检测结果的正确/错误类型真阳性(Ture Positive):算法检测到了某类物体(Positive), ...
《统计学习方法》读书笔记——机器学习常用评价指标
传送门 <统计学习方法>读书笔记--机器学习常用评价指标 <统计学习方法>读书笔记--感知机(原理+代码实现) <统计学习方法>读书笔记--K近邻法(原理+代码实现 ...
预测评价系统_「机器学习」一文读懂分类算法常用评价指标
前言评价指标是针对将相同的数据,输入不同的算法模型,或者输入不同参数的同一种算法模型,而给出这个算法或者参数好坏的定量指标. 在模型评估过程中,往往需要使用多种不同的指标进行评估,在诸多的评价指标中 ...
知识图谱常用评价指标：MRR，MR，HITS@K，Recall@K，Precision@K
一.MRR MRR的全称是Mean Reciprocal Ranking(排名的倒数),其中Reciprocal是指"倒数的"的意思.该指标越大越好(即预测排名越靠前,倒数就越大, ...
模型评价 - 分类模型的常用评价指标
分类模型的常用评价指标基本指标:误差率指标解释:错分类样本占总样本的比例基本指标:准确率指标解释:正确分类样本占总样本的比例指标解读:准确率越接近1,模型越准确混淆矩阵真实情况预测:正 ...
模型评价 - 回归模型的常用评价指标
回归模型的常用评价指标样本误差:衡量模型在一个样本上的预测准确性样本误差 = 样本预测值 - 样本实际值最常用的评价指标:均误差方(MSE) 指标解释:所有样本的样本误差的平方的均值指标解读: ...
推荐系统：常用评价指标总结【准确率、精确率、召回率、命中率、（归一化折损累计增益）NDCG、平均倒数排名(MRR)、ROC曲线、AUC（ROC曲线下的面积）、P-R曲线、A/B测试】
1.Recall(召回率)与Precision(精确率) 网站在提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐叫做TopN推荐,TopN推荐的预测准确率一般通过召回率和精确率来度量. 在介 ...
深度学习常用评价指标
版权声明:本文为CSDN博主「ZONG_XP」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明. 原文链接:https://blog.csdn.net/zong59 ...
机器学习——算法常用评价指标
机器学习--算法常用评价指标一.常用评价指标二.案例一.常用评价指标参考书籍:<机器学习>--周志华错误率: 分类错误的样本数占样本总数的比例精度: 分类正确的样本数占样本总数 ...
机器学习模型常用评价指标（Accuracy, Precision, Recall、F1-score、MSE、RMSE、MAE、R方）
前言众所周知,机器学习分类模型常用评价指标有Accuracy, Precision, Recall和F1-score,而回归模型最常用指标有MAE和RMSE.但是我们真正了解这些评价指标的意义吗? ...

Image Caption 常用评价指标

1. Perplexity

2. BLEU

3. METEOR

4. ROUGE

5. CIDEr

6. SPICE

Image Caption 常用评价指标相关推荐

最新文章

热门文章

Image Caption 常用评价指标

1. Perplexity​​​​​​

2. BLEU

3. METEOR

4. ROUGE

5. CIDEr

6. SPICE

Image Caption 常用评价指标相关推荐

最新文章

热门文章

1. Perplexity