一、Re-ID的评价标准类型

Re-ID常用的评价准则为：mAP, CMC。一般的方法为：已知：一个在训练集上训练好的模型，一个query( 用于查询的集 )，一个gallery（在其中搜索结果，或test ）求：mAP, CMC。

参考博文：

深度学习基础----mAP和CMC，Recall和Precision，ROC和AUC，NDCG_无意识积累中的博客-CSDN博客

二、mAP

针对:检索问题。是就query和gallery来讨论

直述：每一张查询图片在查找集（query和gallery特征的相似度排序）里的匹配程度。由匹配正确的图片和它们的排序位置决定。主要是特征信息提取准确性和分类结果准确性两方面。

一句话：在前面的正确的越多，分就越高

mAP：对多次查询结果AP取平均值

AP（Average Precision平均准确度）和mAP（mean Average Precision平均准确度均值）

AP衡量的是模型在单个类别上判断结果的好坏（效果好坏）,是每一次正确预测的准确率的平均数。mAP衡量的是模型在所有类别上的AP的平均值。

三、CMC

CMC curve:(Cumulative Matching Characteristic)

累计匹配特性曲线，一般用Rank-1, Rank-5, Rank-20 scores代替，反应检索准确度。CMC曲线（Cumulative Match Characteristic Curve）横轴代表Rank-n，纵轴代表Accuracy。如果选取Rank-n排序列表为[1，2，5，10]的话，则CMC曲线就是一个由四个点连接而成的曲线。其中每个点的Rank-n的值都为所有测试数据的Rank-n的平均值。

Rank-1识别率就是表示按照某种相似度匹配规则匹配后，第一次就能判断出正确的标签的测试数目与总的测试样本数目之比，Rank5识别率就是指有五次机会（选取匹配程度最大的五项）去判断是否有正确匹配。

如果一个样本按照匹配程度从大到小排列后，到排序结果的后面，才匹配到正确标签，把最应匹配的判别成最不应匹配的，这就说明分类器不太好。

举个例子来说，比如，我们训练了一个分类器，来识别五个物体，即1，2，3，4，5，他们属于3类即A，B，C。比如属于A类的物体1，经过分类器，得到属于A、B、C类的概率是80%，15%，5%，所以将物体1，判定为A类，物体1经过一次排序就被命中正确的类，所以我们引入Rank-1为100%，若物体2本来属于B类，被我们训练的分类器分类为A、B、C的概率分别为50%，40%，10%，所以被判定为A类，按照概率排序，如果有两次机会，才能命中，这就是Rank-2的含义。

综上五个物体，若果每个都能第一次命中，所以五个物体的Rank分别是 rank-1 100% rank-2 100% rank-3 100%

如果物体1，2为一次就命中，3，4为两次才能命中，5为三次命中，则为 rank-1 40% rank-2 80% rank-3 100%

这就是CMC曲线，而一次命中率越高，说明我们的分类器性能越好。

四、实例举例

假设一次的测试结果为：
数据1（标签为0）的测试结果（相似度前10的数据的标签）：0，1，2，3，4，5，0，7，8，9
数据2（标签为1）的测试结果（相似度前10的数据的标签）：5，0，1，3，4，5，0，7，8，9
数据3（标签为2）的测试结果（相似度前10的数据的标签）：1，0，1，3，4，2，0，7，8，9

1.AP、mAP

数据1的十次预测一共有两次正确预测，第一次正确预测的准确率为1/1=100%，第二次正确预测的准确率为2/7=28.6%，则数据1的AP为((100+28.6)/2)%=64.3%。

同理，数据2的AP为1/3=33.3%，数据3的AP为1/6=16.7%。
则本次测试的mAP为((64.3+33.3+16.7)/3)%=38.1%。

2.CMC Curve

所以，按照上述例子，计算每个数据的Rank-n（1，2，5，10）为

数据1，[1，1，1，1]
数据2，[0，0，1，1]
数据3，[0，0，0，1]

则CMC曲线中Rank-1为1/3=0.333，Rank-2为1/3=0.333，Rank-5为2/3=0.667，Rank-10为1。
图像为：

Re-ID的评价标准相关推荐

多目标跟踪评价标准(MOT)
简介: MOTChallenge是多目标跟踪领域最为常用的benchmark,其中2D MOT15,3D MOT15,MOT16,MOT17,MOT20都是多目标跟踪领域常用的数据集. 下面我们按照M ...
算法模型好坏、评价标准、算法系统设计
算法模型好坏的评价通用标准: 1.解的精确性与最优性.基于正确性基础上. 2.计算复杂度,时间成本. 3.适应性.适应变化的输入和各种数据类型. 4.可移植性. 5.鲁棒性.健壮性. 鲁棒性(robu ...
实在智能参与中文自然语言理解评价标准体系(CLUE)阶段性进展回顾
「实在智能」简介「实在智能」(杭州实在智能科技有限公司)是一家人工智能科技公司,聚焦大规模复杂问题的智能决策领域,通过AI+RPA技术打造广泛应用于各行业的智能软件机器人,即"数字员工& ...
百度燎原计划2018强势回归开放深度学习工程师评价标准
人工智能时代风口在燃烧,百度希望让每个人都能用上AI.4月20日,百度"燎原计划2018"暨百度AI开发者实战营第二季强势回归,首站北京即放送三大满足各类开发者需求的"超 ...
记录一下增加标定评价标准的过程
我建立标定评价标准的思路是 :标定完成之后,点击图像中的某个点(这个点我们知道它的世界坐标),用程序算出这个点标定矫正之后的世界坐标,和真实的世界坐标相比,这个差值用于衡量标定结果是否准确. 如何让点 ...
p_re 实验数据库ViPER和ETHZ的下载地址和实验评价标准
下载地址: ETHZ: http://homepages.dcc.ufmg.br/~william/datasets.html VIPeR: http://vision.soe.ucsc.edu/ ? ...
目标检测评价标准精准度（precision）、召回率（recall）、准确率（accuracy）、交除并（IoU）【全】
引用文章:目标检测评价标准评价训练效果的值--精准度(precision).召回率(recall).准确率(accuracy).交除并(IoU) TP是正样本预测为正样本 FP是负样本预测为正样本 ...
二分类最优阈值确定_分类模型评价标准，AUC还是Macro F1？
在人工智能领域,分类任务占据了很大的比例,例如物体识别(计算机视觉).信用卡欺诈(数值型预测).情感分析(自然语言处理)等等.针对众多的分类需求,模型的评价标准只是简单的准确率(Accuracy)吗? ...
复练-软考网规-IDS和IPS概念、分类、评价标准
时间戳:2020年10月13日15:44:01 前情提要:IDS和IPS概念.分类.评价标准 IDs是英文" Intrusion Detection Systems'的缩写,中文意思是&qu ...
视频压缩知识介绍（一）——评价标准及算法原理
1.1 视频压缩评价标准评价视频压缩算法的压缩效果,信噪比是一个非常有效的指标,它非常客观.一般来说,同等码率下,解码后图像与原始图像的信噪比高的那个码流,图像效果更 ...

Re-ID的评价标准