IR的评价指标-MAP,NDCG和MRR
- Map:相关性,1 or 0,计算排序后rank值
- NDCG:
- 设定相关性等级(2^5-1, 2^4-1…)
- 计算累计增益值(嗯,就累加起来)
- 计算折算因子log(2)/log(1+rank) (越靠前的,越容易被点击)
- 归一化到NDCG,为了不同等级上的搜索结果的得分值容易比较
4.1. 首先计算理想list的MaxDCG
4.2 相除即可
- MRR:”把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。”
———————————————–
http://www.cnblogs.com/HappyAngel/p/3535919.html
NDCG如何理解?对于搜索引擎,本质是用户搜一个query,引擎返回一个结果列表,那么如何衡量这个结果列表的好坏?我能够想到的是:
我们希望把最相关的结果放到排名最靠前的位置,因为大部分用户都是从上往下阅读的,那么最相关的在前面可以最大程度减少用户的阅读时间;
我们希望整个列表的结果尽可能的和query相关;
第一个条件的满足是首要的,而第二个条件的加入是保证整体结果质量,而这两个条件都体现在了NDCG里面,首先,计算NDCG,需要计算Gain,这个gain即是每条结果的质量的定义,NDCG把所有结果相加最终相加保证,整体质量越高的列表NDCG值越大。同时,Discounted的设计使得越靠前的结果权重越大,这保证了第一条,更相关的排在靠前的结果会有更大的NDCG值。从这两点看,以NDCG为优化目标,保证了搜索引擎在返回结果总体质量好的情况下,把更高质量结果排在更前面。
NDCG提供了一种计算方式,当我们有其他排名类似的需求的时候,NDCG都是值得参考的,其Gain以及Discounted的计算的变化可以产生很多其他有价值的metrics
———————————————–
http://www.cnblogs.com/ywl925/archive/2013/08/16/3262209.html
MAP(Mean Average Precision):
单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。”
NDCG(Normalized Discounted Cumulative Gain):
计算相对复杂。对于排在结位置n处的NDCG的计算公式如下图所示:
在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。NDCG中改进了下,相关度分成从0到r的r+1的等级(r可设定)。当取r=5时,等级设定如下图所示:
(应该还有r=1那一级,原文档有误,不过这里不影响理解)
例如现在有一个query={abc},返回下图左列的Ranked List(URL),当假设用户的选择与排序结果无关(即每一级都等概率被选中),则生成的累计增益值如下图最右列所示:
考虑到一般情况下用户会优先点选排在前面的搜索结果,所以应该引入一个折算因子(discounting factor): log(2)/log(1+rank)。这时将获得DCG值(Discounted Cumulative Gain)如下如所示:
最后,为了使不同等级上的搜索结果的得分值容易比较,需要将DCG值归一化的到NDCG值。操作如下图所示,首先计算理想返回结果List的DCG值:
然后用DCG/MaxDCG就得到NDCG值,如下图所示:
MRR(Mean Reciprocal Rank):
是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。相对简单,举个例子:有3个query如下图所示:
(黑体为返回结果中最匹配的一项)
可计算这个系统的MRR值为:(1/3 + 1/2 + 1)/3 = 11/18=0.61。
IR的评价指标-MAP,NDCG和MRR相关推荐
- 信息检索IR评价中常见的评价指标-MAP\NDCG\ERR\P@10等
信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动.通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高.信息检索系统的目标是较少消耗情况下 ...
- IR的评价指标-MAP,MRR和NDCG的形象理解
一 .MAP(Mean Average Precision): 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值.主集合的平均准确率(MAP)是每个主题的平均准确率的平均值.MAP 是反映系 ...
- 问答系统QA的评价指标MAP、MRR、Accuracy@N
问答系统性能的评价指标MAP.MRR.Accuracy@N MAP(mean average precision) 即平均准确率,系统对所有候选答案进行评分,并按分值大小进行排序,正确答案越靠前,MA ...
- 信息检索(IR)的评价指标介绍
信息检索(IR)的评价指标介绍 一.准确率.召回率和F1 IR领域两个最基本的指标召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率. 1.召 ...
- 评价指标:目标检测的评价指标 - mAP
本文建议阅读时间 8 min 基本概念 AP & mAP AP:PR 曲线下面积(下面会说明) mAP:mean Average Precision, 即各类别 AP 的平均值 TP.FP.F ...
- 目标检测重要评价指标——mAP的含义及计算
目标检测常见评价指标 1. 公开数据集 评价标准:pascal voc, coco,目前基本都在使用coco数据集. 2.评价指标 mAP: mean Average Precision, 即所有类别 ...
- 目标检测评价指标mAP
目标检测评价指标 mAP是目标检测中常用的评价指标之一,在论文中可以经常看到.全称是mean average precision (mAP)即各个类别AP的平均值.常用的评测指标有: mAP: mea ...
- 信息检索中 (IR) 的评价指标: P@n, MAP, MRR, DCG, NDCG
转载自: http://www.yongfeiyan.cn/post/md/3 P@n 前 n 个结果的准确度, P指的是Precision. 如果用 y i = 0 , 1 y_i=0,1 yi= ...
- 推荐算法常用评价指标:NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等
1 混淆矩阵 TP(true positive):表示样本的真实类别为正,最后预测得到的结果也为正: FP(false positive):表示样本的真实类别为负,最后预测得到的结果却为正: FN(f ...
最新文章
- [JAVA EE] JPA技术基础:完成数据列表显示
- 人类或起源于古菌?真假?
- python计算tfidf sklearn计算
- MySQL高级 - 日志 - 错误日志
- mysql innodb事务中_MySQL InnoDB如何保证事务特性示例详解
- 【图像去噪】基于matlab最佳加权双边滤波图像去噪【含Matlab源码 459期】
- python 设置请求时间间隔_如何自学Python爬虫?新手入门教程
- 傅里叶分析之掐死教程(完整版)
- setting-mirrorO以及下载jar包流程简介
- php的tips(mysql语句union等问题)
- 关于JAVA的优势——跨平台和健壮性
- 自建 Bitwarden 服务器
- Spring boot整合Drools、flowable决策引擎解决方案
- CCS编译优化与volatile
- 智库献策大数据时代食品安全
- python多光谱遥感数据处理、图像分类、定量评估及机器学习方法
- 权限管理中的RBAC与ABAC
- 如何把ogg转换成mp3
- 数据库应用最基础知识!
- 免费的简历模板网站推荐
热门文章
- 检测U盘插入并自动备份自定义文件下的文件(支持增量更新)
- Eclipse安装与使用教程
- Tkinter写一个音乐下载器
- java入门123 pdf下载_Java入门123:一个老鸟的Java学习心得 pdf_IT教程网
- python 数据处理之使用get_dummies进行one-hot编码
- 「杂谈」最有可能成为第五个一线城市,苏州 or 杭州?
- Excel +VBA +ADO+Access数据库分页显示
- C语言入门(二)主菜单操作
- 线条边框简笔画图片大全_每天学一幅简笔画生活小物简笔画图片大全!
- MLE的数值确定:Newton-Raphson迭代法、得分法