评测指标(metrics)

metric主要用来评测机器学习模型的好坏程度,不同的任务应该选择不同的评价指标, 分类,回归和排序问题应该选择不同的评价函数. 不同的问题应该不同对待,即使都是分类问题也不应该唯评价函数论,不同问题不同分析.

回归(Regression)

均方误差(MSE)

(1)l(y,y^)=1n∑i=1n(yi−y^i)2l(y, \hat{y})=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2 \tag{1}l(y,y^)=n1i=1∑n(yi−y^i)2(1)

均方根误差(RMSE)

(2)l(y,y^)=1n∑i=1n(yi−y^i)2l(y, \hat{y})=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2} \tag{2}l(y,y^)=n1i=1∑n(yi−y^i)2(2)

平均绝对误差(MAE)

(3)l(y,y^)=1n∑i=1n∣yi−y^i∣l(y, \hat{y})=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i| \tag{3}l(y,y^)=n1i=1∑n∣yi−y^i∣(3)

R Squared

(4)R2=1−(∑i=1n(yi−y^i)2)/n(∑i=1n(yi−yˉi)2)/nR^2=1-\frac{(\sum_{i=1}^{n}(y_i-\hat{y}i)^2)/n}{(\sum{i=1}^{n}(y_i-\bar{y}_i)^2)/n} \tag{4}R2=1−(∑i=1n(yi−yˉi)2)/n(∑i=1n(yi−y^i)2)/n(4)
其中: y^\hat{y}y^是预测值, yyy是真实值, nnn是样本个数, yˉ\bar{y}yˉ是yyy的平均值.

分类(Classification)

准确率和错误率

(5)acc(y,y^)=1n∑i=1nyi=yi^acc(y,\hat{y})=\frac{1}{n}\sum_{i=1}^{n}y_i=\hat{y_i} \tag{5}acc(y,y^)=n1i=1∑nyi=yi^(5)
(6)error(y,y^)=1−acc(y,y^)error(y, \hat{y})=1-acc(y,\hat{y}) \tag{6}error(y,y^)=1−acc(y,y^)(6)

混淆矩阵,精准率和召回率

对于二分类问题,可将样例根据其真是类别与学习器预测类别的组合划分为真正例(true positive, TP),假正例(false positive, FP),真反例(ture negative, TN),假反例(false negative, FN), 则有:TP+FP+TN+FN=样例总数. 分类结果的混淆矩阵(confusion matrix)如下:

则有精准率P和召回率R定义如下: (7)P=TPTP+FPP=\frac{TP}{TP+FP} \tag{7}P=TP+FPTP(7)
(8)R=TPTP+FNR=\frac{TP}{TP+FN} \tag{8}R=TP+FNTP(8)
则F1值定义如下: (9)1F1=12⋅(1P+1R)\frac{1}{F_1}=\frac{1}{2} \cdot (\frac{1}{P}+\frac{1}{R}) \tag{9}F11=21⋅(P1+R1)(9)
(10)F1=2PRP+RF_1=\frac{2PR}{P+R} \tag{10}F1=P+R2PR(10)

ROC和AUC

ROC全称是"受试者工作特征"(Receiver Operating Characteristic)曲线. 根据学习器的预测结果堆样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值,分别以他们作为横纵坐标作图,就得到"ROC曲线". 其中ROC曲线的横轴是"假正例率"(False Positive Rate, FPR), 纵轴是"真正例率"(True Positive Rate, TPR), 注意这里不是上文提高的P和R. 其中:
(11)TPR=TPTP+FNTPR=\frac{TP}{TP+FN} \tag{11}TPR=TP+FNTP(11) (12)FPR=FPTN+FPFPR=\frac{FP}{TN+FP} \tag{12}FPR=TN+FPFP(12)

现实使用中,一般使用有限个测试样例绘制ROC曲线,此时需要有有限个(真正例率,假正例率)坐标对. 绘图过程如下:

给定m+m^+m+个正例和m−m^-m−个反例,根据学习器预测结果对样例进行排序,然后将分类阈值设为最大,此时真正例率和假正例率都为0,坐标在(0,0)处,标记一个点.

将分类阈值依次设为每个样本的预测值,即依次将每个样本划分为正例.

假设前一个坐标点是(x,y),若当前为真正例,则对应坐标为(x,y+1m+)(x,y+\frac{1}{m^+})(x,y+m+1), 若是假正例,则对应坐标为(x+1m−,y)(x+\frac{1}{m^-}, y)(x+m−1,y)
线段连接相邻的点.

理想的图和现实的图对比如下图(其中对角线对应于"随机猜测"模型):

为了进行比较,较为合理的判别依据是ROC曲线下面的面积,即AUC(Area Under ROC Curve). 从上图看出,AUC可估算为:
(13)AUC=12∑i=1m−1(xi+1−xi)⋅(yi+yi+1)AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot(y_i+y_{i+1}) \tag{13}AUC=21i=1∑m−1(xi+1−xi)⋅(yi+yi+1)(13)
AUC考虑是样本排序的质量,因此它和排序误差有紧密联系.给定m+m^+m+个正例和m−m^-m−个负例,另D+D^+D+和D−D^-D−分别表示正和反例的集合,则排序损失定义为: (14)lrank=1m+m−∑x+∈D+∑x−∈D−(I(f(x+)<f(x−))+12I(f(x+)=f(x−)))l_{rank}=\frac{1}{m^+m^-}\sum_{x^+ \in D^+}\sum_{x^- \in D^-}(I(f(x^+)<f(x^-))+\frac{1}{2}I(f(x^+)=f(x^-))) \tag{14}lrank=m+m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))(14)
即考虑每一对正反例,若正例的预测值小于反例,则记一个"罚分", 若相等,则记0.5个"罚分". 其实lrankl_{rank}lrank对应的是ROC曲线之上的面积,则有:
(15)AUC=1−lrankAUC=1-l_{rank} \tag{15}AUC=1−lrank(15)

CTR和CVR

CTR
CTR（Click-Through-Rate）即点击通过率,是互联网广告常用的术语,指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率,即该广告的实际点击次数（严格的来说,可以是到达目标页面的数量）除以广告的展现量(Show content). (16)ctr=点击次数展示量ctr=\frac{点击次数}{展示量}　\tag{16}ctr=展示量点击次数　(16)

CVR
CVR (Conversion Rate): 转化率。是一个衡量CPA广告效果的指标，简言之就是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率. (17)cvr=点击量转化量cvr=\frac{点击量}{转化量}　\tag{17}cvr=转化量点击量　(17)

参考

周志华西瓜书
李航统计学习方法
https://baike.baidu.com/item/CVR/20215345
https://baike.baidu.com/item/CTR/10653699?fr=aladdin
https://www.cnblogs.com/shenxiaolin/p/9309749.html

评测指标(metrics)相关推荐

机器学习评测指标概述
机器学习评测指标概述文章目录机器学习评测指标概述 1. 基本分类 1.1 样本类别 1.2 置信度阈值 1.3 IoU阈值 2. 基本指标 recall precison accuracy 3.进 ...
数据中台推荐系统入门（三）：推荐系统的评测指标
前言本文介绍一下推荐系统的相关评测指标.推荐系统的数据指标分为两种. (1)商业指标,即推荐系统的与最终交易额相关的指标.我们做推荐系统的目的是为了代替人工给用户推荐商品,提高效率,实现千人千面的用 ...
【推荐系统】推荐系统评测指标
文章目录推荐系统评测指标用户满意度预测准确度覆盖率多样性新颖性惊喜度(serendipity) 信任度实时性健壮性商业目标总结评测维度推荐系统评测指标本节将介绍各种推荐系统 ...
【1】推荐系统评测指标
0.前言: 什么才是好的推荐系统?这是推荐系统评测的需要解决的首要问题.那我们怎么去判断一个系统的好坏呢?我们认为一个好的推荐系统不仅仅能够准确的预测用户的行为,而且还能够扩展用户的视野,帮助用户发现 ...
推荐系统学习之评测指标
最近开始学习推荐系统,特记录一下学习过程并做个分享. 推荐系统是什么不用多说,这里先介绍一下推荐系统的各种评测指标. 1.用户满意度这个指标应该是最能体现一个推荐系统好坏的指标,但获取只能通过用户在 ...
推荐算法（8）评测指标
推荐算法(1):协同过滤总结推荐算法(2):基于内容的推荐推荐算法(3):利用用户标签数据推荐算法(4)利用上下文信息推荐算法(5)利用社交网络数据推荐算法(6) 实例推荐算法(7)缺失的 ...
深度学习、目标检测情景中常见的模型评测指标
作者:RayChiu_Labloy 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处二分类混淆矩阵: 图: 贴心的给出中文图: 四种情况的解释假设我们现在要做从有狗有猫 ...
小白入门计算机视觉系列——ReID(一)：什么是ReID？如何做ReID？ReID数据集？ReID评测指标？
ReID(一):什么是ReID?如何做ReID?ReID数据集?ReID评测指标? 行人重识别(也叫Person ReID),车辆重识别和行人重识别类似,有很多的共同之处,所以以下统称该任务为ReID ...
推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)
下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其 ...

评测指标(metrics)

评测指标(metrics)

回归(Regression)

分类(Classification)

参考

评测指标(metrics)相关推荐

最新文章

热门文章