评测指标(metrics)

metric主要用来评测机器学习模型的好坏程度,不同的任务应该选择不同的评价指标, 分类,回归和排序问题应该选择不同的评价函数. 不同的问题应该不同对待,即使都是 分类问题也不应该唯评价函数论,不同问题不同分析.

回归(Regression)

  1. 均方误差(MSE)

(1)l(y,y^)=1n∑i=1n(yi−y^i)2l(y, \hat{y})=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2 \tag{1}l(y,y^​)=n1​i=1∑n​(yi​−y^​i​)2(1)

  1. 均方根误差(RMSE)

(2)l(y,y^)=1n∑i=1n(yi−y^i)2l(y, \hat{y})=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2} \tag{2}l(y,y^​)=n1​i=1∑n​(yi​−y^​i​)2​(2)

  1. 平均绝对误差(MAE)

(3)l(y,y^)=1n∑i=1n∣yi−y^i∣l(y, \hat{y})=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i| \tag{3}l(y,y^​)=n1​i=1∑n​∣yi​−y^​i​∣(3)

  1. R Squared

(4)R2=1−(∑i=1n(yi−y^i)2)/n(∑i=1n(yi−yˉi)2)/nR^2=1-\frac{(\sum_{i=1}^{n}(y_i-\hat{y}i)^2)/n}{(\sum{i=1}^{n}(y_i-\bar{y}_i)^2)/n} \tag{4}R2=1−(∑i=1n(yi​−yˉ​i​)2)/n(∑i=1n​(yi​−y^​i)2)/n​(4)
其中: y^\hat{y}y^​是预测值, yyy是真实值, nnn是样本个数, yˉ\bar{y}yˉ​是yyy的平均值.

分类(Classification)

  1. 准确率和错误率

(5)acc(y,y^)=1n∑i=1nyi=yi^acc(y,\hat{y})=\frac{1}{n}\sum_{i=1}^{n}y_i=\hat{y_i} \tag{5}acc(y,y^​)=n1​i=1∑n​yi​=yi​^​(5)
(6)error(y,y^)=1−acc(y,y^)error(y, \hat{y})=1-acc(y,\hat{y}) \tag{6}error(y,y^​)=1−acc(y,y^​)(6)

  1. 混淆矩阵,精准率和召回率

对于二分类问题,可将样例根据其真是类别与学习器预测类别的组合划分为真正例(true positive, TP),假正例(false positive, FP),真反例(ture negative, TN),假反例(false negative, FN), 则有:TP+FP+TN+FN=样例总数. 分类结果的混淆矩阵(confusion matrix)如下:

则有精准率P和召回率R定义如下: (7)P=TPTP+FPP=\frac{TP}{TP+FP} \tag{7}P=TP+FPTP​(7)
(8)R=TPTP+FNR=\frac{TP}{TP+FN} \tag{8}R=TP+FNTP​(8)
则F1值定义如下: (9)1F1=12⋅(1P+1R)\frac{1}{F_1}=\frac{1}{2} \cdot (\frac{1}{P}+\frac{1}{R}) \tag{9}F1​1​=21​⋅(P1​+R1​)(9)
(10)F1=2PRP+RF_1=\frac{2PR}{P+R} \tag{10}F1​=P+R2PR​(10)

  1. ROC和AUC

ROC全称是"受试者工作特征"(Receiver Operating Characteristic)曲线. 根据学习器的预测结果堆样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值,分别以他们作为横纵坐标作图,就得到"ROC曲线". 其中ROC曲线的横轴是"假正例率"(False Positive Rate, FPR), 纵轴是"真正例率"(True Positive Rate, TPR), 注意这里不是上文提高的P和R. 其中:
(11)TPR=TPTP+FNTPR=\frac{TP}{TP+FN} \tag{11}TPR=TP+FNTP​(11) (12)FPR=FPTN+FPFPR=\frac{FP}{TN+FP} \tag{12}FPR=TN+FPFP​(12)

现实使用中,一般使用有限个测试样例绘制ROC曲线,此时需要有有限个(真正例率,假正例率)坐标对. 绘图过程如下:

  1. 给定m+m^+m+个正例和m−m^-m−个反例,根据学习器预测结果对样例进行排序,然后将分类阈值设为最大,此时真正例率和假正例率都为0,坐标在(0,0)处,标记一个点.
  2. 将分类阈值依次设为每个样本的预测值,即依次将每个样本划分为正例.
  3. 假设前一个坐标点是(x,y),若当前为真正例,则对应坐标为(x,y+1m+)(x,y+\frac{1}{m^+})(x,y+m+1​), 若是假正例,则对应坐标为(x+1m−,y)(x+\frac{1}{m^-}, y)(x+m−1​,y)
    线段连接相邻的点.

理想的图和现实的图对比如下图(其中对角线对应于"随机猜测"模型):

为了进行比较,较为合理的判别依据是ROC曲线下面的面积,即AUC(Area Under ROC Curve). 从上图看出,AUC可估算为:
(13)AUC=12∑i=1m−1(xi+1−xi)⋅(yi+yi+1)AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot(y_i+y_{i+1}) \tag{13}AUC=21​i=1∑m−1​(xi+1​−xi​)⋅(yi​+yi+1​)(13)
AUC考虑是样本排序的质量,因此它和排序误差有紧密联系.给定m+m^+m+个正例和m−m^-m−个负例,另D+D^+D+和D−D^-D−分别表示正和反例的集合,则排序损失定义为: (14)lrank=1m+m−∑x+∈D+∑x−∈D−(I(f(x+)&lt;f(x−))+12I(f(x+)=f(x−)))l_{rank}=\frac{1}{m^+m^-}\sum_{x^+ \in D^+}\sum_{x^- \in D^-}(I(f(x^+)&lt;f(x^-))+\frac{1}{2}I(f(x^+)=f(x^-))) \tag{14}lrank​=m+m−1​x+∈D+∑​x−∈D−∑​(I(f(x+)<f(x−))+21​I(f(x+)=f(x−)))(14)
即考虑每一对正反例,若正例的预测值小于反例,则记一个"罚分", 若相等,则记0.5个"罚分". 其实lrankl_{rank}lrank​对应的是ROC曲线之上的面积,则有:
(15)AUC=1−lrankAUC=1-l_{rank} \tag{15}AUC=1−lrank​(15)

  1. CTR和CVR
  1. CTR
    CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content). (16)ctr=点击次数展示量ctr=\frac{点击次数}{展示量} \tag{16}ctr=展示量点击次数​ (16)
  2. CVR
    CVR (Conversion Rate): 转化率。是一个衡量CPA广告效果的指标,简言之就是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率. (17)cvr=点击量转化量cvr=\frac{点击量}{转化量} \tag{17}cvr=转化量点击量​ (17)

参考

  1. 周志华 西瓜书
  2. 李航 统计学习方法
  3. https://baike.baidu.com/item/CVR/20215345
  4. https://baike.baidu.com/item/CTR/10653699?fr=aladdin
  5. https://www.cnblogs.com/shenxiaolin/p/9309749.html

评测指标(metrics)相关推荐

  1. 机器学习评测指标概述

    机器学习评测指标概述 文章目录 机器学习评测指标概述 1. 基本分类 1.1 样本类别 1.2 置信度阈值 1.3 IoU阈值 2. 基本指标 recall precison accuracy 3.进 ...

  2. 数据中台推荐系统入门(三):推荐系统的评测指标

    前言 本文介绍一下推荐系统的相关评测指标.推荐系统的数据指标分为两种. (1)商业指标,即推荐系统的与最终交易额相关的指标.我们做推荐系统的目的是为了代替人工给用户推荐商品,提高效率,实现千人千面的用 ...

  3. 【推荐系统】推荐系统评测指标

    文章目录 推荐系统评测指标 用户满意度 预测准确度 覆盖率 多样性 新颖性 惊喜度(serendipity) 信任度 实时性 健壮性 商业目标 总结 评测维度 推荐系统评测指标 本节将介绍各种推荐系统 ...

  4. 【1】推荐系统评测指标

    0.前言: 什么才是好的推荐系统?这是推荐系统评测的需要解决的首要问题.那我们怎么去判断一个系统的好坏呢?我们认为一个好的推荐系统不仅仅能够准确的预测用户的行为,而且还能够扩展用户的视野,帮助用户发现 ...

  5. 推荐系统学习之评测指标

    最近开始学习推荐系统,特记录一下学习过程并做个分享. 推荐系统是什么不用多说,这里先介绍一下推荐系统的各种评测指标. 1.用户满意度 这个指标应该是最能体现一个推荐系统好坏的指标,但获取只能通过用户在 ...

  6. 推荐算法(8)评测指标

    推荐算法(1):协同过滤总结 推荐算法(2):基于内容的推荐 推荐算法(3):利用用户标签数据 推荐算法(4)利用上下文信息 推荐算法(5)利用社交网络数据 推荐算法(6) 实例 推荐算法(7)缺失的 ...

  7. 深度学习、目标检测情景中常见的模型评测指标

    作者:RayChiu_Labloy 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 二分类混淆矩阵: 图: 贴心的给出中文图: 四种情况的解释 假设我们现在要做从有狗有猫 ...

  8. 小白入门计算机视觉系列——ReID(一):什么是ReID?如何做ReID?ReID数据集?ReID评测指标?

    ReID(一):什么是ReID?如何做ReID?ReID数据集?ReID评测指标? 行人重识别(也叫Person ReID),车辆重识别和行人重识别类似,有很多的共同之处,所以以下统称该任务为ReID ...

  9. 推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

     下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其 ...

最新文章

  1. Linux简单的颜色设置
  2. 三电平igbt死区时间计算_IGBT基础与运用知识
  3. 第二十六天 iptables的nat功能
  4. MATLAB中多个一维数组的合并
  5. 科大星云诗社动态20210508
  6. mybatis应用(三)优化
  7. 计算机展望未来网络形态,在学习中展望未来
  8. BZOJ3884 上帝与集合的正确用法 【欧拉定理】
  9. 最全银行IT核心系统:研究框架(165页)
  10. SEO行业应该如何给客户报价
  11. java 模式匹配_Java 14 模式匹配,非常赞的一个新特性!
  12. [离散数学]命题逻辑P_2:命题联结词
  13. 数值分析-数值分析下的误差分析
  14. LaTeX代码: 表格 ← 利用 tabular
  15. ORA-12154: TNS: 无法解析指定的连接“/one card”应用程序中的服务器错误
  16. 空中“撒网”有商机 各行各业争相分一杯羹
  17. js UUID 生成
  18. 528沉思录 -- 年轻人,停下来想想,思考不是浪费时间
  19. JAVA中的延时队列DelayQueue
  20. 关于AD10如何输出自己想要的BOM表

热门文章

  1. 倒置函数reverse的用法
  2. metasploit-smb扫描获取系统信息
  3. Find Minimumd in Rotated Sorted Array
  4. maven3 手动安装本地jar到仓库
  5. 一个几何不等式的最佳常数
  6. 让VirtualBox的虚拟机器在电脑开机时自动启动
  7. asp.net获取网站路径
  8. 如何通过一行代码下载B站视频?
  9. 证明实对称正定矩阵A的Gauss-Seidel法必定收敛(完整过程)
  10. AI 技术升级,这一新方法遏制在线语言骚扰