机器学习和推荐系统中的评测指标—(1)准确率(Accuracy);(2)错误率(Error rate)(3)精确率、精度(Precision);(4)召回率(Recall);(5)灵敏度/敏感性(sensitive);(6)特效度/特异性(specificity);(7)F值(F-Measure)简介/综合评价指标(F-Measure);(8)计算速度;(9)鲁棒性;(10)可扩展性;(11)可解释性;(12)ROC曲线(Receiver Operating Characteristic);(13)PR曲线(Precision-Recall曲线);(14)AUC(Area UnderCharacteristic)。

在介绍以上指标时先引入几个概念:(必须先了解“混淆矩阵”)(正确和错误是True和False表示预测结果是否正确,T表示不管是在预测为P还是N的结果中预测正确的情况)(正负是positive和Negative表示预测的结果,就是样本被预测为P还是N)

True Positive(TP:真正):在判定为positive(正)的样本中,判断正确的数目(真实情况为正例,预测情况为正例)---即将真类预测为正类数。(就是在将测试样本判定为Positive的预测结果样本中,有多少个True就是预测正确的数目)(统计在Positive预测结果中,预测正确True的数目)

False Positive(FP:假正):在判定为positive(正)的样本中,判断错误的数目(真实情况为反例,预测情况为正例)---即将假类预测为正类数(误报)。(就是在将测试样本判定为Positive的结果样本中,有多少个False就是预测错误的数目))(统计在Positive预测结果中,预测错误False的数目)

True Negative(TN:真负):在判定为Negative的样本中,判断正确的数目((真实情况为反例,预测情况为反例))---即将真类预测为负类数。(就是在将测试样本判断为Negative的结果样本中,有多少个True就是预测正确的数目)(统计在Negative预测结果中,预测正确True的数目)

False Negative(FN:假负):在判定为Negative的样本中,判断错误的数目(真实情况为正例,预测情况为反例)---即将假类预测为负类数。(就是在将测试样本判断为Negative的结果样本中,有多少个False就是预测错误的数目,即将真的也预测为Negative了,就是预测错误了,要统计将真的预测为Negative的数目)(统计在Negative预测结果中,预测错False的数目)

  Positive Negative
True TP TN
False FP FN

实际类别和预测类别:

                 预测类别
Yes/P/正例 No/N/负例 总计

Yes/T/预测正确 TP FN P(本来实际为Yes)
No/F/预测错误 FP TN N(本来实际为No)
总计 (被分为Yes)(所有的实际是Y/N被预测为P的数目) (所有的实际为Y/N的被预测为N的数目) P+N

(1)准确率(Accuracy)计算公式A:(被分对的样本除以所有的样本数)

(准确率就是预测正确的(TP、TN)除以所有的结果)(T表示在P和N的预测结果中预测正确)

正确率越高,分类器越好。

(2)错误率(Error rate)计算公式:(错误率与准确率相反,描述被分类器错分的比例)

分对与分错是互斥事件,所以accuracy=1-error rate

(3)精确率、精度(Precision)计算公式:

表示被分为正例(positive)的示例中实际为正例的比例。

(精确率和召回率是相互影响的,理想情况下两者都高,但是一般情况下准确率高,召回率就低;召回率高,精确率就低;如果两者都低应该是哪里算的有问题)

(4)召回率(Recall)计算公式R:

召回率是覆盖面的度量,度量有多少个正例被分为正例。(有多少个正例中的正例值的是正确分为正例的个数,被分为正例中的正例包含正确分的和错误分的(错误分的就是正例被分到N中就是N中分错的即FN))

可以看到召回率和灵敏度是一样的。

(5)灵敏度(sensitive)计算公式:(表示所有正例中P被分对的TP比例,衡量了分类器对负例的识别能力)

(6)特效度(specificity)计算公式:(表示所有负例中N被分对的TN比例,衡量了分类器对负例的识别能力)

(7)F值(F-Measure)简介/综合评价指标(F-Measure)(又称为F-Fcore):

P和R有时间会出现矛盾的情况下,在P精确率和R召回率都要求高的情况下,综合衡量P和R就用F值:

F-Measure是Precision和Recall的加权调和平均:

当参数时,就是最常见的F1(F1 score),也即

可知F1综合了P和R的结果,当F1较高时则能说明实验方法比较有效;一般多个模型假设进行比较时,F1 score越高,说明它越好。

(8)计算速度:分类器训练和预测需要的时间。

(9)鲁棒性:处理缺失值和异常值的能力。

(10)可扩展性:处理大数据集的能力。

(11)可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解,而神经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。

(12)ROC曲线(Receiver Operating Characteristic):

ROC曲线是以假正例率(FP_rate(真实值为负例,而预测为正例的比例)和真正例率(TP_rate(真实值是正例,且预测为正例的比例))为轴的曲线,ROC曲线下面的面积我们叫做AUC,一般AUC值越大,说明模型越好。如图所示:(ROC曲线一般横轴是FP_rate,纵轴是TP_rate)

(13)PR曲线(Precision-Recall曲线)

假设N_c>>P_c(即Negative的数量远远大于Positive的数量),若FP很大,即有很多N的sample被预测为P,因为,因此FP_rate的值仍然很小(如果利用ROC曲线则会判断其性能很好,但是实际上其性能并不好),但是如果利用PR,因为Precision综合考虑了TP和FP的值,因此在极度不平衡的数据下(Positive的样本较少),PR曲线可能比ROC曲线更实用。

(14)AUC(Area UnderCharacteristic)

ROC曲线下面积是分类器区分类的能力的度量,用作ROC曲线的总结。AUC越高,模型在区分正类和负类方面的性能越好。

1)当AUC=1时,分类器能够正确区分所有的正类点和负类点。然而,如果AUC为0,那么分类器将预测所有的否定为肯定,所有的肯定为否定。

2)当0.5<AUC<1时,分类器很有可能区分正类值和负类值。这是因为与假反例和假正例相比,分类器能够检测更多的真正例和真反例。

3)当AUC=0.5时,分类器无法区分正类点和负类点。这意味着分类器要么预测所有数据点的随机类,要么预测常量类。

因此,分类器的AUC值越高,其区分正类和负类的能力就越好。

参考连接:http://www.jisuapp.cn/news/8752.html

机器学习中算法的性能评估相关推荐

  1. 机器学习(17)无监督学习 -- K-means算法与性能评估

    目录 一.K-means 1.概念 2.过程 3.API(K-means) 二.K-means性能评估 1.轮廓系数 2.API(轮廓系数) 一.K-means 1.概念 无监督学习:没有目标值(没有 ...

  2. 【理论 | 代码】机器学习分类与回归性能评估指标大全

    一.回归指标 1.1 均方误差(Mean Squared Error, MSE) MSE 称为均方误差,又被称为 L2 范数损失,该统计参数是预测数据和原始数据对应点误差的平方和的均值,公式如下: M ...

  3. 机器学习中算法与模型的区别

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要7分钟 跟随小博主,每天进步一丢丢 Datawhale干货 来自:Datawhale 作者:Sambodhi,海边的拾遗者 导读 机器学习涉及到 ...

  4. 图解机器学习之回归模型性能评估指标

    一个房价预测的任务,老板说你看看这个模型咋样? 我们先绘制一个坐标轴: Y 轴为房价,X 轴为年份.将过去房价数据绘制为绿色,回归模型绘制为蓝色. 关键问题是,怎么知道这个模型的好坏呢? 为了评估该模 ...

  5. 机器学习算法的效果评估和优化方法

    当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,我们下一步可以做什么? 1.获得更多的训练实例--通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法. 2.尝试减 ...

  6. 机器学习中的概念区分:模型 vs 算法

    文章目录 1. 刷题里的算法 2. 机器学习里的算法 2.1 理解1:比较浅显,靠近常规认知 2.2 理解2:比较复杂,有点矛盾 2.3 我的理解 2.3.1 目标函数 vs 损失函数 以前没有注意过 ...

  7. 终于有人把机器学习中的评价指标讲清楚了

     前 言  在人工智能领域,机器学习的效果需要用各种指标来评价.本文将阐述机器学习中的常用性能评价指标,矢量卷积与神经网格的评价指标不包括在内. 训练与识别 当一个机器学习模型建立好了之后,即模型训练 ...

  8. 当谈论机器学习中的公平公正时,我们该谈论些什么?

    作者 | Synced 来源 | 机器之心(almosthuman2014) 随着人工智能系统和应用程序在我们日常生活中的广泛应用,人工智能已经成为了辅助人们决策的重要工具,例如,使用推荐系统算法做出 ...

  9. 主流监督式机器学习分类算法

    主流监督式机器学习分类算法的性能比较 姓名:欧阳qq     学号:169559 摘要:机器学习是未来解决工程实践问题的一个重要思路.本文采比较了目前监督式学习中几种主流的分类算法(决策树.SVM.贝 ...

最新文章

  1. 李飞飞、吴恩达、Bengio等人的15大顶级深度学习课程,你收集全了吗?
  2. typescript设置默认值_TypeScript 中神奇的 this 类型声明
  3. #celery#周期性任务
  4. java银行利率_Java-银行计算利息
  5. Python实现感知器的逻辑电路(与门、与非门、或门、异或门)
  6. JUC系列四:任务的取消与关闭
  7. linux备份文件放在哪里,linux备份文件命令有哪些?
  8. acm 用java_acm竞赛中使用java是一种什么体验?
  9. 风筝 vpn_风筝将其AI驱动的代码完成功能引入JavaScript
  10. PBI培训(3):Power BI主题设置方法汇总及示例
  11. c语言程序设计慕课版答案潘晟旻,附件1团队及组成.doc
  12. 使用openocd调试Linux内核,OpenOCD-JTAG调试(示例代码)
  13. Substrate 基础教程(Tutorials) -- 模拟网络 添加可信节点
  14. overflow(溢出)属性的5个值
  15. 中科院自动化研究所彭思龙:科学家创业的“七宗罪”
  16. 版式设计在界面中的应用
  17. htc android怎么截屏,htc手机怎样截图手机屏幕
  18. 如何使用命令在navicat中操作
  19. 陈南峰质量讲堂6 | 数字化质量管理系统QMS
  20. 【ubuntu】linux中如何破解UltraEdit

热门文章

  1. 2021年大数据Hive(十一):Hive调优
  2. vsftpd的主配置文件是什么linux,linux下vsftpd配置文件选项详细说明
  3. Java语言中的数据类型
  4. 包含锚点平滑滚动效果/解决锚点链接碰到固定定位问题/导航选中背景变色/固顶/返回顶部效果全...
  5. day3----编码-集合-深浅copy-文件操作-函数初识
  6. C++ 笔记(15)— 引用(声明引用、引用作为参数、引用作为函数返回值、const 用于引用)
  7. shell中十种实现自加的方法
  8. Java fork join ForkJoinPool 用法例子
  9. Android 趣味应用—— 短信编辑器
  10. Linux命令学习总结:hexdump