所有事情都需要评估好坏,模型当然也需要!机器学习算法最终的目的就是生成模型,模型的评估有很多指标,主流的评估指标包括 准确率, 召回率 ,F1, AUC 曲线, ROC 曲线

目录

一、评估指标的分类

分类问题评估指标

回归问题评估指标

二、分类问题

什么是分类问题?

分类问题的评估指标详解

准确率 — Accuracy

精确率(查准率)- Precision

召回率(查全率)- Recall

F1-measure

ROC曲线、AUC曲线


一、评估指标的分类

分类问题评估指标

  1. 准确率 — Accuracy
  2. 精确率(查准率)- Precision
  3. 召回率(查全率)- Recall
  4. F1-Measure
  5. ROC曲线
  6. AUC曲线

回归问题评估指标

  1. MAE
  2. MSE

二、分类问题

什么是分类问题?

已知:班里有50个同学,20个男生,30个女生。有一个可以评估预测性别的模型。
假设:判断输入的同学是否是男生。(男生是正样本)
结果:将会出现以下四种情况
  • 输入为男性,机器预测为男性(机器预测正确)
  • 输入为男性,机器预测为女性(机器预测错误)
  • 输入为女性,机器预测为女性(机器预测正确)
  • 输入为女性,机器预测为男性(机器预测错误)
以上4种情况构成了混淆矩阵:
P(Positive): 预测结果是正样本
N(Negative): 预测结果是负样本
T(True): 预测结果正确
F(False): 预测结果错误
输入:男生 输入:女生
机器预测:男生 男生→男生
预测结果正确且预测结果为正样本TP
女生→男生
预测结果错误且预测结果为正样本FP
机器预测:女生 男生→女生
预测结果错误且预测结果为负样本FN
女生→女生
预测结果正确且预测结果为负样本TN
  • TP — True Positive:     输入男生,预测为男生(正确)
  • FN — False Negative: 输入男生,预测为女生(错误)
  • TN — True Negative:  输入女生,预测为女性(正确)
  • FP — False Positive:    输入女生,预测为男生(错误)

分类问题的评估指标详解

准确率 — Accuracy

预测正确的结果占总样本的百分比,公式:准确率 =(TP+TN)/(TP+TN+FP+FN)

虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举例,比如在一个总样本中,正样本占 80%,负样本占 20%,样本严重失衡。对于这种正样本占比较大的样本,随意预测分类即可得到 90% 的高准确率。由于样本不平衡的问题,导致得到的高准确率结果信服力低。即如果样本不平衡,准确率就会失效。

精确率(查准率)- Precision

所有被预测为正的样本中实际为正的样本的概率,公式:精准率 =TP/(TP+FP)

精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

召回率(查全率)- Recall

实际为正的样本中被预测为正样本的概率,公式:召回率=TP/(TP+FN)

召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个。

F1-measure

精准率和召回率的综合评估指标:F1=(2×精准率×召回率)/(精准率+召回率)

把精确率(Precision)和召回率(Recall)之间的关系用图来表达,就是下面的PR曲线:为了综合两者的表现,在两者之间找一个平衡点,就出现了一个 F1分数。

ROC曲线、AUC曲线

详见:https://www.6aiq.com/article/1549986548173

图中的齿状弧形曲线就是ROC曲线。这个曲线的横轴为FP,纵轴为TP。如何来评估魔性的好坏呢?模型的曲线越接近左上角,说明模型的效果越好。通过AUC值来表示ROC曲线和横轴围起来的面积,也就是ROC曲线下的覆盖的部分,这个AUC的值越大,说明模型效果越好。

AUC 的一般判断标准

  • 0.5–0.7: 效果较低,但是用于股票基金已经很可以了
  • 0.7–0.85: 效果一般
  • 0.85–0.95: 效果很好
  • 0.95–1: 效果非常好,但一般不太可

机器学习如何评估模型结果的好坏相关推荐

  1. R语言第八讲 评估模型之交叉验证法分析案例

    题目 评估Auto数据集上拟合多个线性模型所产生的测试错误率.Auto数据集是存在与ISLR程序包中的一个摩托车相关数据的数据集,读者可自行下载ISLR程序包,并将Auto数据集加载. 相关资料 交叉 ...

  2. 机器学习笔记(二)模型评估与选择

    2.模型评估与选择 2.1经验误差和过拟合 不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合. 1)经验误差 错误率(errorrate):分类错误 ...

  3. [机器学习] 二分类模型评估指标---精确率Precision、召回率Recall、ROC|AUC

    一 为什么要评估模型? 一句话,想找到最有效的模型.模型的应用是循环迭代的过程,只有通过持续调整和调优才能适应在线数据和业务目标. 选定模型时一开始都是假设数据的分布是一定的,然而数据的分布会随着时间 ...

  4. 【火炉炼AI】机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法

    [火炉炼AI]机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法 [本文所使用的Python库和版本号]: Python 3.5, Numpy 1.14, scikit-learn 0.1 ...

  5. python分类预测降低准确率_【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值...

    [火炉炼AI]机器学习011-分类模型的评估:准确率,精确率,召回率,F1值 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19 ...

  6. 机器学习实战:模型评估和优化

    原文: Real-World Machine Learning: Model Evaluation and Optimization 作者:Henrik Brink, Joseph W. Richar ...

  7. ML之ME/LF:机器学习中常见模型评估指标/损失函数(LiR损失、L1损失、L2损失、Logistic损失)求梯度/求导、案例应用之详细攻略

    ML之ME/LF:机器学习中常见模型评估指标/损失函数(LiR损失.L1损失.L2损失.Logistic损失)求梯度/求导.案例应用之详细攻略 目录 常见损失函数求梯度案例 1.线性回归求梯度 2.L ...

  8. ML之ME/LF:机器学习中的模型评估指标/损失函数(连续型/离散型)的简介、损失函数/代价函数/目标函数之间区别、案例应用之详细攻略

    ML之ME/LF:机器学习中的模型评估指标/损失函数(连续型/离散型)的简介.损失函数/代价函数/目标函数之间区别.案例应用之详细攻略 目录 损失函数的简介 损失函数/代价函数/目标函数之间区别 损失 ...

  9. 【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型

    [火炉炼AI]机器学习006-用决策树回归器构建房价评估模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplo ...

最新文章

  1. 并发编程之多进程进程进程
  2. mysql 高性能引擎_《高性能MySQL》笔记1-MySQL架构与引擎
  3. php cdi_CDI和lambda的策略模式
  4. 灯塔,大海,大风。(一)
  5. 诗与远方:无题(六十七)- 张国荣,想你
  6. redis4数据类型.更新HyperLogLog类型
  7. 实验一 MATLAB软件的使用
  8. string类常用方法3
  9. 精选了20个Python实战项目(附源码),拿走就用!
  10. 【mud】金庸武侠年表-清朝以前
  11. UE4 半透明材质粒子无法在透明背景前显示问题
  12. 《惊人的假说-灵魂的科学探索》读书笔记(1)
  13. 教妹学 Java:晦涩难懂的泛型
  14. 【强化记忆】生物选修三填空题考点强化记忆2-胚胎工程、安全伦理问题、生态工程——2017年2月25日...
  15. Idea中GsonFormat插件安装
  16. 时间序列预测(2):AI助力精准气象和海洋预测
  17. IDM下载百度网盘文件,获取百度网盘文件url地址,破解
  18. 计算机仿真与实际应用的区别,虚拟现实技术与计算机仿真技术的区别?
  19. LSD激光雷达简单介绍
  20. 【2021.04.05】成功解决OBS录屏黑屏问题

热门文章

  1. 【矩阵乘法】CDOJ1610 黑红梅方
  2. 记录操作日志(JAVA版某大厂基础实践)
  3. Python123 Python基本语法元素 (第1周) 数字形式转换 I
  4. WordPress图片防盗链的几种方法
  5. Web自动化测试二:selenium打开和登录浏览器(火狐、IE、chrome)
  6. mysql or不走索引分析
  7. vue 打包优化,解决包大下载慢
  8. 佛组说出爱情箴言-转贴
  9. 发泡餐具 消毒餐具哪个好?
  10. html gif重复播放,javascript – ngIf with ngAnimate – 动画期间重复的HTML内容