https://www.toutiao.com/a6700782123118232068/

机器学习系列16:机器学习系统设计

偏斜分类的误差评估

举个例子,我们想训练一个模型去诊断患者是否患有癌症。在人群中,患有癌症是一个极小概率发生的事情,比如 1000 个人中患有癌症的只有 5 人。那么在这个样本中,患有癌症的人的概率为 0.5%,正常人的概率为 99.5%,这是一个偏斜类,正结果(设为 1 )占总样本数极小。

如果我们训练的机器学习模型的正确率为 99%,看似这个正确率非常高,模型表现的很好,可是考虑下面这个模型(这都算不上一个模型):令所有的结果全部输出为 0(也就是认为所有人都是没有癌症的),它的正确率会达到 99.5%,比我们用机器学习训练的模型正确率还要高,那么这么模型就是好的吗?肯定不是,这个模型什么事情都没有做!我们被它欺骗了。

为了防止被结果欺骗,我们要用到偏斜分类的误差评估这种方法。其中用到了评估度量值:查准率(precision)和召回率(recall)。如下图:

我们将算法预测的结果分为 4 中情况:

1.正确肯定(True Positive): 预测为真,结果为真

2.正确否定(True Negative): 预测为假,结果为假

3.错误肯定(False Positive): 预测为真,结果为假

4.错误否定(False Negative):预测为假,结果为真

查准率和召回率的定义已经在上图中列出来了。可以知道,查准率是在所有我们预测结果为真的情况下,预测成功的概率;召回率是在所有实际结果为真的情况下,我们预测成功的概率。那么回到刚才的问题,查准率是在所有我们预测为癌症的患者中,实际患有癌症的概率;召回率是在全部实际患有癌症的患者中,我们预测成功的概率。对于认为所有人都没有患癌症的算法,召回率为 0,那么这种算法就表现的很差,我们就不会被算法表面的结果所欺骗。

权衡查准率和召回率

回顾逻辑回归算法:

当我们把临界值 0.5 增大,查准率就会增大而召回率就会减小,当我们把临界值 0.5 减小,查准率就会减小而召回率就会增大。

评估一个算法的好坏我们要用到评估度量值,评估度量值是一个实数,能够评估这个算法的好坏,但是现在有两个值,我们就没办法确定究竟怎么选择。这时候首先想到用平均值,但是会发现,Algorithm 3 的平均值最大但是这个算法表现的是最差的,因此取查准率和召回率的平均值这种做法是不可取的。

我们需要要用到 F1 值去计算评估度量值。根据 F1 值的定义,当查准率和召回率其中有一个为 0 时,F1 值就为 0,因此 F1 值可以作为评估度量值。

机器学习系列16:机器学习系统设计相关推荐

  1. 机器学习系列2 机器学习的公平性

    图1 机器学习的公平性 目录 一.学习准备 二.数据和算法的不公平 1.公平性失衡造成的危害 ①分配 ②服务质量 ③成见 ④诋毁 ⑤代表性过高或不足 三.如何改善不公平性? 1.检测不公平 2.了解并 ...

  2. 【机器学习系列】机器学习简介

    一.机器学习概念 定义:对于某类任务 T 和性能度量 P,如果一个计算机程序在 T上 以P衡量的性能随着经验E 而自我完善,那么就称这个计算机程序在从经验 E学习 机器学习时计算机科学的子领域,也是人 ...

  3. 阿里巴巴机器学习系列课程

    亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow.Caffe.MXNET ...

  4. 机器学习系列(8)_读《Nature》论文,看AlphaGo养成

    机器学习系列(8)_读<Nature>论文,看AlphaGo养成  标签: 机器学习算法深度学习神经网络蒙特卡罗树搜索 2016-03-16 11:23 17843人阅读 评论(8) 收藏 ...

  5. 机器学习系列(1)_数据分析之Kaggle泰坦尼克之灾

    本篇博客通过分析泰坦尼克号事故中乘客的信息,从而得出一些相关关系的判断,并且使用Python可视化的手段更加具体的展现. 注:本篇博客参考资料: 1.kaggle入门–泰坦尼克号之灾(某书) 2.机器 ...

  6. 机器学习系列笔记六:主成分分析PCA[下]

    机器学习系列笔记六:主成分分析PCA[下] 文章目录 机器学习系列笔记六:主成分分析PCA[下] scikit-learn中的PCA 基本使用 进阶操作 对比实验 设置合理的n_components ...

  7. 机器学习系列(12)_XGBoost参数调优完全指南(附Python代码)

    机器学习系列(12)_XGBoost参数调优完全指南(附Python代码) 原文链接:http://blog.csdn.net/han_xiaoyang/article/details/5266539 ...

  8. 机器学习系列笔记十三: 集成学习/模型聚合

    机器学习系列笔记十三: 集成学习/模型聚合 文章目录 机器学习系列笔记十三: 集成学习/模型聚合 什么是集成学习 Voting Hard Voting 模拟实现Hard Voting 集成学习 使用V ...

  9. 【机器学习系列】之SVM硬间隔和软间隔

    作者:張張張張 github地址:https://github.com/zhanghekai [转载请注明出处,谢谢!] [机器学习系列]之SVM硬间隔和软间隔 [机器学习系列]之SVM核函数和SMO ...

最新文章

  1. 文档服务器连接未响应,win7DNS服务器未响应或者未连接问题的解决
  2. 你也许只使用到了 VS Code 20% 的功能
  3. 简述configure,pkg-config,pkg_config_path三者的关系
  4. 快速提高CSDN访问量 - 附脚本初代机
  5. 第一章 DevOps概述
  6. python笔记之if练习
  7. mq多个消费者消费一个消息_一个普通消费者的米家产品使用感受
  8. 用数据告诉你,新型冠状病毒传染性有多强?
  9. 【腾讯Bugly干货分享】彻底弄懂 Http 缓存机制 - 基于缓存策略三要素分解法
  10. 各j2ee web层框架比较(转)
  11. DDMF PluginDoctor Mac - 插件分析器音频质量测试
  12. 如何将jar包加入到Maven本地仓库
  13. MACm1上lark无法使用共享屏幕问题
  14. 基于MFC的字符生产与旋转算法实现
  15. 没有oracle客户端可以连接数据库,Oracle数据库之SqlDbx连接oracle(无需安装Oracle客户端)...
  16. 重塑汽车产业价值链,ChinaJoy诚邀造车新势力加盟
  17. 计算机基础知识常用口诀,三句口诀!记住大部分常用的电脑快捷键!
  18. Visio用UML2.2模板包
  19. Faststone Capture怎么打开视频编辑器
  20. 《庄子·外篇·田子方第二十一》

热门文章

  1. 你就是你自己paper最好的审稿人:宾大苏炜杰提出peer review新机制
  2. 一文尽览!文本对抗攻击基础、前沿及相关资源
  3. 如何看待「上帝掷骰子」这场概率骗局
  4. [解决方案记录]No module named fused(stylegan2的bug,已更新)
  5. tf9: PixelCNN
  6. ​谷歌大神Jeff Dean领衔,万字展望5大AI趋势
  7. 独家 | 避免神经网络过拟合的5种技术(附链接)
  8. 赠票 | 面见AI大神贾扬清!阿里云峰会船票抢先送~(上海站)
  9. 剑指offer 24:二叉搜索树的后序遍历序列
  10. 剑指offer:反转链表 python实现