偏斜类问题

正样本数占样本总数的比例极小时,容易出现偏斜类问题。

例如癌症测试。样本集合中仅有0.5%的癌症样本,99.5%的正常样本。通过某一假设函数后,得到1%为癌症患者,99%为正常样本。虽然总的正确率高达99%,但假设函数并不理想。因为,我们的目的是为了,检测出是否得癌。

这时候,如果将99%的准确率提升至99.2%,无疑是一个较大的提升,虽然,在数值上来看,只有0.2%。

因此,对于偏斜类问题,需要引入两个概念,查准率(precision)和召回率(recall).

查准率&召回率

还是癌症检测为例。

 

实际标签(1代表得癌)

1 0

预计标签(1代表得癌)

1 A B
0 C D

预计得癌人数中,真正得癌的人数,占预计得癌人数的比例,为查准率。即

预计得癌人数中,真正得癌的人数,占实际得癌人数的比例,为召回率。即

查准率和召回率通常是此长彼消的。

比如,我们使用逻辑回归,计算得癌风险,通过比对阀值p,预判是否得癌。高于p为癌症,低于p为正常。

当将p设置为0.9时,预测过于严谨,导致查出癌症的人数减少,准确率提高,即查准率提高。同时,由于过于严谨,导致部分得癌样本未被检出,因此召回率会比较低。

当将p设置为0.1时,结果又会反转。查准率低,召回率高。

如何权衡查准率和召回率呢?

权衡公式F

通常采用公式F。假设查准率为m,召回率为n,那么

F值高者,对应的模型更优秀。

例如查准率,召回率都趋近于1,则F趋近于1。

两者趋近于0,则F趋近于0.

我的人工智能之旅——偏斜类问题相关推荐

  1. 人工智能之旅,真的特别费人工!

    https://www.toutiao.com/a6695636734782210572/ 白笺黑字,道不尽人工智能,飞龙在云鱼在水,此情梦想难寄!旭日独倚东楼,鸿雁巧上帘环,太公不知何处,直钩依旧沉 ...

  2. 4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授

    偏斜类(Skewed Classes) 引子 假定我们通过逻辑回归来预测病人是否患有癌症: y={0,病人未患癌症1,病人患有癌症y=\begin{cases}0,\quad病人未患癌症\\1,\qu ...

  3. 机器学习之偏斜类误差度量

    机器学习分类模型存在一种情况叫偏斜类.偏斜类简单理解就是在训练模型时由于正样本和负样本之间的严重不平衡,导致模型最后检测全部都是1或者全部都是0.假设正样本的y值为1,当正样本远远多于负样本的时候,训 ...

  4. WAIC | 时识科技首席科学家:低功耗人工智能计算系统中的类脑策略

    在 WAIC 2021 AI 开发者论坛上,苏黎世大学与苏黎世联邦理工学院终身教授.苏黎世神经信息研究所 INI 所长.SynSense 时识科技联合创始人 & 首席科学家 Giacomo I ...

  5. 斐迅N1 刷armbian部署tensorflow ,开启人工智能之旅

    电梯直达 1# 发表于 2018-10-9 21:45 | 只看该作者 | 只看大图 | 倒序浏览 | 阅读模式 本帖最后由 陆不败 于 2018-11-15 17:14 编辑 斐迅N1 刷armbi ...

  6. 我的人工智能之旅——线性回归

    本文将涉及以下知识点 (1)线性关系 (2)线性回归 (3)假设函数 (4)代价函数 (5)学习速率 (6)梯度下降 (7)特征向量 相关的线性代数或微积分知识,可参照另两篇博文 我的人工智能之旅-- ...

  7. 斯坦福大学计算机硕士专业,斯坦福大学研究生人工智能专业排名哪类点早晚得掌握...

    原标题:斯坦福大学研究生人工智能专业排名哪类点早晚得掌握 斯坦福大学,美国最顶尖的学府,常年排名美国全国学校TOP10之内!因此课业量和学习压力大也是未出乎人们的意料.对于相当多学员来讲,这里是学习的 ...

  8. 人工智能正在激活互联网类脑系统,2018年,云脑将成为新热点

    作者:未来智能实验室 一,AI与互联网的结合 从科学史可以看到这样一个规律,每一次人类社会的重大技术变革都会导致新领域的科学革命,互联网革命对于人类的影响已经远远超过了大工业革命.与工业革命增强人类的 ...

  9. 如何开始人工智能之旅: 技术路径不只一条,您的选择也不只一个

    在 AlphaGo 成功挑战围棋世界冠军后,"深度学习" 家喻户晓,已成为人工智能 (AI)的代名词.深度学习带动了人工智能的再次复兴,这次复兴的最大亮点,就是 AI 开始在语音识 ...

最新文章

  1. android VectorDrawable使用笔记(三)
  2. Android开发 Intent传递参数,获取数据为null
  3. oracle的释放机制,Oracle连接数过多释放机制
  4. 使用Redis 实现消息队列
  5. [luogu3380][bzoj3196]【模板】二逼平衡树【树套树】
  6. java多线程编程基础
  7. idea远程调试Java应用程序
  8. 《Java并发编程实践》学习笔记之二:线程安全性(thread-safe)
  9. android httpclient gradle,Apache HttpClient Android (Gradle)
  10. 使用ffmpeg+opencv播放ts格式的视频
  11. 知识图谱学习(一) py2neo
  12. Java中涉及到和金钱有关的属性的类型
  13. 蓝牙耳机哪个品牌经济实惠?价格便宜音质好的蓝牙耳机推荐
  14. 安装SqlServer 2008 R2时出现程序兼容性问题
  15. Unix File Permissions and ACLs in OS X
  16. Md5工具包加密之MD5Util
  17. python读文件的三种方式_Python|读、写Excel文件(三种模块三种方式)
  18. 《了凡四训》读书总结
  19. 哪些你不知道的神回复?
  20. 九齐单片机NY8B062D 之PWM

热门文章

  1. linux sata驱动加载硬盘顺序,linux安装前必备知识
  2. UOJ 265 NOIP 2016 DAY2 T3 浅谈预处理状态压缩动态规划
  3. Selenium QQ自动化登录
  4. 马化腾是学计算机的吗,马化腾大学实际上是病毒编写者,经常编写感染计算机的程序...
  5. STM32网址大全(快速定位网址查找资料)
  6. 《线性代数及其应用》阅读笔记:一 1.5 线性方程组的解集
  7. clang: error: no input files_微软商城上架Windows文件管理器:Files-UWP体验
  8. 2022 世界人工智能大会 论坛预告 | 让知识构建未来—知识图谱技术与应用
  9. linux minicon乱码,路径中带中文出现乱码问题
  10. 测试项目团队角色岗位职责