本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

目录

  • 11 机器学习系统设计
    • 11-1 确定执行的优先级:以垃圾邮件分类为例
    • 11-2 误差分析
    • 11-3 不对称性分类的误差评估
    • 11-4 查准率和召回率的平衡
    • 11-5 机器学习数据

11 机器学习系统设计

11-1 确定执行的优先级:以垃圾邮件分类为例

11-2 误差分析

  • 不要在编写程序时进行过早的优化,在编写完整个系统后再根据学习曲线优化系统;先编写一个简单粗暴的算法,再根据输出的结果改进算法
  • 误差分析:观察被错误分类的数据有何共同的特征(以垃圾邮件分类为例,查看被错误分类的垃圾邮件有何共同的特征)或以数值方式表示误差
  • 推荐在交叉验证集上做误差分析

11-3 不对称性分类的误差评估

偏斜类问题:一个数据集中的一类数据样本比另外一类的样本少的多(比如1占样本的0.5%,而0占样本的99.5%)
在偏斜类问题中(比如患癌症占样本的0.5%,而不患癌症占样本的99.5%),假设一个算法达到了99.5%的预测准确率,这时已经只有0.5%的误差,但是如果始终预测不患癌症也有99.5%的准确率,误差也只有0.5%,这时需要用到不同的误差度量值
其中一种叫做查准率和召回率(precision recall)

  • 左侧表格上方为实际的,表格左侧为预测的,1代表患癌,0代表不患癌

    • 如果预测为1,实际为1,则是真阳性(True positive)
    • 如果预测为1,实际为0,则是假阳性(False positive)
    • 如果预测为0,实际为1,则是假阴性(False negtive)
    • 如果预测为0,实际为0,则是真阴性(True negtive)
      查准率=预测为真并且实际为真的数量预测为真的数量=TruepositiveTruepositive+Falsepositive查准率=\frac{预测为真并且实际为真的数量}{预测为真的数量}=\frac{True\ positive}{True\ positive+False\ positive}查准率=预测为真的数量预测为真并且实际为真的数量​=True positive+False positiveTrue positive​
      召回率=预测为真并且实际为真的数量实际为真的数量=TruepositiveTruepositive+Falsenegtive召回率=\frac{预测为真并且实际为真的数量}{实际为真的数量}=\frac{True\ positive}{True\ positive+False\ negtive}召回率=实际为真的数量预测为真并且实际为真的数量​=True positive+False negtiveTrue positive​
      两者均是越高越好

11-4 查准率和召回率的平衡


本来在超过50%概率时预测为1(即患癌),在低于50%时预测为0(即不患癌)
现在如果要在超过70%患癌可能性时才预测为患癌的话,会得到一个高查准率但低召回率的模型
如果要在超过30%患癌可能性时就预测患癌,会得到一个高召回率但低查准率的模型

  • 高查准率:能不揪出来的就不揪出来
  • 高召回率:能揪出来的都揪出来


通过计算查准率和召回率的平均值不能直接评估一个算法的好坏
通过F值(F1值)=2PRP+RF值(F_1值)=2\frac{PR}{P+R}F值(F1​值)=2P+RPR​能更好地评估一个算法的好坏(P为查准率,R为召回率)

11-5 机器学习数据

在有一个非常庞大的训练集的前提下,即使有很多的参数(训练集数量>>参数数量),也能很好地拟合数据集,不会产生过拟合现象

【CV】吴恩达机器学习课程笔记第11章相关推荐

  1. 【CV】吴恩达机器学习课程笔记第10章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 10 应用机器学习的建议 10-1 决定下一步做什么 10 ...

  2. 【CV】吴恩达机器学习课程笔记 | 第1-2章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 1 介绍 1-3 监督学习 1-4 无监督学习 2 单变量 ...

  3. 【CV】吴恩达机器学习课程笔记第18章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 18 应用案例:照片OCR 18-1 问题描述与流程(pi ...

  4. 【CV】吴恩达机器学习课程笔记第17章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 17 大规模机器学习 17-1 学习大数据集 17-2 随 ...

  5. 【CV】吴恩达机器学习课程笔记第16章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 16 推荐系统 16-1 问题规划 16-2 基于内容的推 ...

  6. 【CV】吴恩达机器学习课程笔记 | 第1-15章

    目录 1 介绍 1-3 监督学习 1-4 无监督学习 2 单变量线性回归 2-2 代价函数 2-5 Batch 梯度下降算法 4 多变量线性回归 4-1 多特征 4-2 多元梯度下降法 4-3 多元梯 ...

  7. 吴恩达机器学习课程笔记(11-19章)

    第十一章 11.1 确定执行的优先级 垃圾邮件分类器算法: 为了解决这样一个问题,我们首先要做的决定是如何选择并表达特征向量 x x x .我们可以选择一个由 100 100 100 个最常出现在垃圾 ...

  8. 吴恩达机器学习课程笔记(1-10章)

    第一章 1.1 什么是机器学习? 定义: 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准. 解释: 计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经 ...

  9. 吴恩达机器学习课程笔记一

    吴恩达机器学习课程笔记 前言 监督学习---`Supervised learning` 无监督学习---`Unsupervised learning` 聚类 异常检测 降维 增强学习---`Reinf ...

最新文章

  1. linux清屏命令_linux下的7个常用命令的基本使用
  2. 根据总用量计算每种包装规格的购买量和总价
  3. 马云最新演讲:未来10年,人类将面临AI、IoT和区块链等三大技术巨大挑战!
  4. Android常用控件之Fragment仿Android4.0设置界面
  5. 微信支付代金券开发包分享
  6. ant vue 树形菜单横向显示_Vue--组件Ant- 树形结构菜单
  7. deepin ubuntu修改grub启动延时时间
  8. S如何边缘控制_如何用尼康佳能索尼人像标头50mm/1.8拍出大片的效果?
  9. 有人撸了个网页版win11,惊艳!
  10. ubuntu18 防火墙关闭_Ubuntu 18.04 关闭及开启防火墙
  11. 活动推荐|互联网3.0与区块链新时代论坛(北京)
  12. 计算文档中不同单词出现的次数
  13. wget在进行https下载时超时不生效问题
  14. windows下protobuf jar包的编译
  15. IP地址屏蔽功能设计
  16. Error: Network Error
  17. PE格式之千里追踪输入表
  18. 【深度学习 理论】Brief Introduction of Deep Learning
  19. 要是卢安娜的飓风可以触发所有远程英雄的技能,哪些英雄最强?
  20. bash快捷键Quick bash shortcuts--用Enki学Linux系列(4)

热门文章

  1. 阿里云K8S容器服务的使用
  2. 2022-2028年中国汽车零部件行业市场研究及前瞻分析报告
  3. 浅显易懂 Makefile 入门 (10)— 嵌套执行 make、export 的使用
  4. 2022-2028年中国水性密封胶行业市场调查研究及未来趋势预测报告
  5. 经典笔试上机考题-表达式求值
  6. LeetCode简单题之数字转换为十六进制数
  7. Relay IR表示
  8. DeepSpeed超大规模模型训练工具
  9. 将深度学习低延迟推理性能提高一倍
  10. 深度学习-智能视频监控