目录

1)Prioritizing what to work on:Spam classification example

2)Error analysis

3)Error metrics for skewed classes

4)Trading off precision and recall

5)Data for machine learning


下面将学习到在构建大型机器学习系统时有用的方法,数学性不会很强,但是也很使用。来看一个垃圾邮件分类器。

1)Prioritizing what to work on:Spam classification example

首先我们构建一个垃圾分类器:

我们接下来可以按照以下方法尝试:

2)Error analysis

除了学习曲线外,误差分析也是很有用的工具。构建一个学习算法的推荐方法为:

3)Error metrics for skewed classes

类偏斜问题表现为我们的训练集中有非常多的同一类的实例,只是很少或没有其他类的实例。来看我们最初的癌症诊断的例子:

我们训练的逻辑回归模型比我们非学习来的算法准确率还低,此时误差大小不能视为评判算法的依据。

我们要学习到两个重要指标:准确率和召回率:

准确率: 

召回率:

4)Trading off precision and recall

还是以癌症检查的例子来说明情况:下图显示了我们如何改变阈值提高准确率和召回率:

但在实际中我们一般使用 F1值 来作为判别标准:

5)Data for machine learning

下图显示了数据量大小对算法性能的影响:

下面介绍了如何解决高偏差(特征足够多)和高方差问题(庞大训练集)的方法。

机器学习笔记(十):机器学习系统的设计相关推荐

  1. 机器学习笔记十四:随机森林

    在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.  而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...

  2. [吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数

    11. 机器学习系统的设计 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metr ...

  3. 机器学习笔记(机器学习很难么???那必然难啊!!!)

    机器学习 第一章数据挖掘 数据挖掘概念 数据挖掘的模式类型 第二章机器学习 1 机器学习分类 2 机器学习中的一些概念 训练样本 训练 分类模型 验证 第三章无监督学习 聚类 K-means聚类算法 ...

  4. 机器学习笔记(十五)规则学习

    15.规则学习 15.1基本概念 机器学习中的规则(rule)通常是指语义明确.能描述数据分布所隐含的客观规律或领域概念.可写成若-则-形式的逻辑规则.规则学习(rulelearning)是从训练数据 ...

  5. 机器学习笔记(十二)计算学习理论

    12.计算学习理论 12.1基础知识 计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难 ...

  6. 机器学习笔记(十)降维和度量学习

    10.降维和度量学习 10.1k近邻学习 k近邻(k-NearestNeighbor,简称kNN)学习是一种常用的监督学习方法,其原理是:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练 ...

  7. [机器学习笔记]Note14--推荐系统

    继续是机器学习课程的笔记,本节课将介绍推荐系统的内容. 问题形式化 推荐系统是机器学习的一个非常重要的应用,在很多音乐.购物等网站都有推荐系统,如豆瓣,淘宝,网易云音乐等都是有使用到推荐系统的,因此推 ...

  8. 机器学习笔记十五之图片文字识别

    本节目录 1 问题描述 2 滑动窗口 3 获取大量数据集和人工数据 4 上限分析 1 问题描述 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完 ...

  9. 2018-3-20李宏毅机器学习笔记十----------Logistic Regression

    上节讲到:既然是一个直线型,只需要求解w和b.为何还要那么费劲的使用概率??? 视频:李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilib ...

  10. 机器学习笔记 十九:由浅入深的随机森林模型之分类

    随机森林学习内容 1. 集成学习 2.sklearn中的集成算法 2.1 sklearn中的集成算法模块ensemble 2.2 RandomForestClassifier 2.2.1 参数 2.2 ...

最新文章

  1. JSON与js对象序列化
  2. 详解分布式一致性机制
  3. 微型计算机生产工艺,bb肥生产设备制造工艺流程
  4. [设计模式] ------ 模板模式
  5. vi交互式批量替换 vi批量替换 vi查找和替换
  6. AD中如何查看快捷键
  7. 一个OOP的课程设计,不难实现,贴出来请大家指正。
  8. java案例代码13--斗地主部分代码--静态ArrayList的使用
  9. java字符串的各种编码转换
  10. 电脑装机人员、管理软件安装实施人员必备工具包使用教程汇总值得收藏
  11. DELL G3 3690耳机插入不显示,没声音
  12. No query specified(Mysql数据库报错)
  13. html link canonical
  14. 量子计算机工作原理如何解释,量子计算机工作原理
  15. 企业邮箱怎么注册?企业邮箱注册流程是什么?
  16. wingide5-forlinux cracked
  17. 会放弃的人生才会更洒脱
  18. C++语言篇 字符串及字符数组练习
  19. Linux中的剪贴板--X11和selection
  20. Adobe acrobat 获得PDF高清截图的两种方法(翻译外文用)

热门文章

  1. HDU-5935 Car 逆推 贪心 精度
  2. html将excel数据自动导入到网页,如何把excel表中的数据自动输入到网页中
  3. numpy数组按某一维度相加_Python数据分析之NumPy(高级篇)
  4. windows资源管理器已停止工作后,使用命令提示窗口拷贝文件和运行exe程序
  5. c语言代码可以python运行吗_c语言如何运行python脚本
  6. python 对象_Python中的Barrier对象
  7. python argument list too long_间歇“OSError:[Errno 7]参数列表太长”,命令短(~125个字符)...
  8. error MSB6006: cmd.exe exited with code 3
  9. .mod.c 是什么文件
  10. postman数据保存在哪里_Postman 历史记录导出的解决方案