机器学习笔记(十):机器学习系统的设计
目录
1)Prioritizing what to work on:Spam classification example
2)Error analysis
3)Error metrics for skewed classes
4)Trading off precision and recall
5)Data for machine learning
下面将学习到在构建大型机器学习系统时有用的方法,数学性不会很强,但是也很使用。来看一个垃圾邮件分类器。
1)Prioritizing what to work on:Spam classification example
首先我们构建一个垃圾分类器:
我们接下来可以按照以下方法尝试:
2)Error analysis
除了学习曲线外,误差分析也是很有用的工具。构建一个学习算法的推荐方法为:
3)Error metrics for skewed classes
类偏斜问题表现为我们的训练集中有非常多的同一类的实例,只是很少或没有其他类的实例。来看我们最初的癌症诊断的例子:
我们训练的逻辑回归模型比我们非学习来的算法准确率还低,此时误差大小不能视为评判算法的依据。
我们要学习到两个重要指标:准确率和召回率:
准确率:
召回率:
4)Trading off precision and recall
还是以癌症检查的例子来说明情况:下图显示了我们如何改变阈值提高准确率和召回率:
但在实际中我们一般使用 F1值 来作为判别标准:
5)Data for machine learning
下图显示了数据量大小对算法性能的影响:
下面介绍了如何解决高偏差(特征足够多)和高方差问题(庞大训练集)的方法。
机器学习笔记(十):机器学习系统的设计相关推荐
- 机器学习笔记十四:随机森林
在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式. 而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...
- [吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数
11. 机器学习系统的设计 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metr ...
- 机器学习笔记(机器学习很难么???那必然难啊!!!)
机器学习 第一章数据挖掘 数据挖掘概念 数据挖掘的模式类型 第二章机器学习 1 机器学习分类 2 机器学习中的一些概念 训练样本 训练 分类模型 验证 第三章无监督学习 聚类 K-means聚类算法 ...
- 机器学习笔记(十五)规则学习
15.规则学习 15.1基本概念 机器学习中的规则(rule)通常是指语义明确.能描述数据分布所隐含的客观规律或领域概念.可写成若-则-形式的逻辑规则.规则学习(rulelearning)是从训练数据 ...
- 机器学习笔记(十二)计算学习理论
12.计算学习理论 12.1基础知识 计算学习理论(computationallearning theory)研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难 ...
- 机器学习笔记(十)降维和度量学习
10.降维和度量学习 10.1k近邻学习 k近邻(k-NearestNeighbor,简称kNN)学习是一种常用的监督学习方法,其原理是:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练 ...
- [机器学习笔记]Note14--推荐系统
继续是机器学习课程的笔记,本节课将介绍推荐系统的内容. 问题形式化 推荐系统是机器学习的一个非常重要的应用,在很多音乐.购物等网站都有推荐系统,如豆瓣,淘宝,网易云音乐等都是有使用到推荐系统的,因此推 ...
- 机器学习笔记十五之图片文字识别
本节目录 1 问题描述 2 滑动窗口 3 获取大量数据集和人工数据 4 上限分析 1 问题描述 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完 ...
- 2018-3-20李宏毅机器学习笔记十----------Logistic Regression
上节讲到:既然是一个直线型,只需要求解w和b.为何还要那么费劲的使用概率??? 视频:李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilib ...
- 机器学习笔记 十九:由浅入深的随机森林模型之分类
随机森林学习内容 1. 集成学习 2.sklearn中的集成算法 2.1 sklearn中的集成算法模块ensemble 2.2 RandomForestClassifier 2.2.1 参数 2.2 ...
最新文章
- JSON与js对象序列化
- 详解分布式一致性机制
- 微型计算机生产工艺,bb肥生产设备制造工艺流程
- [设计模式] ------ 模板模式
- vi交互式批量替换 vi批量替换 vi查找和替换
- AD中如何查看快捷键
- 一个OOP的课程设计,不难实现,贴出来请大家指正。
- java案例代码13--斗地主部分代码--静态ArrayList的使用
- java字符串的各种编码转换
- 电脑装机人员、管理软件安装实施人员必备工具包使用教程汇总值得收藏
- DELL G3 3690耳机插入不显示,没声音
- No query specified(Mysql数据库报错)
- html link canonical
- 量子计算机工作原理如何解释,量子计算机工作原理
- 企业邮箱怎么注册?企业邮箱注册流程是什么?
- wingide5-forlinux cracked
- 会放弃的人生才会更洒脱
- C++语言篇 字符串及字符数组练习
- Linux中的剪贴板--X11和selection
- Adobe acrobat 获得PDF高清截图的两种方法(翻译外文用)
热门文章
- HDU-5935 Car 逆推 贪心 精度
- html将excel数据自动导入到网页,如何把excel表中的数据自动输入到网页中
- numpy数组按某一维度相加_Python数据分析之NumPy(高级篇)
- windows资源管理器已停止工作后,使用命令提示窗口拷贝文件和运行exe程序
- c语言代码可以python运行吗_c语言如何运行python脚本
- python 对象_Python中的Barrier对象
- python argument list too long_间歇“OSError:[Errno 7]参数列表太长”,命令短(~125个字符)...
- error MSB6006: cmd.exe exited with code 3
- .mod.c 是什么文件
- postman数据保存在哪里_Postman 历史记录导出的解决方案