这次笔记是对笔记十二的补充,之前讨论了评价指标,这次主要是补充机器学习系统设计中另一个重要的方面,用来训练的数据有多少的问题。

笔记十二地址:https://blog.csdn.net/qq_40467656/article/details/107602209

之前曾说过不要盲目地开始花费大量的时间来收集大量的数据,因为大量的数据只在一些情况下对改善系统性能起作用。但事实证明,在一定条件下,得到大量的数据并在某种类型的学习算法中进行训练,可以是一种有效的方法来获得一个具有良好性能的学习算法,而这种情况往往出现在这些条件对于你的问题都成立,并且你能够得到大量数据的情况下,这可以是一个很好的方式来获得非常高性能的学习算法。

先来看一个例子理解一下:

这是一个对词汇进行分类的系统,分别采用了感知机等四个算法,右边的图展示了随着训练数据集的增大,这些算法得到的准确率都得到了提升。

但并不是所有的情况下数据集增大都会提升性能,需要满足一些条件,首先是特征需要提供足够的信息使得模型能够准确地预测,如下面这张图所示,混淆词分类足够问题上下文已经提供了足够的信息使得模型可以依据它们来预测,而房价预测只提供一个面积特征是远远不够的,这时增加数据也无济于事。

那么我们来看一下增加数据集是有效的情况:

假设我们使用一种需要大量参数的学习算法,如有很多特征的逻辑回归或线性回归,或有很多隐藏单元的神经网络,它们有很多参数,这些参数可以拟合非常复杂的函数,所以这些算法具有低偏差,因为拟合能力强,所以训练误差就可能比较小

现在假设我们使用了非常大的训练集训练样本比参数量大,那么这些算法就不太容易过拟合,算法就具有较低的方差,所以测试误差就可能比较接近训练误差。结合两者,训练误差小,测试误差接近训练误差,那么可以得到这个算法的测试误差也将比较小,具体如下图中所示:

总结一下,这次笔记内容很简单,就是如果你使用一个比较复杂的模型,比如深层的神经网络,它具有较多的参数,可以拟合非常复杂的函数,偏差是比较小的,这时如果能够有很庞大的数据集来训练模型,因为数据样本大,过拟合风险小,导致方差也小,所以该算法同时具有低偏差和低方差,最终的模型测试误差将会较小,模型性能就会较好。这也是为什么现在的深度学习特别依赖数据的原因。

吴恩达《机器学习》学习笔记十三——机器学习系统(补充)相关推荐

  1. 吴恩达深度学习笔记-布置机器学习项目(第4课)

    布置机器学习项目 一.训练集/验证集/测试集 二.偏差与方差 三.机器学习基础 四.正则化 五.为什么正则化可以减少过拟合? 六.Dropout正则化 七.理解Dropout 八.其他正则化方法 九. ...

  2. 吴恩达深度学习笔记(四)

    吴恩达深度学习笔记(四) 卷积神经网络CNN-第二版 卷积神经网络 深度卷积网络:实例探究 目标检测 特殊应用:人脸识别和神经风格转换 卷积神经网络编程作业 卷积神经网络CNN-第二版 卷积神经网络 ...

  3. Machine Learning(吴恩达) 学习笔记(一)

    Machine Learning(吴恩达) 学习笔记(一) 1.什么是机器学习? 2.监督学习 3.无监督学习 4.单变量线性回归 4.1代价函数 4.2 梯度下降 5.代码回顾 最近在听吴恩达老师的 ...

  4. 花书+吴恩达深度学习(十三)卷积神经网络 CNN 之运算过程(前向传播、反向传播)

    目录 0. 前言 1. 单层卷积网络 2. 各参数维度 3. CNN 前向传播反向传播 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十)卷积神经网络 ...

  5. 吴恩达深度学习笔记——结构化机器学习项目(Structuring Machine Learning Projects)

    深度学习笔记导航 前言 传送门 结构化机器学习项目(Machine Learning Strategy) 机器学习策略概述 正交化(orthogonalization) 评价指标 数字评估指标的单一性 ...

  6. 799页!吴恩达深度学习笔记.PDF

    吴恩达深度学习课程,是公认的最优秀的深度学习课程之一,目前没有教材,只有视频,本文提供完整笔记下载,这本笔记非常适合和深度学习入门. 0.导语 黄海广博士和同学将吴恩达老师深度学习视频课程做了完整的笔 ...

  7. 吴恩达深度学习笔记——卷积神经网络(Convolutional Neural Networks)

    深度学习笔记导航 前言 传送门 卷积神经网络(Convolutional Neural Networks) 卷积神经网络基础(Foundations of Convolutional Neural N ...

  8. 吴恩达深度学习笔记——神经网络与深度学习(Neural Networks and Deep Learning)

    文章目录 前言 传送门 神经网络与深度学习(Neural Networks and Deep Learning) 绪论 梯度下降法与二分逻辑回归(Gradient Descend and Logist ...

  9. 吴恩达深度学习笔记1-Course1-Week1【深度学习概论】

    2018.5.7 吴恩达深度学习视频教程网址 网易云课堂:https://mooc.study.163.com/smartSpec/detail/1001319001.htm Coursera:htt ...

  10. 吴恩达深度学习笔记_Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现,可以在线阅读了!...

    吴恩达机器学习.深度学习,李航老师<统计学习方法>,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成了网页版,可以在线阅读 ...

最新文章

  1. 网元——就是网络中的元素,网络中的设备。总之,网元是网络管理中可以监视和管理的最小单位...
  2. Java Review - ArrayList 源码解读
  3. 盘点智能语音行业:Nuance没落 BAT围绕核心业务
  4. 怎么算 实体识别_大篷车流动摆摊卖日用品月赚万元,大商场生意冷清,实体店不好做...
  5. 使用 Node.js Express 的最佳实践
  6. MyBatis Generator分页插件RowBoundsPlugin坑
  7. Python进阶丨如何创建你的第一个Python元类?
  8. 使用Context和Hooks来管理状态
  9. python实现ssh登录后捕获回显_针对python的paramiko库ssh登录h3c设备print输出回显是空白的解决办法...
  10. Car2go 的前端框架选择
  11. 无法修改计算机时间权限,无法修改系统时间怎么办
  12. LeetCode-1276. 不浪费原料的汉堡制作方案
  13. 阿里实名认证Java版(详细教程)
  14. 《30而已》烂尾,如果这样卖空山茶,顾佳会逆袭
  15. (附源码)node.js游戏网站 毕业设计 031726
  16. 使用C语言开发web
  17. 计算机职业倾向自我评价50字,自我评价50字
  18. 咕咚APP产品体验报告
  19. 三年级计算机的组成教学设计,三年级计算机教学设计.docx
  20. 转伟大诗人舒婷的 致橡树

热门文章

  1. 不卷学术了,这次卷一波NLP实战落地经验
  2. MySQL数据库主从同步的3种一致性方案实现,及优劣比较
  3. 论文浅尝 | 面向开放域的无监督实体对齐
  4. 论文浅尝 - ICML2020 | 基于子图推理的归纳式关系预测
  5. 论文浅尝 - CIKM2020 | Relation Reflection Entity Alignment
  6. 论文浅尝 | Complex Embeddings for Simple Link Prediction
  7. 中文摘要生成 综述
  8. PersonGraphDataSet近十万的开放人物关系图谱项目
  9. 【JavaWeb】数据库基础复习
  10. Lucene 全文搜索解析