机器学习的一个前提是有大量的数据,机器学习的过程就是对这些大量数据进行学习训练,获得一个能用于预测的模型,从而在面对新的数据时,我们能进行准确的预测。

怎么理解呢?

回想我们读高三的时候,是不是每天都在做题,为最后的高考做准备。我们从题库中不断学习,不断做题,然后就掌握了各种知识和一些解题方法,最后在高考中取得好成绩,考上了清华北大,985,211。

机器学习的大量数据就好像是高三的题库,而对大量数据的学习就是针对题库中的各种题目进行做题训练,获得的训练模型就是我们掌握的知识和解题方法,新的数据就是高考,准确的预测就是在高考中取得好成绩。如果考上了清华北大,说明知识和解题方法掌握的好,也就是机器学习算法模型训练效果好,如果只是考上了二本、三本,说明知识和解题方法掌握的一般,也就是机器学习算法模型训练效果一般。

高三的这个题库就是用来训练我们的,对应在机器学习中的名称就是“训练集(training set)”,高考试卷就是用来测试我们的最终学习效果的,对应在机器学习中的名称就是“测试集(test set)”

注意上面加粗的部分“最终学习效果”,为什么?因为高考是一考定终生,你只能参加一次。当然现在可以复读,但复读的话就是一年的青春耗费,况且下一年高考发挥怎样并不知道,这个机会成本实在是太高。所以,我们在做题训练的过程中,有一个重要的手段,那就是:

模拟考试。

这个模拟考试还有好多次,有一模考试,二模考试,三模考试等。通过模拟考试,我们有了学习效果的反馈,不断查漏补缺,最后上了高考考场,就不慌了,可以从容应对了。

在机器学习中,“模拟考试”同样有一个对应的名称“验证集(validation set)”,在用训练集训练模型的过程中,不断通过验证集对模型进行验证,获得训练效果的反馈。于是,在最后用测试集进行测试时,就能取得满意的成绩。

那么在机器学习中,训练集、测试集、验证集从何而来呢?

前面提过,机器学习的一个前提是有大量的数据,这个大量数据就是高三题库,这个题库就可以作为我们的训练集。那测试集和验证集呢?

我们知道高考是由国家或省里专门的命题组出题的,而在机器学习中有点不同的是,出题人一般也就是组织训练的人,你可以理解为:高考出题人就是你们的高三老师

那高三老师怎么出高考题呢,他比较偷懒,还是直接用那个题库,把一小部分题目筛选出来,作为高考的试卷题目,也就是测试集(test set)。注意因为是高考试卷,要严格保密,不然犯法的。所以你平时做题训练时是看不到这些题目的,同样在机器学习中训练过程也是看不到测试集的。

然后刨除测试集后的题库,剩下的就是“训练集(training set)”了,也就是你平时做的各种训练题。然后高三老师在这个训练题的基础上,再划出一小部分,作为模拟考试的试卷题目,也就是“验证集(validation set)”。注意这个模拟考试的题目就是从你平时做题训练中的题目中选出来的,所以你平时做题训练时是可以接触到这些题目的,同样在机器学习中训练过程也是可以接触验证集的。由于验证集是从训练集中切分出来的,所以验证集属于训练集。而训练集和测试集统称为“数据集(data set)”,也就是那个高三题库。画出图就是这样:

最后总结下:

训练集 = 训练题库
验证集 = 模拟试卷
测试集 = 高考试卷

数据集 = 训练集(含验证集) + 测试集

参考文献:https://zhuanlan.zhihu.com/p/25992568

高考与机器学习训练测试相关推荐

  1. 机器学习 训练验证测试_测试前验证| 机器学习

    机器学习 训练验证测试 In my previous article, we have discussed about the need to train and test our model and ...

  2. 吴恩达《机器学习训练秘籍》:7 条关于项目实践的实用建议

    翻译 | shawn 出品 | 人工智能头条(公众号ID:AI_Thinker) <机器学习训练秘籍>(Machine Learning Yearning)是吴恩达的新作,主要讲的是如何应 ...

  3. “吴恩达deeplearningai”微信公众号上线,将发布《机器学习训练秘籍》

    去年 6 月,吴恩达宣布 deeplearning.ai 创业项目,8 月,该项目揭晓:一套由 5 门课组成的深度学习系列课程 -- Deep Learning Specialization,旨在推广 ...

  4. 机器学习训练秘籍完整中文版下载(吴恩达老师新作)

    Machine Learning Yearning 其实是吴恩达早期的一个项目,今年 2 月 Deep Learning Specialization 最后一课上线之后,吴恩达又捡起了这个荒废已久的项 ...

  5. [资源分享] 吴恩达最新《机器学习训练秘籍》中文版可以免费下载了

    本文大约 600 字, 阅读大约需要 2 分钟 吴恩达老师在上个月底宣布终于完成了他最新的书籍<Machine Learning Yearning>的最后几个章节: 而最近这本书也有了免费 ...

  6. 机器学习训练素材_广告素材在编码训练营中导航的5条提示

    机器学习训练素材 So you decided to do it - embark on a journey to become a software engineer. You may have t ...

  7. 机器学习 训练较快的模型_通过心理模型更快地学习软件,第1部分

    机器学习 训练较快的模型 什么是心理模型? (What Are Mental Models?) The easiest way to describe them is that they're pat ...

  8. 笔记:《机器学习训练秘籍》-吴恩达deeplearningai微信公众号推送文章

    说明 该文为笔者在微信公众号:吴恩达deeplearningai 所推送<机器学习训练秘籍>系列文章的学习笔记,公众号二维码如下,1到15课课程链接点这里 该系列文章主要是吴恩达先生在机器 ...

  9. 笔记:《机器学习训练秘籍》——吴恩达deeplearningai微信公众号推送文章

    说明 该文为笔者在微信公众号:吴恩达deeplearningai 所推送<机器学习训练秘籍>系列文章的学习笔记,公众号二维码如下,1到15课课程链接点这里 该系列文章主要是吴恩达先生在机器 ...

最新文章

  1. 企业绩效管理推不动,如何用绩效创造价值?
  2. Kotlin学习 PART 2:kotlin基础
  3. Kotlin的解析(中)
  4. java中使用Semaphore构建阻塞对象池
  5. 计算机的发展史及多道技术
  6. JAVA-配置path环境
  7. python工厂模式 取代__init___浅析Python 简单工厂模式和工厂方法模式的优缺点
  8. sqlite for linux 可视化数据管理工具
  9. Latex:字体设置
  10. 8086CPU各寄存器及其简介
  11. 使用mysql数据库_wuli大世界_新浪博客
  12. Make sure that `gem install sqlite3 -v '1.3.13' --source 'https://rubygems.org/'` succeeds before...
  13. 英特尔CAS缓存加速软件优化SSD性能
  14. K8S 在微服务架构下做服务注册中心的一种思路
  15. 安装mathpix注册不了账户:unexcepted error
  16. 石墨笔记,熊掌记和 Effie 哪个更适合 SMZDM 开箱评论者?
  17. 基于STM32F429控制ADC
  18. 同程旅游火车票部门面经
  19. Eclipse折叠代码插件folding 推荐
  20. 论简单工厂模式在IPNMS中的使用

热门文章

  1. openwrt 遍译php_[OpenWrt Wiki] OpenWrt编译 – 说明
  2. python的turtle画曲线_python的turtle模块画折线图
  3. 通俗讲解分布式锁,看完不懂算我输
  4. java基础提升篇:synchronized同步块和volatile同步变量
  5. 5张图搞懂Java深浅拷贝
  6. Hibernate 注解映射
  7. Spring Cloud(七) GateWay 服务化和过滤器
  8. c语言如何如何入门,程序员C语言新手如何入门?
  9. 应用程序_Blazor VS 传统Web应用程序
  10. 博图编写温度程序_NTC测量温度的两个不同的数值转换程序,你会选择哪一个