训练集train set ,验证集validation set 或者说是交叉验证集cross validation set,测试集test set。

一、只用训练集

倘若将整个数据集当作训练集,来拟合数据。假设函数可能是一次、二次、三次甚至更多次,如下图所示:

那么其中一个假设函数使相应的损失函数为最低时,这个假设函数可能就是我们想要的,但是我们要考虑其中的一种情况,那就是出现过拟合的状况。如下如所示:

当然,这个假设函数,在这个数据集中,其对应的损失函数是最低的。但是,当不再是这个数据集或者说数据集变大时,这个假设函数还能够达到同样的效果吗?!很明显,是不能的。这个假设函数过拟合数据,不具备泛化能力,即不能很好地运用到其他数据集当中,只是在原本数据集中是看似最好的。

二、训练集和测试集

上面提到,整个数据集都是训练集,那么就相当于得到的假设函数,再用原本的数据集当做测试集测试损失函数的高低。不能不很好的说明是否具备泛化能力。因此,我们将数据集划分为训练集和测试集。

先设一些假设函数,用训练集得到这些假设函数的参数或者说权重,再用测试集测试这些假设函数,看这些函数的泛化性能如何。但是,这其中,出现一个问题,那就是怎么选取最优的假设函数,不能还用测试集既用来选取函数,又用来测试泛化性能,这不符合我们的初衷。

三、训练集、验证集与测试集

综上,我们可以得出:

训练集用来训练得出模型即假设函数,验证集用来得到验证误差,对比得到最优的假设函数,最后用测试集测试泛化性能如何。

训练集,验证集与测试集相关推荐

  1. 【转载】如何理解数据集中【训练集】、【验证集】和【测试集】

    转自<吴恩达深度学习笔记(28)-网络训练验证测试数据集的组成介绍> 训练,验证,测试集(Train / Dev / Test sets) 在配置训练.验证和测试数据集的过程中做出正确决策 ...

  2. 【Science】破解密码“AlphaGo”诞生,训练Gan破解27%LinkedIn测试集密码

    本文讲的是破解密码"AlphaGo"诞生,训练Gan破解27%LinkedIn测试集密码,一项新的研究旨在使用生成对抗网络(GAN) 来加快密码破解的速度.斯蒂文斯理工学院的研究人 ...

  3. 为什么训练集用fit_transform()而测试集用transform()及sklearn.feature_extraction.text.CountVectorizer API详解

    真正讲明白的 https://blog.csdn.net/yyhhlancelot/article/details/85097656 API https://scikit-learn.org/stab ...

  4. 训练集准确率上升,测试集的准确率没有变化!

    训练集准确率上升,测试集的准确率没有变化! 1.问题描述 2.解决办法 1.问题描述 最近利用ResNet18网络做分类问题时,训练集准确率一直在上升,测试集的准确率确几乎没有变化.数据集用的是flo ...

  5. 训练集山准确率高测试集上准确率很低_推荐算法改版前的AB测试

    编辑导语:所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西:如今很多软件都有这样的操作,对于此系统的设计也会进行测试:本文作者分享了关于推荐算法改版前的AB测试,我们一起 ...

  6. 训练集山准确率高测试集上准确率很低_拒绝DNN过拟合,谷歌准确预测训练集与测试集泛化差异,还开源了数据集 | ICLR 2019...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 深度神经网络(DNN)如今已经无处不在,从下围棋到打星际,DNN已经渗透到图像识别.图像分割.机器翻译等各种领域,并且总是表现惊艳. 然而, ...

  7. ML基础 : 训练集,验证集,测试集关系及划分 Relation and Devision among training set, validation set and testing set...

    首先三个概念存在于 有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...

  8. 【入门篇】如何正确使用机器学习中的训练集、验证集和测试集?

    [注] ·本文为转载文章,原文作者是王树义老师,原文链接为 https://zhuanlan.zhihu.com/p/71961236 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎 ...

  9. 一文看懂 AI 训练集、验证集、测试集(附:分割方法+交叉验证)

    2019-12-20 20:01:00 数据在人工智能技术里是非常重要的!本篇文章将详细给大家介绍3种数据集:训练集.验证集.测试集. 同时还会介绍如何更合理的讲数据划分为3种数据集.最后给大家介绍一 ...

  10. 训练集(train set) 验证集(validation set) 测试集(test set)

    在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set). http://blog.si ...

最新文章

  1. ×××S 2012 参照函数 -- 介绍
  2. Redis进阶实践之五Redis的高级特性
  3. IE8 Beta2 AJAX 的更新篇之XDR(二)(IE8 Beta2 Hand-on Lab-XDR)
  4. fatal: unable to access 'xxxxxxxxxxxxx':The requested URL returned error: 403
  5. 第七节:利用CancellationTokenSource实现任务取消和利用CancellationToken类检测取消异常。
  6. 英雄联盟S11总决赛EDG夺冠,网友:立下的flag可以兑现了
  7. 【实战分享】js生成word(docx),以及将word转成pdf解决方案分享
  8. 通信电子线路高如云pdf_通信电子线路 第三版 教学课件 高如云 封面及目录.pdf...
  9. pandas_计算前复权收盘价和后复权收盘价
  10. c语言水仙花数pow,c语言如何解水仙花数
  11. 【转换输出流小练习 】现有一字符串:”我爱Java”。将该字符串保存到当前项目根目录下的a.txt文件中。​
  12. 在运行java程序时出现 Error: could not open c:\program Files\Java\jre6\lib\amd64\jvm.cfg'
  13. java什么是reference_如何理解java中的Reference和引用类型?正确的案例讲解
  14. 交换机与路由器技术-05-路由器工作原理
  15. 电脑右键“打开方式”不见了怎样恢复
  16. Python 于 webgame 的应用(上)
  17. 学习笔记 查分约束系统
  18. IDEA中:源服务器未能找到目标资源的表示或者是不愿公开一个已经存在的资源表示。
  19. 2020 全球经济正进入衰退期
  20. 没钱看病?别怕,有医保!

热门文章

  1. 视频聊天软件开发都需要用到哪些三方服务?
  2. 水电站计算机监控作用,计算机监控系统在水电站中的应用
  3. kali系统下libtorrent的安装编译
  4. java 什么叫异或_Java中 ^异或
  5. python实现决策树算法
  6. 牛客网c语言笔试题库,【sql】牛客网练习题 (共 61 题)
  7. Redis is configured to save RDB snapshots, but it is currently not able to persist on disk. Commands
  8. 移动通信网络协议 — GTP-U 隧道协议
  9. JavaScript 视频、图片转成Base64格式
  10. 拆解一个老式电感电容表