1.划分测试集目的

  • 为了了解一个模型对新样本的泛化能力,唯一的办法是:让已经训练好的模型真正的处理新的样本。
  • 解决方法: 将原始数据划分成两个部分:训练集 测试集。可以使用训练集来训练模型,然后用测试集来测试模型。通过测试集来评估模型,可以了解模型的泛化误差。
  • 如果训练误差很低,但是泛化误差很高,说明模型对于训练数据已经过拟合了。
  • 一般将原始数据集划分为70%的训练集,30%的测试集合。

2.划分验证集目的

  • 现在有两个模型(例如:线性模型和多项式模型)都可以解决同一个实际问题,你正在由于犹豫不决。如何作出判断:训练出两个模型,然后对比它们对测试数据的泛化能力。假设线性模型的泛化能力更强,但为了避免模型过拟合,有必须设置正则化超参数。如何选择出最佳的正则化超参数的值呢?做法之一是使用100个不同的超参数值来训练100个不同的模型,假设已经找出最佳的超参数值,它生成的模型的泛化误差最小。使用此模型运行在实际生产环境中,并没有达到预期的精度。这是由于在你对测试集的泛化误差进行了多次测量来调整模型和超参数时,拟合出的模型只对测试集是最佳参数,对新的数据不太有可能有好的表现。
  • 解决方法:单独从原始数据中划分出一个保留的集合即验证集。在训练集上,使用不同的超参数训练多个模型,然后通过验证集,选择出最好的那个模型和对应的超参数。最后再运行一遍测试集,得到泛化误差的估计值。
  • 实际中,为了避免浪费太多的训练数据,采用交叉验证。将训练集划分为若干个互补的子集,然后每个模型都通过这些子集的不同组合来进行训练,之后用剩余的子集来进行验证。一旦模型和超参数都确定,最终的模型会带着这些超参数对整个训练集进行一次训练,最后用测试集来测量泛化误差。
  • 一般划分规则: 60%训练集数据,20%验证集数据, 20%测试集数据

3.K折交叉验证

  • 将可用数据划分为K个分区(K通常为4或5),实例化K个相同的模型,将每个模型在K-1个分区上训练,并在剩下的一个分区上进行评估,模型的验证分数等于K个验证分数的平均值。

4.训练集 验证集 测试集使用

  • 在训练集上训练模型,在验证集上评估模型,一旦找到最佳参数,就在测试集上最后测试一次。

5.多分类与多标签分类区别

  • 多分类:每个样本都应被划分到两个以上的类别上,例如MNIST手写数字体分类
  • 多标签分类:每个输入样本可以被分配到多个标签。例如一幅图像中既有猫又有狗,那么应该同时标注“猫”和“狗”的标签,每幅图片的标签的个数通常是可变的。

机器学习中的训练集 验证集 测试集的关系相关推荐

  1. 【小白学PyTorch】 2.浅谈训练集验证集和测试集

    文章目录: 经验误差与过拟合 评估方法 经验误差与过拟合 关键词:错误率(error rate),精度(accuracy). 错误率好理解,就是m个样本中,a个样本分类错误,则错误率E = a/m . ...

  2. 训练集 验证集_训练与验证、测试集数据分布不同的情况

    在不同分布的数据集上进行训练与验证.测试 深度学习需要大量的数据,但是有时我们可获得的满足我们真实需求分布的数据并不是那么多,不足以对我们的模型进行训练.这时我们就会收集大量相关的数据加入到训练集中, ...

  3. 【入门篇】如何正确使用机器学习中的训练集、验证集和测试集?

    [注] ·本文为转载文章,原文作者是王树义老师,原文链接为 https://zhuanlan.zhihu.com/p/71961236 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎 ...

  4. 机器学习中训练集、验证集和测试集的区别

    通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...

  5. 机器学习中的训练集,验证集及测试集的关系

     机器学习中的训练集,验证集及测试集的关系                          作者同类文章X 最近在看机器学习的东西发现验证集的(Validation set) 有时候被提起到,以 ...

  6. 机器学习中训练集、验证集和测试集的作用

    通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...

  7. 如何正确使用机器学习中的训练集、验证集和测试集?

    王树义 读完需要 19 分钟 速读仅需7分钟 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎么用?看过这篇教程后,你就能游刃有余地处理它们了. 1 问题 审稿的时候,不止一次,我遇到 ...

  8. 机器学习典型步骤以及训练集、验证集和测试集概念

    1. 机器学习典型步骤 数据采集和标记 数据清洗 特征选择 如房子的面积.地理位置.朝向.价格等. 模型选择 有监督还是无监督,问题领域.数据量大小.训练时长.模型准确度等多方面有关. 模型训练和测试 ...

  9. [机器学习] 训练集(train set) 验证集(validation set) 测试集(test set)

    在有监督(supervise)的机器学习中,数据集常被分成2~3个即: 训练集(train set) 验证集(validation set) 测试集(test set) 一般需要将样本分成独立的三部分 ...

最新文章

  1. XPath基本概念(一)
  2. zookeeper在Dubbo中的作用
  3. linux里的挂载错误无法开机怎么办,Linux基础知识 - 开机挂载错误
  4. 个性化推荐系统原理介绍(基于内容推荐/协同过滤/关联规则/序列模式/基于社交推荐)...
  5. “CSDN 2021年度IT技术影响力之星评选”正式开启报名!
  6. 【Flink】报错 KryoException ConcurrentModificationException StackOverflowError
  7. Extjs 实战之 Ext.tree.TreePanel Tree无法显示
  8. EMNLP 2020 可解释性推理
  9. python数学建模基础教程_Python 数学建模极简入门(一)
  10. Go语言圣经阅读-第八周
  11. SourceOffSite使用方法
  12. IndentationError: expected an indented block缩进没问题但是出错
  13. VBA 把电信的电话费用表转换成部门电话费用明细表(图文)
  14. 计算机视觉————理解彩色图片
  15. 中介模式(python实现2)
  16. 关于富勒-富勒旗舰店- 天猫Tmall.com
  17. 深度学习笔记(入门)
  18. PAT乙级1025题解
  19. 控制算法--1 二值位式控制算法
  20. 阿里巴巴起诉迪拜“阿里巴巴币”商标侵权:别让人误以为阿里在发币

热门文章

  1. 做完小程序项目、老板给我加了6k薪资~
  2. CentOS6.5更改ssh端口问题
  3. Owncloud-X安装配置
  4. UITableView学习笔记
  5. 2012年中国移动地图和导航市场研究报告简版
  6. Scene Player初始版本完成
  7. [vSphere培训实录]利用模板部署虚拟机时的一个小错误
  8. pku 1077 Eight
  9. 敏感数据,“一键脱敏”,Sharding Sphere 完美搞定
  10. 你正在用的API网关,真的起到了它该有的作用?