关键字:普通参数,超参数,训练集,验证集,测试集

很多机器学习过程实际上就是选择模型,由于模型只是参数未知,所以就需要得到一个最优参数,使得模型可以比较准确的描述自变量到因变量的变化情况。对于模型的训练和度量,就需要用到已知的数据集。

数据集一般分为以下3种。如果已经有了一个大的标注数据集,那么通过随机抽样获得三种数据集,三者的比例为8:1:1。如果有标注的话,也可以只随机抽样出训练集和验证集。如果无标注,就用作训练集。(这部分写的不清楚,会后续更新)

通常的方法就是先训练训练集,即最小化代价函数,然后再把测试集代入代价函数看看效果如何。

1.训练集

确定模型后,用于训练参数,注意训练的是普通参数(每多加入一个数据对模型进行训练,模型中就会受到影响的参数,通过多次迭代不断更新,是一个梯度下降的过程)而不是超参数(超参数是指训练开始之前设置的参数,超参数的选择与训练过程实际上是独立的,训练过程不会影响超参数。但是训练结束后可以根据训练结果考虑超参数是否可优化,可优化的话就调整超参数的值开始下一次训练)

2.验证集(交叉验证集CV)

用训练集对模型训练完毕后,再用验证集对模型测试,测试模型是否准确而不是训练模型的参数

3.测试集

虽然验证集没有对模型的参数产生影响,但是我们却根据验证集的测试结果的准确度来调整参数(这里调整超参数?),所以验证集对结果还是有影响的,即使得模型在验证集上达到最优。就是在很多个模型中,验证集选择了代价函数最小的一个模型。虽然在这个模型上代价很小,但并不代表在其他数据上代价也小。所以需要一个完全没有经过训练的测试集来再最后测试模型的准确率。

4.高偏差和高方差

4.1 定义

下图是训练集和验证集的误差比较

高偏差:欠拟合,此时训练集和验证集的误差都比较大(像图里面的d=1的情况)

高方差:过拟合,对训练集拟合的好,但是对验证集拟合不好(像d=4那样)

4.2 与正则化

三种数据集的代价函数定义如下:

下图反映高偏差时候的随着训练数据的增大,训练集和验证集的误差变化情况,最后都趋向平缓

所以对于高偏差的情况,无论增加多少训练集都不会使得误差减小。所以如果预感到模型为高偏差,最好的办法就是停下来换一个模型。

高方差情况:增加训练数据有用

5.模型优化

在各个情况下应该做什么?(从右往左看)

参考:https://baike.baidu.com/item/%E8%B6%85%E5%8F%82%E6%95%B0/3101858

训练集,验证集,测试集相关推荐

  1. 【小白学PyTorch】 2.浅谈训练集验证集和测试集

    文章目录: 经验误差与过拟合 评估方法 经验误差与过拟合 关键词:错误率(error rate),精度(accuracy). 错误率好理解,就是m个样本中,a个样本分类错误,则错误率E = a/m . ...

  2. 训练集 验证集_训练与验证、测试集数据分布不同的情况

    在不同分布的数据集上进行训练与验证.测试 深度学习需要大量的数据,但是有时我们可获得的满足我们真实需求分布的数据并不是那么多,不足以对我们的模型进行训练.这时我们就会收集大量相关的数据加入到训练集中, ...

  3. 机器学习典型步骤以及训练集、验证集和测试集概念

    1. 机器学习典型步骤 数据采集和标记 数据清洗 特征选择 如房子的面积.地理位置.朝向.价格等. 模型选择 有监督还是无监督,问题领域.数据量大小.训练时长.模型准确度等多方面有关. 模型训练和测试 ...

  4. 【入门篇】如何正确使用机器学习中的训练集、验证集和测试集?

    [注] ·本文为转载文章,原文作者是王树义老师,原文链接为 https://zhuanlan.zhihu.com/p/71961236 训练集.验证集和测试集,林林总总的数据集合类型,到底该怎么选.怎 ...

  5. 训练集(train set) 验证集(validation set) 测试集(test set)

    在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set). http://blog.si ...

  6. 机器学习中训练集、验证集和测试集的区别

    通常,在训练有监督的机器学习模型的时候,会将数据划分为训练集.验证集合测试集,划分比例一般为0.6:0.2:0.2.对原始数据进行三个集合的划分,是为了能够选出效果(可以理解为准确率)最好的.泛化能力 ...

  7. [机器学习] 训练集(train set) 验证集(validation set) 测试集(test set)

    在有监督(supervise)的机器学习中,数据集常被分成2~3个即: 训练集(train set) 验证集(validation set) 测试集(test set) 一般需要将样本分成独立的三部分 ...

  8. 训练集、验证集和测试集的意义

    原文 在有监督的机器学习中,经常会说到训练集(train).验证集(validation)和测试集(test),这三个集合的区分可能会让人糊涂,特别是,有些读者搞不清楚验证集和测试集有什么区别. I. ...

  9. Recbole自定义训练集、验证集和测试集推荐

    文章目录 Recbole简介 Recbole使用 自定义训练集.验证集和测试集 Recbole简介 Recbole(中文名称:伯乐)是一款使用Python开发的开源推荐框架,里面集成了大量的推荐模型, ...

  10. 训练集、验证集和测试集的概念及划分原则

    深度学习中,常将可得的数据集划分为训练集(training set),验证集(development set/validation set)和测试集(test set).下文主要回答以下几个问题:一是 ...

最新文章

  1. 第五章 常用Lua开发库1-redis、mysql、http客户端
  2. am335x uboot, kernel 编译
  3. 【转】ABP源码分析六:依赖注入的实现
  4. python相比于excel的优势_对照Excel使用Python进行数据分析,更快掌握
  5. 如何设置mysql远程访问
  6. golang 读取本机唯一码_UDI医疗器械唯一标识系统,您身边的UDI专家
  7. java打印日历至Excel_2013日历打印_Excel2013,如何实现点击单元格就出现日历,操作者......
  8. 约瑟夫问题(猴子选大王)
  9. 软件开发 —— 过程资产与交付件
  10. 联想电脑杜比音效--低音炮配置图
  11. 五一成都峨眉山三日游 20140501~20140503
  12. 石乙己——孔乙己程序员版
  13. html5考试简答题
  14. CorelDRAW X8 /CDR2020官方序列号密钥下载矢量绘图软件
  15. 浏览器断网事件offline和联网事件online
  16. MATLAB:预设矩阵的大小与不预设的时间差距
  17. 为什么香肠能激活手机屏幕,手套不能
  18. 【Typora】添加水印
  19. esp8266-01s介绍与使用
  20. 关于极限lim n阶乘/n^n的若干解法(1)

热门文章

  1. SlickEdit 之缘起
  2. python数据集获取与基本使用(sklearn自带的数据集、UCI数据集)
  3. linux文件类型elf,ELF文件格式的三种类型
  4. 公司数字化建设规划方案
  5. C primer plus 第六版pdf下载
  6. hackerrank 刷题一(python 基础)
  7. 阿里fastjson 对象转JSON
  8. 汉字转换拼音及首字母
  9. 关于 easyPr的问题
  10. querydsl动态 sql_Spring-data-jpa扩展查询 QueryDSL 实践