通俗易懂彻底理解10-fold cross-validation method(十倍交叉验证法)

十倍交叉验证法:

将所有数据分为十份,然后将每一份作为验证集,其他作为训练集来进行训练和验证。在这一过程中,保持超参数一致,然后取10个模型的平均训练loss和平均验证loss,来衡量超参数的好坏。最后取得一个满意的超参数以后,使用全部数据作为训练集,用该超参数训练获得1个模型。

使用交叉验证的目的是:

为了降低由于训练集和验证集单次划分而导致的偶然性,充分利用现有的数据集来进行多次划分从而避免因为特殊划分而选择了不具有泛化能力的偶然超参数和模型。通过交叉验证来降低偶然性,提高泛化能力。

对数据集划分对训练模型和超参数设置的理解:

假设在极端情况下,训练集中有20个样本,其中有2个样本与其他样本差别很大,但它们2个本身是相同的,剩下的18个是可以互推的。如果这两个样本其中一个被划分到训练集,另一个被划分到验证集,则在这种情况下,将超参数如网络结构设置的复杂一些来尽可能的拟合训练集,训练出来的模型自然地可以很好地泛化到验证集。但是如果这两个样本都被划分到验证集中,训练集中对这两个样本的信息包含有限,完全按照训练集进行训练将导致过拟合,这是因为完全的拟合与信息的不完全性之间的不匹配造成了事实上的过度推断。必须将超参数设置的小一点来保留一定的弹性,即不能因为训练集里的人都是极端的变态,所以假设测试集中也是一模一样极端的变态,在这一划分下,由于验证集确实跟训练集不太一样,所以将条件放松,以一个稍微正常一点不那么变态的基本的人的标准来对验证集进行推断反而能取得更加具有泛化能力的结论。正是由于数据集的划分对超参数和模型的影响,所以才需要使用交叉验证来寻求折中。

通俗易懂彻底理解十倍交叉验证法相关推荐

  1. SVM------n倍交叉验证法

    一.概述 1.N交叉验证有两个用途:模型评估.模型选择. 2.N折.交叉只是一种划分数据集的策略.想知道它的优势,可以拿它和传统划分数据集的方式进行比较.它可以避免固定划分数据集的局限性.特殊性,这个 ...

  2. 西瓜书习题3.4 (交叉验证法)

    西瓜书习题3.4 (交叉验证法): ​ 选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率. 1.数据集长啥样? ​ 于是就下载了一组UCI数据集,它长这样: 至于这些数据是 ...

  3. k折交叉验证法python实现_Jason Brownlee专栏| 如何解决不平衡分类的k折交叉验证-不平衡分类系列教程(十)...

    作者:Jason Brownlee 编译:Florence Wong – AICUG 本文系AICUG翻译原创,如需转载请联系(微信号:834436689)以获得授权 在对不可见示例进行预测时,模型评 ...

  4. 十折交叉验证pythoniris_数据集的划分——交叉验证法

    本文作者:王 歌 文字编辑:戴 雯 技术总编:张 邯Python云端培训课程火热招生中~重大通知!!!爬虫俱乐部于2020年7月11日至14日在线上举行为期四天的Stata编程技术定制培训,招生工作已 ...

  5. 【机器学习-西瓜书】二、模型评估:过拟合;自助法;交叉验证法

    关键词: 错误率(error rate):精度(accuracy):经验误差(empirical error):泛化误差(generalization error):过拟合(overfitting); ...

  6. Java机器学习库ML之九交叉验证法(Cross Validation)

    交叉验证(Cross Validation,CV)是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分 ...

  7. 5折交叉验证_数据集的划分——交叉验证法

    本文作者:王 歌 文字编辑:戴 雯 技术总编:张 邯 前面我们在举例时,通常是将所使用的数据集按照75%和25%的比例划分为训练集和测试集,这主要是为了我们举例方便,同时划分后的数据量也依然符合大样本 ...

  8. 波斯顿房价(lasso、线性回归、留出法、k折交叉验证法)

    经过几天水水的学习,利用波斯顿房价数据集做了一点小小练习,并写此笔记来记录自己点滴实验心得.新手实验,望有经验人士勿喷,本人抛砖引玉,望得到宝贵建议.如今后有新的体会,则会更新笔记. 1.线性回归+留 ...

  9. ISLR读书笔记八:交叉验证法(Cross-Validation)

    交叉验证法(Cross-Validation) 前言 校验集方法 留一法 k折交叉验证 前言 本篇的交叉验证法(Cross-Validation)和下篇的自助法(bootstrap)都是重采样方法(r ...

最新文章

  1. java的面向对象的四大特征
  2. XHR(XMLHttpRequest)与Linux下的CGI交互
  3. Magicodes.IE已支持导出Word、Pdf和Html
  4. 服务端解决跨域问题的方案(二)
  5. 【英语学习】【Daily English】U03 Leisure Time L03 Hiking and camping are some of his favorites.
  6. linux虚拟主机_云服务器与虚拟主机的区别
  7. [书摘]架构真经--可扩展性规则的利益与优先级排行榜
  8. C语言和设计模式(之开篇)
  9. 重庆首个地方区块链标准本月起实施
  10. 数据结构学习-Java实现复数类
  11. win7远程桌面连接 简易教程
  12. JAVA内存泄漏原因和检测工具
  13. 2021物理化学实验2:分光光度法测溴酚蓝的电离平衡常数
  14. 鸿蒙os下载到电脑上,华为鸿蒙os系统官网
  15. css中margin-top和top有什么区别
  16. Android Accessibility大致解析,通过adb运行纯java代码打开应用的辅助功能
  17. mac中clion无法运行
  18. 邮件发送错了怎么办?TOM VIP邮箱如何撤回邮件
  19. k1658停运到什么时候_k1658列车到龙川一般会晚点吗因为我要转车时间只有四十分钟...
  20. oracle数据库block、tigger、function、package

热门文章

  1. Mac MongoDB客户端MongoBooster安装教程分享
  2. 读书笔记《超实用笔记读书法》第二章 用购书清单指名购书
  3. 动态规划如何写出状态转移方程
  4. SpringCloud五大神兽01-Eureka注册中心
  5. 库存账龄VS库存库龄
  6. Linux软件测试基础指令
  7. 深度学习之模型finetuning
  8. 学成在线笔记+踩坑(7)——绑定媒资
  9. python分箱处理_python数据处理--WOE分箱
  10. pywinauto java_pywinauto简单介绍