上一篇介绍了train_test_split函数:

橘猫吃不胖:sklearn函数:train_test_split(分割训练集和测试集)​zhuanlan.zhihu.com

主要场景是,我们想要将原始数据分割为训练集和测试集,但是会有一些问题

比如,过渡拟合(a risk of overfittingon the test set

其中一个方法是,再拆分出来一个验证集,先用训练集训练模型,然后使用验证集来校验,最后去测试集,但是这个方法很明显的问题是,大大减少了训练集的样本数。

另一种比较好的方案就是cross-validation (CV for short),交叉验证

基本的思路是:k-fold CV,也就是我们下面要用到的函数KFold,是把原始数据分割为K个子集,每次会将其中一个子集作为测试集,其余K-1个子集作为训练集。

下图是官网提供的一个介绍图,详情介绍参考:https://scikit-learn.org/stable/modules/cross_validation.html

下面介绍函数的使用

classsklearn.model_selection.KFold(n_splits=5,*,shuffle=False,random_state=None)

  • n_splits:int, default=5

表示,要分割为多少个K子集

  • shuffle:bool, default=False

是否要洗牌(打乱数据)

  • random_state:int or RandomState instance, default=None

这和前一篇中提到的随机状态是一样的,需要配合shuffle参数使用

小栗子

import numpy as np
from sklearn.model_selection import KFoldX = np.random.randint(1,100,20).reshape((10,2))
Xkf = KFold(n_splits=5)
kffor X_train,X_test in kf.split(X):print(X_train,X_test)for X_train_i,X_test_i in kf.split(X):print(X[X_train_i],X[X_test_i])

oxford5k和paris6k数据集介绍_sklearn函数:KFold(分割训练集和测试集)相关推荐

  1. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  2. iris数据集_sklearn日志(二)训练集和测试集划分

    机器学习算法需要大量的数据,这些数据一部分用于模型训练,另一部分作为测试或验证. 机器学习入坑者:sklearn日志(一)体验官方提供的标准数据集​zhuanlan.zhihu.com sklearn ...

  3. python划分数据集用pandas_用pandas划分数据集实现训练集和测试集

    1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...

  4. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  5. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  6. 将数据集分为训练集和测试集(python脚本)

    文章目录 程序: 下面简单介绍一下程序流程 1.引入库 os库 shutil random 2.mk_file函数 3.主函数 程序: 我们在训练卷积神经网络之前,要搭建好数据集,分成训练集和测试集两 ...

  7. Scikit-learn API:train_test_split函数 将数据分割为训练集和测试集

    函数原型 sklearn.model_selection.train_test_split(*arrays, **options) 函数功能 将数组或矩阵随机的分割成训练集和测试集,注意这里是随机的. ...

  8. 【自存代码】划分数据集为训练集和测试集

    [自存代码]划分image和label为训练集和测试集 修改自这位大佬的代码:https://blog.csdn.net/weixin_47414034/article/details/1254793 ...

  9. python创建数据集_利用 python 在本地数据集创建训练集和测试集

    根据自己的数据集,自动划分训练集.测试集 举个栗子: 已经分好的文件: origin 文件夹有三类数据:good,bad,m,每类文件夹包含不同数量的图片,如下: 需要生成数据集的文件: 结果:根据设 ...

最新文章

  1. ssh免密连接远程服务器
  2. 【计算机视觉】EmguCV学习笔记(2)图像的载入、显示和输出
  3. VMTK学习——02.基本的PYPES教程
  4. 360能删除mysql吗_如何彻底删除MYSQL
  5. element表格固定某一行_WPS表格快捷键讲解大全1(区域选取)!
  6. 通过串口来控制网管型交换机的操作步骤详解
  7. ASP.NET MVC 缓存使用示例
  8. python快速排序函数_两种方法在Python中实现快速排序
  9. Spark Shuffle之Tungsten-Sort
  10. 华为荣耀3c手机语言设置在哪个文件夹,(科普)详解Android系统SD卡各类文件夹名称...
  11. (2020年下半年软件设计师49题)程序设计语言的大多数语法现象可以用CFG(上下文无关文法)表示。下面的CFG产生式集用于描述简单算术表达式,其中+ - * 表示加、减、乘运算,id表示单个字母表示
  12. vue中文本超出省略号
  13. Linux里利用grep和find查找文件内容
  14. 什么是浏览器跨访问操作,js如何实现
  15. androidx.test.runner.AndroidJUnit4 is deprecated
  16. 01 注释的作用和分类
  17. 2011计算机考研大,2011年计算机考研大纲
  18. 【学习笔记】斗鱼p2p架构
  19. 百度网盘上传文件超过4G,只需一个工具即可免费上传
  20. Deep Leaning (深度学习)学习笔记二

热门文章

  1. java怎么获取字符串位置,Java:在字符串中获取匹配位置的方法?
  2. 监测div大小变化_如何让div大小随窗口大小变化
  3. mysql 技能进阶_mysql的高级进阶(一)
  4. 变频器端子阻抗3k_PLC与变频器连接问题分析
  5. Docker系列(一):容器监控工具Weave Scope安装
  6. Linux 基础学习大考核
  7. The underlying provider failed on open 问题解决
  8. ionic@2.0 beta版本安装指南
  9. 一种监控全部账户登陆及操作命令的方法
  10. C#软件winform程序安装包制作及卸载程序制作