oxford5k和paris6k数据集介绍_sklearn函数:KFold(分割训练集和测试集)
上一篇介绍了train_test_split函数:
橘猫吃不胖:sklearn函数:train_test_split(分割训练集和测试集)zhuanlan.zhihu.com
主要场景是,我们想要将原始数据分割为训练集和测试集,但是会有一些问题
比如,过渡拟合(a risk of overfittingon the test set)
其中一个方法是,再拆分出来一个验证集,先用训练集训练模型,然后使用验证集来校验,最后去测试集,但是这个方法很明显的问题是,大大减少了训练集的样本数。
另一种比较好的方案就是cross-validation (CV for short),交叉验证
基本的思路是:k-fold CV,也就是我们下面要用到的函数KFold,是把原始数据分割为K个子集,每次会将其中一个子集作为测试集,其余K-1个子集作为训练集。
下图是官网提供的一个介绍图,详情介绍参考:https://scikit-learn.org/stable/modules/cross_validation.html
下面介绍函数的使用
class
sklearn.model_selection.KFold
(n_splits=5,*,shuffle=False,random_state=None)
- n_splits:int, default=5
表示,要分割为多少个K子集
- shuffle:bool, default=False
是否要洗牌(打乱数据)
- random_state:int or RandomState instance, default=None
这和前一篇中提到的随机状态是一样的,需要配合shuffle参数使用
小栗子
import numpy as np
from sklearn.model_selection import KFoldX = np.random.randint(1,100,20).reshape((10,2))
Xkf = KFold(n_splits=5)
kffor X_train,X_test in kf.split(X):print(X_train,X_test)for X_train_i,X_test_i in kf.split(X):print(X[X_train_i],X[X_test_i])
oxford5k和paris6k数据集介绍_sklearn函数:KFold(分割训练集和测试集)相关推荐
- python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解
文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...
- iris数据集_sklearn日志(二)训练集和测试集划分
机器学习算法需要大量的数据,这些数据一部分用于模型训练,另一部分作为测试或验证. 机器学习入坑者:sklearn日志(一)体验官方提供的标准数据集zhuanlan.zhihu.com sklearn ...
- python划分数据集用pandas_用pandas划分数据集实现训练集和测试集
1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...
- 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization
1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...
- idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集
[从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...
- 将数据集分为训练集和测试集(python脚本)
文章目录 程序: 下面简单介绍一下程序流程 1.引入库 os库 shutil random 2.mk_file函数 3.主函数 程序: 我们在训练卷积神经网络之前,要搭建好数据集,分成训练集和测试集两 ...
- Scikit-learn API:train_test_split函数 将数据分割为训练集和测试集
函数原型 sklearn.model_selection.train_test_split(*arrays, **options) 函数功能 将数组或矩阵随机的分割成训练集和测试集,注意这里是随机的. ...
- 【自存代码】划分数据集为训练集和测试集
[自存代码]划分image和label为训练集和测试集 修改自这位大佬的代码:https://blog.csdn.net/weixin_47414034/article/details/1254793 ...
- python创建数据集_利用 python 在本地数据集创建训练集和测试集
根据自己的数据集,自动划分训练集.测试集 举个栗子: 已经分好的文件: origin 文件夹有三类数据:good,bad,m,每类文件夹包含不同数量的图片,如下: 需要生成数据集的文件: 结果:根据设 ...
最新文章
- ssh免密连接远程服务器
- 【计算机视觉】EmguCV学习笔记(2)图像的载入、显示和输出
- VMTK学习——02.基本的PYPES教程
- 360能删除mysql吗_如何彻底删除MYSQL
- element表格固定某一行_WPS表格快捷键讲解大全1(区域选取)!
- 通过串口来控制网管型交换机的操作步骤详解
- ASP.NET MVC 缓存使用示例
- python快速排序函数_两种方法在Python中实现快速排序
- Spark Shuffle之Tungsten-Sort
- 华为荣耀3c手机语言设置在哪个文件夹,(科普)详解Android系统SD卡各类文件夹名称...
- (2020年下半年软件设计师49题)程序设计语言的大多数语法现象可以用CFG(上下文无关文法)表示。下面的CFG产生式集用于描述简单算术表达式,其中+ - * 表示加、减、乘运算,id表示单个字母表示
- vue中文本超出省略号
- Linux里利用grep和find查找文件内容
- 什么是浏览器跨访问操作,js如何实现
- androidx.test.runner.AndroidJUnit4 is deprecated
- 01 注释的作用和分类
- 2011计算机考研大,2011年计算机考研大纲
- 【学习笔记】斗鱼p2p架构
- 百度网盘上传文件超过4G,只需一个工具即可免费上传
- Deep Leaning (深度学习)学习笔记二
热门文章
- java怎么获取字符串位置,Java:在字符串中获取匹配位置的方法?
- 监测div大小变化_如何让div大小随窗口大小变化
- mysql 技能进阶_mysql的高级进阶(一)
- 变频器端子阻抗3k_PLC与变频器连接问题分析
- Docker系列(一):容器监控工具Weave Scope安装
- Linux 基础学习大考核
- The underlying provider failed on open 问题解决
- ionic@2.0 beta版本安装指南
- 一种监控全部账户登陆及操作命令的方法
- C#软件winform程序安装包制作及卸载程序制作