[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
功能:
将数组或矩阵拆分为随机的训练子集和测试子集 。
输入和输出:
输入:
arrays
: 具有相同长度的可索引序列,x-y的映射(sequence of indexables with same length / shape[0])。test_size
(optional ) : float, int or None, (default=None)- 如果为float,则应介于
0.0
和1.0
之间,并表示要包含在测试拆分中的数据集的比例。 - 如果是int,则表示测试样本的绝对数量。
- 如果为None,则将该值设置为
train_size
的补码。如果train_size
也是None,则将其设置为0.25。
- 如果为float,则应介于
train_size
: float, int, or None, (default=None)- 如果为float,则应介于
0.0
和1.0
之间,并表示要包含在列车拆分中的数据集的比例。 - 如果是int,则表示测试集大小的绝对数量。
- 如果为None,则该值自动设置为
test_size
的补码。
- 如果为float,则应介于
random_state
(optional) : int, RandomState instance or None, (default=None)- 如果是int,则
random_state
是随机数生成器使用的种子。 - 如果是RandomState instance,则
random_state
是随机数生成器。 - 如果为None,则随机数生成器是由其使用的RandomState实例
np.random
。
- 如果是int,则
shuffle
(optional) : bool类型,(default = True)是否在拆分之前对数据打乱。如果
shuffle
=False
,则stratify
必须为None
。stratify
: array-like or None (default=None)如果不是
None
,则数据以分层方式拆分,使用此作为类标签。
输出:
splitting
: list类型, length=2 * len(arrays)包含划分好的训练子集和测试子集的列表。
示例:
初始化输入:
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]
划分训练集和测试集 (shuffle = default = True
):
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],[0, 1],[6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],[8, 9]])
>>> y_test
[1, 4]
shuffle=False
的划分方式
>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]
[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()相关推荐
- python创建数据集_利用 python 在本地数据集创建训练集和测试集
根据自己的数据集,自动划分训练集.测试集 举个栗子: 已经分好的文件: origin 文件夹有三类数据:good,bad,m,每类文件夹包含不同数量的图片,如下: 需要生成数据集的文件: 结果:根据设 ...
- 机器学习之数据集划分——训练集测试集划分,划分函数,估计器的使用
训练集测试集划分,划分函数,估计器的使用 参考文章 训练集.验证集和测试集的划分及交叉验证的讲解 划分训练集和测试集的函数学习 sklearn数据集,数据集划分,估计器详细讲解 参考文章 训练集.验证 ...
- python划分数据集用pandas_用pandas划分数据集实现训练集和测试集
1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...
- 将数据集分为训练集和测试集(python脚本)
文章目录 程序: 下面简单介绍一下程序流程 1.引入库 os库 shutil random 2.mk_file函数 3.主函数 程序: 我们在训练卷积神经网络之前,要搭建好数据集,分成训练集和测试集两 ...
- FCN制作自己的数据集、训练和测试 caffe
原文:http://blog.csdn.net/zoro_lov3/article/details/74550735 FCN制作自己的数据集.训练和测试全流程 花了两三周的时间,在导师的催促下,把FC ...
- Python 如何拆分数据集
前言 训练模型之前一般需要把数据集拆分为训练集和测试集,使用python代码如何拆分的关键就是如何更方便的选择出自变量X和因变量Y. 加载数据 # 导入第三方模块 import pandas as p ...
- 自定义ava数据集及训练与测试 完整版 时空动作/行为 视频数据集制作 yolov5, deep sort, VIA MMAction, SlowFast
前言 这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底. 我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160. ...
- 学习weka(2):weka软件使用实例:针对kdd99数据集进行训练和测试
前言 kdd99 数据集之前介绍过,没有看的可以参考:KDD CUP99数据集预处理(Python实现) 这里拿 kdd99 数据集练练手,主要目的是熟悉一下 weka 的使用. 1.数据集准备 使用 ...
- 7个Bert变种模型baseline在7个文本分类数据集上训练和测试
引入和代码项目简介 https://github.com/songyingxin/Bert-TextClassification 模型有哪些? 使用的模型有下面七个 BertOrigin, BertC ...
最新文章
- 超轻量AI引擎MindSpore Lite
- Linux操作系统CentOS7.2发行版本的安装与配置
- C++中的对象_纪要(二)
- 中山大学 精品课程C++ 视频教学 共51讲
- ORA-01502: 索引'P_ABCD.PK_WEB_BASE'或这类索引的分区处于不可用状态
- Linux中的软件源详解,Ubuntu Linux 软件源详解
- 电脑键盘下划线怎么打_电脑键盘失灵鼠标不动怎么办 键盘失灵鼠标不动解决办法...
- 计算机网络Flash教学课件,flash动画教学课件
- wkt文件java解析_WKT文件解析 以及各个投影坐标的wkt参数查询
- 怀集天气预报软件测试,【天气】怀集要入夏?这份天气预报告诉你答案!
- Android KK NuPlayer
- 国内pt站点都有什么资源,哪些值得pter入手?
- 摩托梁念坚出任微软大中华区董事长兼CEO
- 这个神器:功能强大的 Mac 剪切板记录管理工具
- Docker 容器安装监控软件 cAdvisor
- html 输入选择框
- UNOVO联永羲和开源项目
- 元旦给计算机老师的贺卡,同学给老师的元旦贺卡祝福语
- PVT(Process Voltage Temperature)
- 武汉新时标文化传媒有限公司短视频中需要的平台和软件都是这样的
热门文章
- python教程视频-Python系列视频(一)——Python语言基础
- python编程100例-【python】编程语言入门经典100例--30
- python中正则表达式_Python中正则表达式详解
- python中装饰器的作用_Python中装饰器的用法
- h5比html新增加的标签,H5新增的标签以及改良的标签
- 【python笔记】:python面向对象实现学生管理系统
- solidwork运行python脚本_Matlab – Solidworks 机器人建模(3)如何把URDF文件导入到Matlab...
- grid php 用法,grid布局主要用法
- 2021 ZUST,XCPC选拔赛
- HDOJ水题集合11:桶排序, 折半搜索