Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

功能：

将数组或矩阵拆分为随机的训练子集和测试子集 。

输入和输出：

输入：

arrays : 具有相同长度的可索引序列，x-y的映射（sequence of indexables with same length / shape[0]）。
test_size (optional ) : float, int or None, (default=None)
- 如果为float，则应介于0.0和1.0之间，并表示要包含在测试拆分中的数据集的比例。
- 如果是int，则表示测试样本的绝对数量。
- 如果为None，则将该值设置为train_size 的补码。如果train_size也是None，则将其设置为0.25。
train_size : float, int, or None, (default=None)
- 如果为float，则应介于0.0和1.0之间，并表示要包含在列车拆分中的数据集的比例。
- 如果是int，则表示测试集大小的绝对数量。
- 如果为None，则该值自动设置为test_size 的补码。
random_state (optional) : int, RandomState instance or None, (default=None)
- 如果是int，则random_state是随机数生成器使用的种子。
- 如果是RandomState instance，则random_state是随机数生成器。
- 如果为None，则随机数生成器是由其使用的RandomState实例np.random。
shuffle (optional) ： bool类型，（default = True）

是否在拆分之前对数据打乱。如果shuffle = False，则stratify必须为None。
stratify : array-like or None (default=None)

如果不是None，则数据以分层方式拆分，使用此作为类标签。

输出：

splitting : list类型, length=2 * len(arrays)

包含划分好的训练子集和测试子集的列表。

示例：

初始化输入：

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]

划分训练集和测试集 (`shuffle = default = True` )：

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],[0, 1],[6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],[8, 9]])
>>> y_test
[1, 4]

`shuffle=False`的划分方式

>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]

[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()相关推荐

python创建数据集_利用 python 在本地数据集创建训练集和测试集
根据自己的数据集,自动划分训练集.测试集举个栗子: 已经分好的文件: origin 文件夹有三类数据:good,bad,m,每类文件夹包含不同数量的图片,如下: 需要生成数据集的文件: 结果:根据设 ...
机器学习之数据集划分——训练集测试集划分，划分函数，估计器的使用
训练集测试集划分,划分函数,估计器的使用参考文章训练集.验证集和测试集的划分及交叉验证的讲解划分训练集和测试集的函数学习 sklearn数据集,数据集划分,估计器详细讲解参考文章训练集.验证 ...
python划分数据集用pandas_用pandas划分数据集实现训练集和测试集
1.使用model_select子模块中的train_test_split函数进行划分数据:使用kaggle上Titanic数据集划分方法:随机划分 # 导入pandas模块,sklearn中mo ...
将数据集分为训练集和测试集（python脚本）
文章目录程序: 下面简单介绍一下程序流程 1.引入库 os库 shutil random 2.mk_file函数 3.主函数程序: 我们在训练卷积神经网络之前,要搭建好数据集,分成训练集和测试集两 ...
FCN制作自己的数据集、训练和测试 caffe
原文:http://blog.csdn.net/zoro_lov3/article/details/74550735 FCN制作自己的数据集.训练和测试全流程花了两三周的时间,在导师的催促下,把FC ...
Python 如何拆分数据集
前言训练模型之前一般需要把数据集拆分为训练集和测试集,使用python代码如何拆分的关键就是如何更方便的选择出自变量X和因变量Y. 加载数据 # 导入第三方模块 import pandas as p ...
自定义ava数据集及训练与测试完整版时空动作/行为视频数据集制作 yolov5, deep sort, VIA MMAction, SlowFast
前言这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底. 我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160. ...
学习weka（2）：weka软件使用实例：针对kdd99数据集进行训练和测试
前言 kdd99 数据集之前介绍过,没有看的可以参考:KDD CUP99数据集预处理(Python实现) 这里拿 kdd99 数据集练练手,主要目的是熟悉一下 weka 的使用. 1.数据集准备使用 ...
7个Bert变种模型baseline在7个文本分类数据集上训练和测试
引入和代码项目简介 https://github.com/songyingxin/Bert-TextClassification 模型有哪些? 使用的模型有下面七个 BertOrigin, BertC ...

[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

功能：

输入和输出：

输入：

输出：

示例：

初始化输入：

划分训练集和测试集 (`shuffle = default = True` )：

`shuffle=False`的划分方式

[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()相关推荐

最新文章

热门文章

[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

功能：

输入和输出：

输入：

输出：

示例：

初始化输入：

划分训练集和测试集 (shuffle = default = True )：

shuffle=False的划分方式

[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()相关推荐

最新文章

热门文章

划分训练集和测试集 (`shuffle = default = True` )：

`shuffle=False`的划分方式