1 函数用途

train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为:

X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0, shuffle=True)

2 参数解释:

  • train_data:所要划分的样本特征集
  • train_target:所要划分的样本结果
  • test_size:如果为小数则代表样本占比(0到1),如果是整数则代表样本的数量,默认为0.25
  • random_state:是随机数的种子,默认为None。如果种子相同,则随机数相同,如果种子不同,则随机数不同。在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,则代表随机数的种子是一个随机值,每次结果都不同。
  • shuffle:划分前是否对数组或矩阵进行洗牌,默认为True。
import numpy as np
from sklearn.model_selection import train_test_split
X = np.arange(10).reshape((5, 2))
y = range(5)

其中X,y分别为:

X= [[0 1][2 3][4 5][6 7][8 9]]
y= [0, 1, 2, 3, 4]

对数据集进行划分,训练集占70%,测验集占30%,固定随机数的种子,划分前不重新洗牌:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1,shuffle=False)

划分完的数据集如下:

X_train= [[0 1][2 3][4 5]]
y_train= [0, 1, 2]
X_test= [[6 7][8 9]]
y_test= [3, 4]

转载于:https://www.cnblogs.com/iwangwei/p/10563999.html

sklearn.model_selection.train_test_split随机划分训练集和测试集相关推荐

  1. Sklearn-train_test_split随机划分训练集和测试集

    sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...

  2. 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)

    文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...

  3. train_test_split(),随机划分训练集和测试集的函数

    sklearn.model_selection.train_test_split() from sklearn.model_selection import train_test_split x_tr ...

  4. 【自用】 sklearn 用 train_test_split 简单划分训练和测试集

    2019独角兽企业重金招聘Python工程师标准>>> python: from sklearn.model_selection import train_test_splitdt, ...

  5. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  6. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  7. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  8. python按设定比例划分训练集和测试集代码

    # *_*coding: utf-8 *_* # Author --LiMing--import os import random import shutil import timedef copyF ...

  9. python划分训练集和测试集_杨涛的Python机器学习3:单特征与多特征、训练集与测试集,杨桃...

    本人CSDN博客专栏:https://blog.csdn.net/yty_7 Github地址:https://github.com/yot777/ 单特征与多特征 在上一节标签和特征的示例中,我们使 ...

最新文章

  1. CentOS 6 同一台机器部署多个Tomcat应用服务器
  2. 重温强化学习之函数近似
  3. 机器学习笔记:线性判别分析(Fisher)
  4. iOS 消息转发机制
  5. OpenCV扫描图像对象的实例(附完整代码)
  6. C#中GDI绘制高质量平滑图形实例
  7. E:Sleeping Schedule(DP)
  8. 利用Kinect将投影变得可直接用手操控
  9. docker使用方式
  10. p1470 Longest Prefix
  11. 两种方法解决pip、conda安装库时慢的问题
  12. 前后端分离后的前端时代,使用前端技术能做哪些事?
  13. live555学习之基本类介绍及计划任务深度探讨
  14. vue提交mutation_为什么Vuex中必须要通过commit提交mutation?
  15. Flink+Alink,当大数据遇见机器学习! 博文视点Broadview 前天
  16. solr6 mysql增量更新_solr 的全量更新与增量更新
  17. 商城项目实战32:商品详情页实现
  18. GMap.NET控件使用
  19. JQuery(js辅助开发类库)
  20. java怎么没有jmf包_java JMF

热门文章

  1. 【Design pattern】设计模式思路总结(三)
  2. WSL 或者ubantu安装 apt-get install npm 失败解决方法
  3. 正向最大匹配 和逆向最大匹配对比比较
  4. 矩阵乘以其矩阵转置求导-数学
  5. LeetCode简单题之相对名次
  6. 系统芯片(SOC)架构- Aviral Mittal
  7. Android App的启动过程
  8. 2021年大数据Kafka(一):❤️消息队列和Kafka的基本介绍❤️
  9. 在Lumen中引入钉钉SDK
  10. Java 判断list中是否包含某个元素