文章目录

  • 前言
  • 一.train_test_split是什么?
  • 二、使用步骤
    • 1.引入库
    • 2.读入数据
    • 3.参数意义
  • 总结

前言

train_test_split是python在机器学习中常常需要用到的一个方法
安装方法:pip install sklearn
导入方法:from sklearn.model_selection import train_test_split

一.train_test_split是什么?

train_test_split方法能够将数据集按照用户的需要指定划分为训练集和测试集/

二、使用步骤

1.引入库

from sklearn.model_selection import train_test_split

2.读入数据

X_train,X_test, y_train, y_test =train_test_split(train_data,train_target,test_size=0.25, random_state=0,stratify=y)
# train_data:所要划分的样本特征集
# train_target:所要划分的样本结果
# test_size:样本占比,如果是整数的话就是样本的数量
# random_state:是随机数的种子。
# 随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

3.参数意义

Code 意义
train_data 待划分的样本特征集合
X_train 划分出的训练数据集数据
X_test 划分出的测试数据集数据
y_train 划分出的训练数据集的标签
y_test 划分出的测试数据集的标签
test_size 若在0~1之间,为测试集样本数目与原始样本数目之比;若为整数,则是测试集样本的数目
random_state 随机数种子,不同的随机数种子划分的结果不同
stratify stratify是为了保持split前类的分布,例如训练集和测试集数量的比例是 A:B= 4:1,等同于split前的比例(80:20)。通常在这种类分布不平衡的情况下会用到stratify。

总结

train_test_split是每个机器学习学习者必学的方法之一,这里给大家总结出了详细的用法。

机器学习之train_test_split详解相关推荐

  1. python随机森林变量重要性_随机森林如何评估特征重要性【机器学习面试题详解】...

    今天爱分享给大家带来随机森林如何评估特征重要性[机器学习面试题详解],希望能够帮助到大家. 解析: 衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1 ...

  2. 机器学习分类器评价指标详解(Precision, Recall, PR, ROC, AUC等)(一)

    为了系统性地理解机器学习模型的不同评价指标及其之间的关系,我们将从其定义出发,探究其物理含义及彼此之间的联系,并从数学上给出相应的公式推导,以方便后续用到时复习理解.由于篇幅较长,因此将其分为两篇,这 ...

  3. 机器学习经典算法详解及Python实现--元算法、AdaBoost

    http://blog.csdn.net/suipingsp/article/details/41822313 第一节,元算法略述 遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果. ...

  4. matlab中k-means算法_机器学习 | KMeans聚类分析详解

    大量数据中具有"相似"特征的数据点或样本划分为一个类别.聚类分析提供了样本集在非监督模式下的类别划分.聚类的基本思想是"物以类聚.人以群分",将大量数据集中相似 ...

  5. Liblinear机器学习库教程详解(基于Python API)

    前言 Liblinear机器学习库主要实现SVM算法,在处理大规模数据时速度快,但也有缺点,就是太吃内存,博客 https://blog.csdn.net/roguesir/article/detai ...

  6. 机器学习Scikit-Learn模块详解

    一.Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块算法库,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionalit ...

  7. 机器学习基础知识详解!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:胡联粤,Datawhale面经小组 Q1 ⽼板给了你⼀个关于癌症检 ...

  8. python机器学习:决策树详解

    文章目录 一.决策树工作原理 1.1 定义 1.2 决策树结构 1.3 核心问题 二.sklearn库中的决策树 2.1 模块sklearn.tree 2.2 sklearn建模基本流程 2.3 决策 ...

  9. python --机器学习(基本算法详解)SciPy、Numpy、Matplotlib

    介绍 数据集 在计算机中,数据集指的是任何数据集合.它可以是从数组到完整数据库的任何内容. 一个数组的例子: [99,86,87,88,111,86,103,87,94,78,77,85,86] 一个 ...

最新文章

  1. Js高设笔记1-2章 defer and async
  2. CodeForces 625A Guest From the Past
  3. linux gcc make cmake 三工具的关系
  4. (转帖)数据库时代的终结
  5. Vivado提高综合和实现的速度
  6. 2021-07-12 原来我用的是CPU,更改方法
  7. oracle 生成 sql语句,Oracle使用SQL语句生成日历的实现方法
  8. python创建maven工程_Maven项目
  9. mysql索引的创建和删除吗_MySQL索引的创建、删除和查看
  10. 最小树——迪杰斯特拉算法
  11. ram计算机中术语,计算机术语 RAM ROM
  12. Android 原生的人脸识别Camera+FaceDetector示例
  13. socks代理和http代理的区别_浅析socks代理如何使用TCP和UDP协议
  14. DNA序列c语言,请问怎么用r语言进行dna序列分析?
  15. Android studio 渐变色,android shape 之渐变色角度理解
  16. Java修炼——手写服务器项目
  17. 基于php的微信公众平台开发入门实例
  18. insmod等模块命令
  19. 纯千兆电口和自适应电口的区别
  20. 初学自建的超简单网站

热门文章

  1. 如何用Qtdesigner删除工具栏的分隔符
  2. 傻傻分不清楚:裸纤、专线、SDH、MSTP、MSTP+、OTN、PTN、IP-RAN
  3. 名师杀手(超级搞笑)
  4. .net安装或运行时提示stdole.dll错误
  5. 快排的优化(简直神乎其神了!!!)
  6. sql distinct详解
  7. html怎么填充父窗体,css – 如何完全填充它的父?
  8. Java游戏开发——贪吃蛇
  9. final方法、final变量、final类、final对象—Java
  10. avi格式转换器官方下载