机器学习之train_test_split详解
文章目录
- 前言
- 一.train_test_split是什么?
- 二、使用步骤
- 1.引入库
- 2.读入数据
- 3.参数意义
- 总结
前言
train_test_split是python在机器学习中常常需要用到的一个方法
安装方法:pip install sklearn
导入方法:from sklearn.model_selection import train_test_split
一.train_test_split是什么?
train_test_split方法能够将数据集按照用户的需要指定划分为训练集和测试集/
二、使用步骤
1.引入库
from sklearn.model_selection import train_test_split
2.读入数据
X_train,X_test, y_train, y_test =train_test_split(train_data,train_target,test_size=0.25, random_state=0,stratify=y)
# train_data:所要划分的样本特征集
# train_target:所要划分的样本结果
# test_size:样本占比,如果是整数的话就是样本的数量
# random_state:是随机数的种子。
# 随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。
3.参数意义
Code | 意义 |
---|---|
train_data | 待划分的样本特征集合 |
X_train | 划分出的训练数据集数据 |
X_test | 划分出的测试数据集数据 |
y_train | 划分出的训练数据集的标签 |
y_test | 划分出的测试数据集的标签 |
test_size | 若在0~1之间,为测试集样本数目与原始样本数目之比;若为整数,则是测试集样本的数目 |
random_state | 随机数种子,不同的随机数种子划分的结果不同 |
stratify | stratify是为了保持split前类的分布,例如训练集和测试集数量的比例是 A:B= 4:1,等同于split前的比例(80:20)。通常在这种类分布不平衡的情况下会用到stratify。 |
总结
train_test_split是每个机器学习学习者必学的方法之一,这里给大家总结出了详细的用法。
机器学习之train_test_split详解相关推荐
- python随机森林变量重要性_随机森林如何评估特征重要性【机器学习面试题详解】...
今天爱分享给大家带来随机森林如何评估特征重要性[机器学习面试题详解],希望能够帮助到大家. 解析: 衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1 ...
- 机器学习分类器评价指标详解(Precision, Recall, PR, ROC, AUC等)(一)
为了系统性地理解机器学习模型的不同评价指标及其之间的关系,我们将从其定义出发,探究其物理含义及彼此之间的联系,并从数学上给出相应的公式推导,以方便后续用到时复习理解.由于篇幅较长,因此将其分为两篇,这 ...
- 机器学习经典算法详解及Python实现--元算法、AdaBoost
http://blog.csdn.net/suipingsp/article/details/41822313 第一节,元算法略述 遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果. ...
- matlab中k-means算法_机器学习 | KMeans聚类分析详解
大量数据中具有"相似"特征的数据点或样本划分为一个类别.聚类分析提供了样本集在非监督模式下的类别划分.聚类的基本思想是"物以类聚.人以群分",将大量数据集中相似 ...
- Liblinear机器学习库教程详解(基于Python API)
前言 Liblinear机器学习库主要实现SVM算法,在处理大规模数据时速度快,但也有缺点,就是太吃内存,博客 https://blog.csdn.net/roguesir/article/detai ...
- 机器学习Scikit-Learn模块详解
一.Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块算法库,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionalit ...
- 机器学习基础知识详解!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:胡联粤,Datawhale面经小组 Q1 ⽼板给了你⼀个关于癌症检 ...
- python机器学习:决策树详解
文章目录 一.决策树工作原理 1.1 定义 1.2 决策树结构 1.3 核心问题 二.sklearn库中的决策树 2.1 模块sklearn.tree 2.2 sklearn建模基本流程 2.3 决策 ...
- python --机器学习(基本算法详解)SciPy、Numpy、Matplotlib
介绍 数据集 在计算机中,数据集指的是任何数据集合.它可以是从数组到完整数据库的任何内容. 一个数组的例子: [99,86,87,88,111,86,103,87,94,78,77,85,86] 一个 ...
最新文章
- Js高设笔记1-2章 defer and async
- CodeForces 625A Guest From the Past
- linux gcc make cmake 三工具的关系
- (转帖)数据库时代的终结
- Vivado提高综合和实现的速度
- 2021-07-12 原来我用的是CPU,更改方法
- oracle 生成 sql语句,Oracle使用SQL语句生成日历的实现方法
- python创建maven工程_Maven项目
- mysql索引的创建和删除吗_MySQL索引的创建、删除和查看
- 最小树——迪杰斯特拉算法
- ram计算机中术语,计算机术语 RAM ROM
- Android 原生的人脸识别Camera+FaceDetector示例
- socks代理和http代理的区别_浅析socks代理如何使用TCP和UDP协议
- DNA序列c语言,请问怎么用r语言进行dna序列分析?
- Android studio 渐变色,android shape 之渐变色角度理解
- Java修炼——手写服务器项目
- 基于php的微信公众平台开发入门实例
- insmod等模块命令
- 纯千兆电口和自适应电口的区别
- 初学自建的超简单网站