在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数 

简单用法如下:

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)
# train_data:所要划分的样本特征集

# train_target:所要划分的样本结果

# test_size:样本占比,如果是整数的话就是样本的数量

# random_state:是随机数的种子。
# 随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

stratify是为了保持split前类的分布。比如有100个数据,80个属于A类,20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下: 
training: 75个数据,其中60个属于A类,15个属于B类。 
testing: 25个数据,其中20个属于A类,5个属于B类。

用了stratify参数,training集和testing集的类的比例是 A:B= 4:1,等同于split前的比例(80:20)。通常在这种类分布不平衡的情况下会用到stratify。

将stratify=X就是按照X中的比例分配 

将stratify=y就是按照y中的比例分配 

整体总结起来各个参数的设置及其类型如下:

主要参数说明:

*arrays:可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size:可以为浮点、整数或None,默认为None

①若为浮点时,表示测试集占总样本的百分比

②若为整数时,表示测试样本样本数

③若为None时,test size自动设置成0.25

train_size:可以为浮点、整数或None,默认为None

①若为浮点时,表示训练集占总样本的百分比

②若为整数时,表示训练样本的样本数

③若为None时,train_size自动被设置成0.75

random_state:可以为整数、RandomState实例或None,默认为None

①若为None时,每次生成的数据都是随机,可能不一样

②若为整数时,每次生成的数据都相同

stratify:可以为类似数组或None

①若为None时,划分出来的测试集或训练集中,其类标签的比例也是随机的

②若不为None时,划分出来的测试集或训练集中,其类标签的比例同输入的数组中类标签的比例相同,可以用于处理不均衡的数据集

通过简单栗子看看各个参数的作用:

举例如下:

通过简单例子看看各个参数的作用:

①test_size决定划分测试、训练集比例

②random_state不同值获取到不同的数据集

设置random_state=0再运行一次,结果同上述相同

设置random_state=None运行两次,发现两次的结果不同

③设置stratify参数,可以处理数据不平衡问题

train_test_split 函数相关推荐

  1. Python之 sklearn:sklearn中的train_test_split函数的简介及使用方法之详细攻略

    Python之 sklearn:sklearn中的train_test_split函数的简介及使用方法之详细攻略 目录 sklearn中的train_test_split函数的简介 train_tes ...

  2. sklearn的train_test_split函数

    train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签. from sklearn.model_selection import ...

  3. sklearn中的train_test_split函数

    train_test_split函数用于将数据集随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签. X_train,X_test, y_train, y_test =cr ...

  4. sklearn之train_test_split()函数各参数含义

    在机器学习中,我们通常将原始数据按照比例分割为"测试集"和"训练集",从 sklearn.model_selection 中调用train_test_split ...

  5. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  6. sklearn中的train_test_split()函数解析

    sklearn中的train_test_split()函数解析 train_test_split()函数:机器学习中用于分割数据集(训练集和测试集) X_train,X_test,y_train,y_ ...

  7. sklearn之train_test_split()函数各参数

    sklearn之train_test_split()函数各参数 在机器学习中,我们通常将原始数据按照比例分割为"测试集"和"训练集",从 sklearn.mod ...

  8. Scikit-learn API:train_test_split函数 将数据分割为训练集和测试集

    函数原型 sklearn.model_selection.train_test_split(*arrays, **options) 函数功能 将数组或矩阵随机的分割成训练集和测试集,注意这里是随机的. ...

  9. 机器学习python中train_test_split()函数进行数据集分割

    函数名:train_test_split 所在包:sklearn.model_selection 功能:划分数据的训练集与测试集 参数解读:train_test_split (*arrays,test ...

最新文章

  1. BZOJ 2084 [Poi2010]Antisymmetry(manacher)
  2. 【深度学习看手相】台湾学生获奖 AI 项目是科学还是伪科学?
  3. 这是Nginx的负载均衡配置方法
  4. DeepMind:所谓SACX学习范式
  5. axios如何在nodejs项目里封装_【面经】jq 中 ajax 和 axios 区别,瀑布流布局,添加删除事件...
  6. volatile深入
  7. 实现tomcat的https单向认证及双向认证
  8. 完善的WebGis地图编辑器
  9. 三地检方分别对程颖、谭元生、聂作坤案提起公诉
  10. CE游戏修改器制作游戏修改器傻瓜教程
  11. 支付宝(Alipay)支付,超详细使用教程讲解!
  12. Android sim卡 pin码解锁流程.
  13. 微信小程序云开发如何实现读取和下载excel文件导入数据到云数据库中?简单好理解
  14. Mac宝藏软件推荐(笔者也在用)(一)
  15. 苹果台式机_苹果未来5年的CPU路线图泄露,苹果放出WWDC 2020细节
  16. 奇门仓储场景具体应用
  17. git将master主分支最新代码合并到自己的分支
  18. 桌面图标上有个白框解决方案
  19. 上班族健身小白如何锻炼身体,做力量训练
  20. jeecgboot配置文件_Online表单配置

热门文章

  1. b站滴水逆向课后练习(入伍停更中)
  2. Redis高可用的三种实现方式
  3. Laya引擎生产力工具LayaTree
  4. 计算机网络交换机配实验报告,交换机基本配置实验报告
  5. 回调?是什么,简单讲解一下
  6. GPRS软件测试自学,GPRS测试方法 - 无线移动 - 通信人家园 - Powered by C114
  7. Everything-快速强大的Windows搜索工具
  8. 谷歌SEO全面教程-让网站排名第一的秘密
  9. 哈尔滨工业大学软件构造课程学习笔记第一章第一节
  10. 类的静态数据成员和静态成员函数浅析