在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,通常使用sklearn.cross_validation里的train_test_split模块用来分割数据。

cross_validation已经弃用,现在改为从 sklearn.model_selection 中调用train_test_split 函数。

简单用法如下:

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

# train_data:所要划分的样本特征集

# train_target:所要划分的样本结果

# test_size:样本占比,如果是整数的话就是样本的数量

# random_state:是随机数的种子。

# 随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

stratify是为了保持split前类的分布。比如有100个数据,80个属于A类,20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下: 
training: 75个数据,其中60个属于A类,15个属于B类。 
testing: 25个数据,其中20个属于A类,5个属于B类。

用了stratify参数,training集和testing集的类的比例是 A:B= 4:1,等同于split前的比例(80:20)。通常在这种类分布不平衡的情况下会用到stratify。

将stratify=X就是按照X中的比例分配

将stratify=y就是按照y中的比例分配

train_test_split 数据集划分,样本划分相关推荐

  1. matlab 数据集制作,机器学习数据集制作与划分MATLAB实现

    .mat数据集制作 若整个数据集是一个.mat文件且最后一列数据时标签,则单独将决策变量和标签划分开,一个为ins,另一个为lab. 相关文章 .mat数据集说明 数据集名称GLIOMA GIOMA包 ...

  2. 数据集按类划分_大数据风控面试(五) 模型评估与优化

    目录: 1 简单介绍一下风控模型常用的评估指标 2 为什么ROC适合不平衡数据的评价? 3 如何处理样本不平衡的问题? 4 什么是模型的欠拟合和过拟合? 5 如何判断模型是否存在过拟合或欠拟合?对应的 ...

  3. 机器学习之数据集划分——训练集测试集划分,划分函数,估计器的使用

    训练集测试集划分,划分函数,估计器的使用 参考文章 训练集.验证集和测试集的划分及交叉验证的讲解 划分训练集和测试集的函数学习 sklearn数据集,数据集划分,估计器详细讲解 参考文章 训练集.验证 ...

  4. 102类花卉分类数据集(已划分,有训练集、测试集、验证集标签)

    102类花卉分类数据集(已划分,有训练集.测试集.验证集标签)+完整运行代码 数据集已经经过处理划分好了,并且附带了训练集,测试集,验证集的txt文本标签.配合完整运行代码即可训练. 数据集链接在文章 ...

  5. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  6. 【集合论】划分 ( 划分 | 划分示例 | 划分与等价关系 )

    文章目录 一.划分 二.划分示例 三.划分与等价关系定理 一.划分 划分 : 非空集合 AAA , A≠∅A \not= \varnothingA​=∅ , AAA 集合的一个 划分 是 集族 A ...

  7. 计算机网络实验之IPV4划分子网 - -划分子网

    IPV4划分子网 - -划分子网 给各主机都配置IP地址(C类地址)和默认子网掩码(255.255.255.0) 判断个主机是否在一个子网的方法: 各主机的IP地址和子网掩码相与即得到个主机的网络地址 ...

  8. 【英文文本分类实战】之二——数据集挑选与划分

    ·请参考本系列目录:[英文文本分类实战]之一--实战项目总览 ·下载本实战项目资源:神经网络实现英文文本分类.zip(pytorch) [1] 数据集平台   在阅读了大量的论文之后,由于每一篇论文都 ...

  9. 数据集按类划分_用特别设计的损失处理非均衡数据

    本文是对 CVPR 2019 论文「Class-Balanced Loss Based on Effective Number of Samples」的一篇点评,全文如下: 这篇论文针对最常用的损耗( ...

最新文章

  1. python postmessage_解惑:Postmessage函数模拟鼠标单击指定坐标
  2. 汇编语言start标号的作用
  3. linux+oracle+自动增量备份脚本,linux自动运行rman增量备份脚本
  4. LeetCode题库11:盛最多水的容器——JavaScript解答
  5. Ionic系列——使用ng-cordova插件
  6. No package ‘libpeas-1.0‘ found/No package ‘libpeas-gtk-1.0‘
  7. 编译原理完整学习笔记(四):语法分析
  8. 计算机科学与技术与微电子科学与工程,微电子科学与工程专业就业前景如何 有前途吗...
  9. VSPE虚拟串口关机蓝屏(BSOD)的解决办法
  10. 手机OTG 我的世界_关于旧安卓手机改用为门禁探头、监控摄像头方案
  11. 免费主机,免费二级域名分发,免费建临时网站,免费扒网
  12. 强化学习#code3
  13. 关闭计算机的正确操作方法,电脑基础知识启动和关闭电脑的正确方法
  14. sql date_format用法
  15. win7 去掉快捷方式小箭头
  16. 为什么Word文档无响应,Word文档无响应的解决方法
  17. 转:我在淘宝这7年(四)
  18. 2016,轻轻地你走了,正如你轻轻地来,2017新年快乐
  19. 十行 js 获取带有双字节字符的字符串长度
  20. 吕梁市5G基站专项规划:全市建设3万座5G基站

热门文章

  1. SpringBoot2.x 不反回空值属性
  2. 深入理解 Embedding层的本质
  3. PyTorch学习笔记——softmax和log_softmax的区别、CrossEntropyLoss() 与 NLLLoss() 的区别、log似然代价函数...
  4. Apache POI:解决数据库和Excel之间相互转换的烦恼~
  5. MindArmour差分隐私
  6. 什么是GStreamer?
  7. 音频编解码器以50%的功耗提供两倍的音频质量
  8. 2021年大数据ZooKeeper(五):ZooKeeper Java API操作
  9. 前端面经笔记 2021.8.28
  10. HBuilder简单入门