sklearn的分层抽样

  • 目的
    • StratifiedShuffleSplit
    • train_test_split
    • 二者拆分的数据交集

目的

比较sklearn的StratifiedShuffleSplit与train_test_split的区别

StratifiedShuffleSplit

                                    # 分层抽样 训练测试from sklearn.model_selection import StratifiedShuffleSplitsss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=randoms)X=X_new3.copy()y=y_df.copy()for train_index, test_index in sss.split(X, y):  # 这里循环的次数由n_splits决定,前面指定的5#print("TRAIN:", train_index, "TEST:", test_index)X_train, X_test = X.iloc[train_index,:], X.iloc[test_index,:]y_train, y_test = y.iloc[train_index,:], y.iloc[test_index,:]#  分层抽样 训练验证集sss = StratifiedShuffleSplit(n_splits=1, test_size=0.25, random_state=randoms)X=X_train.copy()y=y_train.copy()for train_index, test_index in sss.split(X, y):  # 这里循环的次数由n_splits决定,前面指定的5#print("TRAIN:", train_index, "TEST:", test_index)X_train, X_validate = X.iloc[train_index,:], X.iloc[test_index,:]y_train, y_validate = y.iloc[train_index,:], y.iloc[test_index,:]

train_test_split

X_train1, X_test1, y_train1, y_test1 = train_test_split(X_new3, y_df, test_size=0.2, random_state=8,stratify=y_df)

二者拆分的数据交集


二者拆分而成的样本一模一样

sklearn的分层抽样相关推荐

  1. 【学习笔记】Hands On Machine Learning - Chap2. End-to-End Machine Learning Project

    从标题可以看出,这一章主要从大的方向,介绍机器学习的一般步骤,虽然是介绍性的知识,但不乏一些有价值的内容,以下几点是我个人的总结: 数据预览: 预览前 5 条数据,有个直观的感受 查看数据总行数,字段 ...

  2. sklearn分层抽样

    如果数据集足够庞大(特别是相较于属性的数量而言), 纯随机抽样方法通常不错,如果数据集较小,则有可能导致明显的抽样偏差.若一家调查公司打电话给1000个人来调研几个问题,他们试图确保让着1000人能够 ...

  3. python分层抽样_基于列的sklearn分层抽样

    我有一个相当大的CSV文件,其中包含我读入pandas数据框的amazon review数据.我想分割数据80-20(列车测试),但在这样做的同时,我想确保分割的数据成比例地代表一列(类别)的值,即所 ...

  4. sklearn pipeline_Sklearn介绍

    简单概念回顾 监督学习与无监督学习 最大的区别就是有没有标签 工业应用中主要是用监督学习 分类任务和回归任务 能用线性模型,决不用非线性模型(容易过拟合,且计算量太大) 模型的评估 accuracy: ...

  5. 机器学习(一) 基于sklearn库的数据集划分(交叉验证)

    机器学习中首要环节就是数据集的处理,其中数据集的处理从个人理解(如有错误敬请谅解)的角度来说包括两个方面:数据集划分和数据清理.其中数据集划分是指训练集.验证集和测试集的数据类别划分:数据清理是指数据 ...

  6. python机器学习库sklearn——交叉验证(K折、留一、留p、随机)

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 学习预测函数的参数,并在相 ...

  7. 作业1:关于使用python中scikit-learn(sklearn)模块,实现鸢尾花(iris)相关数据操作(数据加载、标准化处理、构建聚类模型并训练、可视化、评价模型)

    操作题:利用鸢尾花数据实现数据加载.标准化处理.构建聚类模型并训练.聚类效果可视化展示及对模型进行评价 一.数据加载 from sklearn.datasets import load_iris fr ...

  8. sklearn实现决策树,随机森林,逻辑回归,KNN,贝叶斯,SVM,以葡萄干数据集为例

    数据集介绍 本次使用的数据集为葡萄干数据集,来源于UCI中: https://archive.ics.uci.edu/ml/datasets/Raisin+Dataset 介绍为: Images of ...

  9. sklearn数据集分割方法汇总

    一.简介 在现实的机器学习任务中,我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练,以尽可能高的精度为目标,但这里便出现一个问题,一是很多情况下我们不能说搜集到的样本集就能代表真实的全体,其分 ...

最新文章

  1. 关于人工智能的解读,看这一篇就够了
  2. 小程序协同工作和发布
  3. rnn按时间展开_作词家下岗系列:教你用 RNN 算法做一个写词软件
  4. Scala入门到精通——第十四节 Case Class与模式匹配(一)
  5. 如何使用Postman和Newman在CI环境中自动化REST API端到端测试
  6. Linux中如何使用帮助
  7. 如果突然多了一笔财富。。
  8. android期末课设选题_Android课程设计报告书.doc
  9. 三十分钟理解博弈论“纳什均衡” -- Nash Equilibrium
  10. weblogic下载安装
  11. php聊天功能界面,php实现聊天室功能完整代码
  12. Assembler - 数据段与代码段
  13. BitTorrent 性能卓越的原因
  14. 高度坍塌的几种解决方法
  15. Win系统 - 你知道 insert 键的隐藏功能吗?
  16. Xilinx IOB输出寄存器约束笔记
  17. 4.4 day14 内置函数
  18. JSP+JDBC案例代码(数据维护)
  19. 一图看懂| 人工智能知识体系大全
  20. ojdbc6中的错误信息(中英) 【转】

热门文章

  1. 【Unity】游戏打包
  2. 常见因子的Fama-Macbeth回归:EAP.fama_macbeth
  3. Pandas中的appy和applymap
  4. 计算机科学与技术影视,影视作品可视化研究-计算机科学与技术专业论文.docx
  5. 测试点击屏幕次数的软件_测试大佬分享:WEB和APP测试小结
  6. react native 出现程序包com.facebook.react不存在
  7. 《灵飞经5·龙生九子》第二十四章 九王朝阙 上
  8. R语言ggplot2可视化:使用patchwork包的plot_layout函数将多个可视化图像组合起来,ncol参数指定行的个数、byrow参数指定按照行顺序排布图
  9. 做测试,如何提升“话语权”?
  10. 如何用python画国旗?