分层采样的目的是为了防止数据有偏
自定义分层采样函数

def split_train_test(data, test_size=0.2):"""保证训练集与测试集的类别比例与原数据集中的相等:param data: 原数据:param test_size: 测试集比例:return: 训练集与测试集"""label = set(data.iloc[:, -1])data_tr = pd.DataFrame()data_te = pd.DataFrame()for i in label:data_i = data[data.iloc[:, -1] == i]# 标签是i的数据集长度length = len(data_i)# 切割的数据长度split_length = math.floor(length * test_size)tr = data_i.iloc[:split_length, :]te = data_i.iloc[split_length:, :]data_tr = data_tr.append(tr)data_te = data_te.append(te)return data_tr.iloc[:, :-1], data_te.iloc[:, :-1], data_tr.iloc[:, -1], data_te.iloc[:, -1]

train_test_split中的stratify参数

from sklearn.model_selection import train_test_split
from sklearn import datasetsiris = datasets.load_iris()
x = iris.data
y = iris.target
train_test_split(x, y, test_size=0.25, random_state=0, stratify=y)

上述代码对鸢尾花数据集进行分层抽样,保证训练集与测试集的类别比例与原数据集中的相等


如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!


数据预处理与特征工程—11.分层采样相关推荐

  1. sklearn实战-----3.数据预处理和特征工程

    1 概述 1.1 数据预处理与特征工程 想象一下未来美好的一天,你学完了菜菜的课程,成为一个精通各种算法和调参调库的数据挖掘工程师了.某一天 你从你的同事,一位药物研究人员那里,得到了一份病人临床表现 ...

  2. 数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结

    文章目录 引言 1.数据预处理 1.1 数据清洗 1.1.1 异常值处理 1.1.2 缺失值处理 1.2 特征预处理 1.2.1 数值型特征无量纲化 1.2.2 连续数值型特征分箱 1.2.2.1 无 ...

  3. 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)

    第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...

  4. 使用Sklearn库学习数据预处理和特征工程

    目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...

  5. sklearn_数据预处理和特征工程

    转载自:菜菜的sklearn课堂 文章目录 1 概述 1.1 数据预处理与特征工程 1.2 sklearn中的数据预处理和特征工程 2 数据预处理 Preprocessing & Impute ...

  6. 「机器学习速成」数据预处理,特征工程,良好特征的特点

    https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...

  7. sklearn 神经网络_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  8. sklearn中eof报错_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  9. pandas用众数填充缺失值_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o()ブ,我是菜菜,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你的版本至少要3.4以上 Scikit-learn 0.20.0 (你的版 ...

  10. 数据预处理和特征工程

    一.数据预处理 1.数据采集 2.数据格式化(存储格式等) 3.数据清洗:去掉脏数据 简单直观可以看出的不可能数据 组合或统计属性判定 缺失值处理 1.删除元祖:删除这一条记录或者一列特征,适合记录或 ...

最新文章

  1. linux下的hive命令大全,Hive shell 常用命令
  2. python数字类型-python数字类型
  3. 火热招募中 | PMCAFF产品经理社区志愿者计划火热开启
  4. windows10如何删除文件时提示?(回收站--右键属性--显示删除确认对话框)
  5. 如何备份和还原您的Kubernetes集群资源和持久卷?
  6. Django models中关于blank与null的补充说明
  7. python字典{:4}_升级您的Python技能:检查字典
  8. springboot实现条形码_Springboot转发重定向实现方式解析
  9. hadoop1 hadoop2 fair-schduler 配置和使用
  10. PDE5 method of characteristics
  11. JSP→基本语法/静态内容/指令/动作/表达式/小脚本(Scriptlet)/声明/注释、JSP页面声明周期、代码样例、九大隐式内置对象及方法代码样例
  12. cvCanny() 边缘检测
  13. Python 开发音乐下载器实践
  14. AD原理图设计中如何添加NET CLASS和差分线
  15. php 跳转qq群代码_QQ群一键强制加群API源代码
  16. 如何用Nuxt.js构建项目,SSR官网项目搭建流程
  17. 用浏览器查看路由器上mentohust的log。
  18. 刘强东:死掉的创业公司,几乎都违背这 4 点最基本的经济常识
  19. 【PyTorch深度学习项目实战100例】—— Python+OpenCV+MediaPipe手势识别系统 | 第2例
  20. ROS机器人项目开发11例-ROS Robotics Projects-2019更新补充说明

热门文章

  1. poj3233Matrix Power Series
  2. 在asp.net 中实现只允许数字输入的文本框
  3. 【sampleDateFormat】对日期进行解析
  4. Lua语言学习-错误处理和调试
  5. Quartz的时间配置
  6. flask—wtforms
  7. 夺命雷公狗---无限级分类NO2
  8. 九度OJ 1133:学分绩点 (加权平均数)
  9. iOS 获取系统相机相册
  10. XML数据库与db4o的简要对比