数据预处理与特征工程—11.分层采样
分层采样的目的是为了防止数据有偏
自定义分层采样函数
def split_train_test(data, test_size=0.2):"""保证训练集与测试集的类别比例与原数据集中的相等:param data: 原数据:param test_size: 测试集比例:return: 训练集与测试集"""label = set(data.iloc[:, -1])data_tr = pd.DataFrame()data_te = pd.DataFrame()for i in label:data_i = data[data.iloc[:, -1] == i]# 标签是i的数据集长度length = len(data_i)# 切割的数据长度split_length = math.floor(length * test_size)tr = data_i.iloc[:split_length, :]te = data_i.iloc[split_length:, :]data_tr = data_tr.append(tr)data_te = data_te.append(te)return data_tr.iloc[:, :-1], data_te.iloc[:, :-1], data_tr.iloc[:, -1], data_te.iloc[:, -1]
train_test_split中的stratify参数
from sklearn.model_selection import train_test_split
from sklearn import datasetsiris = datasets.load_iris()
x = iris.data
y = iris.target
train_test_split(x, y, test_size=0.25, random_state=0, stratify=y)
上述代码对鸢尾花数据集进行分层抽样,保证训练集与测试集的类别比例与原数据集中的相等
如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!
数据预处理与特征工程—11.分层采样相关推荐
- sklearn实战-----3.数据预处理和特征工程
1 概述 1.1 数据预处理与特征工程 想象一下未来美好的一天,你学完了菜菜的课程,成为一个精通各种算法和调参调库的数据挖掘工程师了.某一天 你从你的同事,一位药物研究人员那里,得到了一份病人临床表现 ...
- 数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结
文章目录 引言 1.数据预处理 1.1 数据清洗 1.1.1 异常值处理 1.1.2 缺失值处理 1.2 特征预处理 1.2.1 数值型特征无量纲化 1.2.2 连续数值型特征分箱 1.2.2.1 无 ...
- 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)
第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...
- 使用Sklearn库学习数据预处理和特征工程
目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...
- sklearn_数据预处理和特征工程
转载自:菜菜的sklearn课堂 文章目录 1 概述 1.1 数据预处理与特征工程 1.2 sklearn中的数据预处理和特征工程 2 数据预处理 Preprocessing & Impute ...
- 「机器学习速成」数据预处理,特征工程,良好特征的特点
https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...
- sklearn 神经网络_sklearn中的数据预处理和特征工程
小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...
- sklearn中eof报错_sklearn中的数据预处理和特征工程
小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...
- pandas用众数填充缺失值_sklearn中的数据预处理和特征工程
小伙伴们大家好~o()ブ,我是菜菜,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你的版本至少要3.4以上 Scikit-learn 0.20.0 (你的版 ...
- 数据预处理和特征工程
一.数据预处理 1.数据采集 2.数据格式化(存储格式等) 3.数据清洗:去掉脏数据 简单直观可以看出的不可能数据 组合或统计属性判定 缺失值处理 1.删除元祖:删除这一条记录或者一列特征,适合记录或 ...
最新文章
- linux下的hive命令大全,Hive shell 常用命令
- python数字类型-python数字类型
- 火热招募中 | PMCAFF产品经理社区志愿者计划火热开启
- windows10如何删除文件时提示?(回收站--右键属性--显示删除确认对话框)
- 如何备份和还原您的Kubernetes集群资源和持久卷?
- Django models中关于blank与null的补充说明
- python字典{:4}_升级您的Python技能:检查字典
- springboot实现条形码_Springboot转发重定向实现方式解析
- hadoop1 hadoop2 fair-schduler 配置和使用
- PDE5 method of characteristics
- JSP→基本语法/静态内容/指令/动作/表达式/小脚本(Scriptlet)/声明/注释、JSP页面声明周期、代码样例、九大隐式内置对象及方法代码样例
- cvCanny() 边缘检测
- Python 开发音乐下载器实践
- AD原理图设计中如何添加NET CLASS和差分线
- php 跳转qq群代码_QQ群一键强制加群API源代码
- 如何用Nuxt.js构建项目,SSR官网项目搭建流程
- 用浏览器查看路由器上mentohust的log。
- 刘强东:死掉的创业公司,几乎都违背这 4 点最基本的经济常识
- 【PyTorch深度学习项目实战100例】—— Python+OpenCV+MediaPipe手势识别系统 | 第2例
- ROS机器人项目开发11例-ROS Robotics Projects-2019更新补充说明