Python——数据分层抽样
分层抽样,即先将所有个体样本按照某种特征划分为几个类别,然后从每个类别中使用随机抽样或等距抽样的方法选择个体组成样本。
分层抽样能明显的降低抽样误差,并且便于针对不同类别的数据样本进行单独研究,因此是一种较好的实现方法。
该方法适用于带有分类逻辑的属性、标签等特征的数据
有数据如下:
最后一列为分类标签,用0或者1来表示
导入包
import numpy as np
import random
读取数据,并查看分类标签
data2 = np.loadtxt('data_preprocessing_data2.txt') # 导入带有分层逻辑的数据
each_sample_count = 20 # 定义每个分层的抽样数量
label_data_unique = np.unique(data2[:, -1]) # 定义分层值域
print(label_data_unique)#[0. 1.],数据一共被分为两个标签
遍历每个分层标签,用来做数据的分层划分,并且读取每条数据并判断数据的分层标签是否与分层标签相同,如果是则数据加入到各分层数据列表中
sample_data = [] # 定义空列表,用于存放最终抽样数据
sample_dict = {} # 定义空字典,用来显示各分层样本数量for label_data in label_data_unique: # 遍历每个分层标签sample_list = [] # 定义空列表,用于存放临时分层数据for data_tmp in data2: # 读取每条数据if data_tmp[-1] == label_data: # 如果数据最后一列等于标签sample_list.append(data_tmp) # 将数据加入到分层数据中each_sample_data = random.sample(sample_list, each_sample_count) # 对每层数据都随机抽样sample_data.extend(each_sample_data) # 将抽样数据追加到总体样本集sample_dict[label_data] = len(each_sample_data) # 样本集统计结果
print (sample_dict) # 打印输出样本集统计结果
Python——数据分层抽样相关推荐
- python数据可视化利用_利用pyecharts实现python数据可视化
**python 利用pyecharts实现python数据可视化 **web pyecharts是一种交互式图表的表达方式. pyecharts是一款将python与echarts结合的强大的数据可 ...
- 《Python数据科学指南》——1.8 使用迭代器
本节书摘来自异步社区<Python数据科学指南>一书中的第1章,第1.8节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区"异步 ...
- 《Python数据可视化编程实战》——5.5 用OpenGL制作动画
本节书摘来异步社区<Python数据可视化编程实战>一书中的第5章,第5.5节,作者:[爱尔兰]Igor Milovanović,更多章节内容可以访问云栖社区"异步社区" ...
- 超硬核的 Python 数据可视化教程!
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:机器学习算法那些事 Python实现可视化的三个步骤: ...
- 《Python数据科学指南》——1.17 使用映射函数
本节书摘来自异步社区<Python数据科学指南>一书中的第1章,第1.17节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区"异 ...
- php数据库查询中文方块,解决Python数据可视化中文部分显示方块问题
一.问题 代码如下,发现标题的中文显示的是方块 import matplotlib import matplotlib.pyplot as plt fig = plt.figure() ax = fi ...
- python数据科学手册_小白入门Python数据科学
前言 本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据 ...
- 超硬核的 Python 数据可视化教程
来源:数据分析1480 本文约3000字,建议阅读6分钟 本文为你介绍Python实现可视化的三个步骤. Python实现可视化的三个步骤: 确定问题,选择图形 转换数据,应用函数 参数设置,一目了然 ...
- Python数据可视化工具怎么选?深度评测5款实用工具
来源:早起Python 本文约3100字,建议阅读9分钟 本文通过真实绘图,为你深度测评Python五大数据可视化库. [ 导读 ]相信很多读者学习Python就是希望做出各种酷炫的可视化图表,当然你 ...
最新文章
- c监控进程发现未启动就启动进程_非常有用的16个Linux 服务器监控命令
- 2011年上海交通大学计算机研究生机试真题
- Chapter09-内核模式下的线程同步之事件内核对象
- 数据库随机取n条记录
- 最强鸿蒙系统txt_鸿蒙系统升级时间确认,哪些手机有望成为首批“宠儿”?
- rtk手簿Android代码,合众思壮手簿eSurveyAndroid连接cors账号教程
- Kafka和RocketMQ底层存储:零拷贝技术
- python 把函数作为参数 ---高阶函数
- 提高系统可用性的那些架构策略
- php倒入百万行excel数据,PHP导入(百万级)Excel表格数据
- 安卓设备设置 orientation 最简单的方法
- python带通滤波_python中的带通滤波器
- python按钮点击事件wx_wx.python事件的绑定
- 基于负熵的快速不动点算法
- 佩奇:产品经理要一个佩奇,不知道啥是佩奇的开发该怎么办?
- Tesseract的安装教程
- 最详细PicGo(图床)加阿里云OSS实现图片自动上传
- 安装MySQL时cmake包的依赖问题
- python培训报价
- django 加 celery 异步任务配置到成功运行
热门文章
- 突发!微信大更新,黄脸表情会动了,还能炸群!还有状态、浮窗...张小龙剧透的功能全来了...
- 计算机科学与技术万金油专业,盘点工学大类里的“万金油”专业
- [Python3] 线程池的使用
- 蜻蜓FM实时推荐系统的发展和演进
- StatQuest-MachineLearning-Lesson1~5
- 多位博士毕业去了三四流高校,目前惨不忍睹……
- 一些简单好玩的Python编程游戏
- CISCO完全试验手册(27个试验拓扑+详细步骤)
- 新唐M261M262M263系列芯片知识总结归纳(1)
- Springboot启动报错[ main] o.s.boot.SpringApplication: Application run failed