python分层抽样_基于列的sklearn分层抽样
我有一个相当大的CSV文件,其中包含我读入pandas数据框的amazon review数据。我想分割数据80-20(列车测试),但在这样做的同时,我想确保分割的数据成比例地代表一列(类别)的值,即所有不同类别的审查都成比例地出现在列车和测试数据中。
数据如下:**ReviewerID** **ReviewText** **Categories** **ProductId**
1212 good product Mobile 14444425
1233 will buy again drugs 324532
5432 not recomended dvd 789654123
我使用以下代码来执行此操作:import pandas as pd
Meta = pd.read_csv('C:\\Users\\xyz\\Desktop\\WM Project\\Joined.csv')
import numpy as np
from sklearn.cross_validation import train_test_split
train, test = train_test_split(Meta.categories, test_size = 0.2, stratify=y)
它给出了以下错误NameError: name 'y' is not defined
由于我对python还比较陌生,所以我不知道自己做错了什么,也不知道这段代码是否会基于列类别进行分层。当我从train test split中删除stratify选项和categories列时,它似乎工作得很好。
任何帮助都将不胜感激。
python分层抽样_基于列的sklearn分层抽样相关推荐
- python小波变换_基于python的信号小波分析
小波分析(时频域分析)--python 本实验基于deap数据对eeg信号某个人的fp1通道信号进行不同频段分解 小波分解 (1)导入pywt以及numpy库 import numpy as np i ...
- python 机器学习_基于 Python 语言的机器学习工具Sklearn
本篇介绍了Sklearn机器学习基础,从Sklearn的简介,模块以及与tensorflow的优劣势对比来了解基于Python语言的机器学习工具. 01.Sklearn简介 sklearn(sc ...
- 爬虫技术python流程图_基于Python的网络爬虫技术研究
基于 Python 的网络爬虫技术研究 王碧瑶 [摘 要] 摘要:专用型的网络爬虫能够得到想要的返回结果 , 本文就以拉勾网作 为例子 , 对基于 Python 的网络爬虫技术进行研究和分析. [期刊 ...
- arcmap中添加python脚本_基于Python脚本的ArcMap字段计算器分类赋值
因为出差等等缘由,又没能很好的坚持记录博客,今天回来了,继续记录所学吧.python ArcMap中提供了"字段计算器工具",实际上就是对Sql语句进行了可视化封装,造成了一个具备 ...
- python遗传算法_基于Python的遗传算法特征约简(附代码)
导言 在某些情况下,使用原始数据训练机器学习算法可能不是合适的选择.该算法在接受原始数据训练时,必须进行特征挖掘,以检测不同组之间的差异.但这需要大量的数据来自动执行特征挖掘.对于小数据集,数据科学家 ...
- 用python做炒股软件-同花顺有python接口_基于python的炒股软件
股票详细数据 怎么获得股市数据针对股票等金融数据的获取,python提供了一个非常实用的模块-tushare,自动完成了数据从采集.清洗到存储的全过程,可以极大减轻金融分析人员的工作量,下面我简单介绍 ...
- python产品缺陷_基于python从redmine-api中获取项目缺陷数据(1)
1.引言 本文主要内容是将如何利用 Python 对 Redmine缺陷进行缺陷数据获取操作.目前统计缺陷数据时基本是根据项目手动去redmine获取缺陷数据,至少要花费一个工作日去完成,目前的目标是 ...
- svd降维 python案例_菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD
菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD 概述 从什么叫维度说开来 简单讲,shape中返回了几个数字就是几维. 一张表最多就是一维 当一个数组中存在2张3行 ...
- python分行_基于python实现对文件进行切分行
针对配置文件进行切分,重组,每隔30行为一段,进行重新生成功能. 代码如下 #!/usr/local/python/bin/python # coding=utf-8 import sys impor ...
最新文章
- 记一次FastJSON和Jackson解析json时遇到的中括号问题
- 重写toString()方法(Java篇)
- 设z=〖(1+xy)〗^y,求 ∂z/∂y
- oracle 10g 学习之函数和存储过程(12)
- oracle rman 实例,Oracle数据库rman常用命令的使用示例
- boost学习之安装
- SQL Server IF Exists 判断数据库对象是否存在的用法
- ASP.NET状态管理之五(Cookie)
- rabbitmq队列中消息过期配置
- Pandas模块,我觉得掌握这些就够用了!
- 从零基础入门Tensorflow2.0 ----七、34 embedding rnn
- 转发给上海的朋友们!程序员写了一款抢菜插件!这个抢菜插件让上海很多朋友成功抢了一个月的菜!感谢!...
- 阶段1 语言基础+高级_1-3-Java语言高级_05-异常与多线程_第3节 线程同步机制_2_线程安全问题的代码实现...
- cat6 万兆_专业扫盲Cat5e/Cat6/Cat6a/Cat7网线系列
- MRI_Made_Easy 磁共振成像原理-物理基础4
- 计算机efs加密,win7系统对文件启用EFs加密功能的处理办法
- 为什么单片机只有可以整除8的特殊寄存器能够位寻址?
- 威斯康星麦迪逊计算机专业排名,威斯康星大学麦迪逊分校计算机专业详解
- android直播音频开发准备
- 中科院计算所寒武纪团队DianNao系列论文导读