我有一个相当大的CSV文件,其中包含我读入pandas数据框的amazon review数据。我想分割数据80-20(列车测试),但在这样做的同时,我想确保分割的数据成比例地代表一列(类别)的值,即所有不同类别的审查都成比例地出现在列车和测试数据中。

数据如下:**ReviewerID** **ReviewText** **Categories** **ProductId**

1212 good product Mobile 14444425

1233 will buy again drugs 324532

5432 not recomended dvd 789654123

我使用以下代码来执行此操作:import pandas as pd

Meta = pd.read_csv('C:\\Users\\xyz\\Desktop\\WM Project\\Joined.csv')

import numpy as np

from sklearn.cross_validation import train_test_split

train, test = train_test_split(Meta.categories, test_size = 0.2, stratify=y)

它给出了以下错误NameError: name 'y' is not defined

由于我对python还比较陌生,所以我不知道自己做错了什么,也不知道这段代码是否会基于列类别进行分层。当我从train test split中删除stratify选项和categories列时,它似乎工作得很好。

任何帮助都将不胜感激。

python分层抽样_基于列的sklearn分层抽样相关推荐

  1. python小波变换_基于python的信号小波分析

    小波分析(时频域分析)--python 本实验基于deap数据对eeg信号某个人的fp1通道信号进行不同频段分解 小波分解 (1)导入pywt以及numpy库 import numpy as np i ...

  2. python 机器学习_基于 Python 语言的机器学习工具Sklearn

    本篇介绍了Sklearn机器学习基础,从Sklearn的简介,模块以及与tensorflow的优劣势对比来了解基于Python语言的机器学习工具.    01.Sklearn简介 sklearn(sc ...

  3. 爬虫技术python流程图_基于Python的网络爬虫技术研究

    基于 Python 的网络爬虫技术研究 王碧瑶 [摘 要] 摘要:专用型的网络爬虫能够得到想要的返回结果 , 本文就以拉勾网作 为例子 , 对基于 Python 的网络爬虫技术进行研究和分析. [期刊 ...

  4. arcmap中添加python脚本_基于Python脚本的ArcMap字段计算器分类赋值

    因为出差等等缘由,又没能很好的坚持记录博客,今天回来了,继续记录所学吧.python ArcMap中提供了"字段计算器工具",实际上就是对Sql语句进行了可视化封装,造成了一个具备 ...

  5. python遗传算法_基于Python的遗传算法特征约简(附代码)

    导言 在某些情况下,使用原始数据训练机器学习算法可能不是合适的选择.该算法在接受原始数据训练时,必须进行特征挖掘,以检测不同组之间的差异.但这需要大量的数据来自动执行特征挖掘.对于小数据集,数据科学家 ...

  6. 用python做炒股软件-同花顺有python接口_基于python的炒股软件

    股票详细数据 怎么获得股市数据针对股票等金融数据的获取,python提供了一个非常实用的模块-tushare,自动完成了数据从采集.清洗到存储的全过程,可以极大减轻金融分析人员的工作量,下面我简单介绍 ...

  7. python产品缺陷_基于python从redmine-api中获取项目缺陷数据(1)

    1.引言 本文主要内容是将如何利用 Python 对 Redmine缺陷进行缺陷数据获取操作.目前统计缺陷数据时基本是根据项目手动去redmine获取缺陷数据,至少要花费一个工作日去完成,目前的目标是 ...

  8. svd降维 python案例_菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD

    菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD 概述 从什么叫维度说开来 简单讲,shape中返回了几个数字就是几维. 一张表最多就是一维 当一个数组中存在2张3行 ...

  9. python分行_基于python实现对文件进行切分行

    针对配置文件进行切分,重组,每隔30行为一段,进行重新生成功能. 代码如下 #!/usr/local/python/bin/python # coding=utf-8 import sys impor ...

最新文章

  1. 记一次FastJSON和Jackson解析json时遇到的中括号问题
  2. 重写toString()方法(Java篇)
  3. 设z=〖(1+xy)〗^y,求 ∂z/∂y
  4. oracle 10g 学习之函数和存储过程(12)
  5. oracle rman 实例,Oracle数据库rman常用命令的使用示例
  6. boost学习之安装
  7. SQL Server IF Exists 判断数据库对象是否存在的用法
  8. ASP.NET状态管理之五(Cookie)
  9. rabbitmq队列中消息过期配置
  10. Pandas模块,我觉得掌握这些就够用了!
  11. 从零基础入门Tensorflow2.0 ----七、34 embedding rnn
  12. 转发给上海的朋友们!程序员写了一款抢菜插件!这个抢菜插件让上海很多朋友成功抢了一个月的菜!感谢!...
  13. 阶段1 语言基础+高级_1-3-Java语言高级_05-异常与多线程_第3节 线程同步机制_2_线程安全问题的代码实现...
  14. cat6 万兆_专业扫盲Cat5e/Cat6/Cat6a/Cat7网线系列
  15. MRI_Made_Easy 磁共振成像原理-物理基础4
  16. 计算机efs加密,win7系统对文件启用EFs加密功能的处理办法
  17. 为什么单片机只有可以整除8的特殊寄存器能够位寻址?
  18. 威斯康星麦迪逊计算机专业排名,威斯康星大学麦迪逊分校计算机专业详解
  19. android直播音频开发准备
  20. 中科院计算所寒武纪团队DianNao系列论文导读

热门文章

  1. 面包师问题--linux实现
  2. 应用DiskGenius恢复误删除卷(硬盘分区)后的硬盘分区和数据
  3. 【服务器数据恢复】XFS文件系统分区丢失怎么恢复数据?
  4. tomcat原理及调优
  5. 直播软件开发Android直播悬浮窗实现
  6. 跟着沐神学习深度学习
  7. 一文读懂程序化交易算法交易量化投资高频交易统计利
  8. Eugene Fama —— 一段 50 年的传奇
  9. 【附源码】计算机毕业设计SSM天气预报查询管理系统
  10. 设计婴儿、人体冷冻... 颠覆未来的8种技术!网友:太可怕了