def split_train_test(text_df, size=0.8):"""分割训练集和测试集"""# 为保证每个类中的数据能在训练集中和测试集中的比例相同,所以需要依次对每个类进行处理train_text_df = pd.DataFrame()test_text_df = pd.DataFrame()labels = [0, 1, 2, 3]for label in labels:# 找出label的记录text_df_w_label = text_df[text_df['label'] == label]# 重新设置索引,保证每个类的记录是从0开始索引,方便之后的拆分text_df_w_label = text_df_w_label.reset_index()# 默认按80%训练集,20%测试集分割# 这里为了简化操作,取前80%放到训练集中,后20%放到测试集中# 当然也可以随机拆分80%,20%(尝试实现下DataFrame中的随机拆分)
# 该类数据的行数n_lines = text_df_w_label.shape[0]split_line_no = math.floor(n_lines * size)text_df_w_label_train = text_df_w_label.iloc[:split_line_no, :]text_df_w_label_test = text_df_w_label.iloc[split_line_no:, :]# 放入整体训练集,测试集中train_text_df = train_text_df.append(text_df_w_label_train)test_text_df = test_text_df.append(text_df_w_label_test)train_text_df = train_text_df.reset_index()test_text_df = test_text_df.reset_index()return train_text_df, test_text_df

转载于:https://www.cnblogs.com/zhangshilin/p/6916475.html

【转】保证训练集和测试集取到和数据集中相同比例的类别相关推荐

  1. iris数据集_sklearn日志(二)训练集和测试集划分

    机器学习算法需要大量的数据,这些数据一部分用于模型训练,另一部分作为测试或验证. 机器学习入坑者:sklearn日志(一)体验官方提供的标准数据集​zhuanlan.zhihu.com sklearn ...

  2. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  3. sklearn.model_selection.train_test_split随机划分训练集和测试集

    1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...

  4. Sklearn-train_test_split随机划分训练集和测试集

    sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...

  5. [机器学习笔记] 将数据拆分成训练集和测试集的几种方法

    问题描述: 一般情况下, 我们习惯将原始数据中的80% 作为训练集, 20% 作为测试集(当数据量足够大的时候,也可以将10% 作为测试集. 数据量较小时,如果每次都是随机划分训练集,执行多次训练后, ...

  6. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  7. 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)

    文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...

  8. 将数据集分为训练集和测试集(python脚本)

    文章目录 程序: 下面简单介绍一下程序流程 1.引入库 os库 shutil random 2.mk_file函数 3.主函数 程序: 我们在训练卷积神经网络之前,要搭建好数据集,分成训练集和测试集两 ...

  9. python尝试不同的随机数进行数据划分、使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征的卡方检验的p值,如果所有p值都大于0.05则训练集和测试集都具有统计显著性、数据划分合理

    python尝试不同的随机数进行数据划分.使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征(categorical)的卡方检验的p值,如果所有p值都大于0.05则退出循环.则训练集和测试 ...

  10. R语言使用lm构建线性回归模型、并将目标变量对数化实战:模型训练集和测试集的残差总结信息(residiual summary)、模型训练(测试)集自由度计算、模型训练(测试)集残差标准误计算

    R语言使用lm构建线性回归模型.并将目标变量对数化实战:模型训练集和测试集的残差总结信息(residiual summary).模型训练(测试)集自由度计算.模型训练(测试)集残差标准误计算(Resi ...

最新文章

  1. package extends 解析
  2. 平面上给定n条线段,找出一个点,使这个点到这n条线段的距离和最小。
  3. 第8章 多项式回归与模型泛化
  4. Ansible Inventory指北进阶
  5. 全球与中国塑料废料粉碎机市场运营状况分析及投资风险评估报告2022-2027年版
  6. Hi3516A开发--烧写/启动模式
  7. 网站随机背景音乐源码
  8. 苏州为什么只能做二线中游?
  9. WinCE下音频频谱显示效果图
  10. php更换wordpress用户头像,WordPress主题设置在前台页面添加用户头像教程
  11. 删除Flex Builder中没用的工作空间
  12. blob类型对象转为file类型对象
  13. 用Python做一个基于OCR的微信聊天机器人
  14. Java实现抓取百度识图结果的实现和思路-1-创造百度识图的URL链接
  15. 操作系统-进程管理(信号量机制)
  16. 【SQLite】C++链接SQLite读数据乱码问题(非中文)
  17. 线下 Meetup 预告|从原理到实战,详解 Database Plus 的互联网最佳实践
  18. 基于Arduino的PS2机械臂遥控小车(L298N)傻瓜教程
  19. Altera Scatter-Gather DMA (SG-DMA)的简单使用
  20. SMM - Spring,SpringMVC,MyBatis 三大框架整合

热门文章

  1. ajax前面$,连续多次发送Ajax前面的请求被后面的覆盖以致不能执行的问题
  2. python:urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed>
  3. PyCharm中的一些设置
  4. 网件R8000路由器怎么云存储_给大姐姐换个“控制中心”——NETGEAR 网件 R7800 AC2600M 路由器 简晒_路由器...
  5. 360全景拼接 opencv_广州海珠区专业改全景,丰田塞纳改3D全景,360全景行车记录仪的功能...
  6. UISearchBar 点击取消回到原来位置时会跳动的解决方法
  7. FZU 1502 Letter Deletion
  8. (转)解决PowerDesigner 反向工程没有注释(备注)
  9. poj1013 Counterfeit Dollar
  10. OSPF配置末梢区域