用pandas划分数据集实现训练集和测试集,数据,情况下,子集,模块,情况

用pandas划分数据集实现训练集和测试集

易采站长站,站长之家为您整理了用pandas划分数据集实现训练集和测试集的相关内容。

1、使用model_select子模块中的train_test_split函数进行划分

数据:使用kaggle上Titanic数据集

划分方法:随机划分# 导入pandas模块,sklearn中model_select模块import pandas as pdfrom sklearn.model_select import train_test_split# 读取数据data = pd.read_csv('.../titanic_dataset/train.csv')# 将特征划分到 X 中,标签划分到 Y 中x = data.iloc[:, 2:]y = data.loc['Survived']# 使用train_test_split函数划分数据集(训练集占75%,测试集占25%)

x_train, x_test, y_train,y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

缺点:1、数据浪费严重,只对部分数据进行了验证

2、容易过拟合

2、k折交叉验证(kfold)

原理:将数据集划分成n个不相交的子集,每次选择其中一个作为测试集,剩余n-1个子集作为            训练集,共生成 n 组数据

使用方法:sklearn.model_select.KFold(n_splits=5,shuffle=False,random_state=0)

参数说明:n_splits:数据集划分的份数,

shuffle:每次划分前是否重新洗牌 ,False表示划分前不洗牌,每次划分结果一样,True表示划分前洗牌,每次划分结果不同

random_state:随机种子数

(1)shuffle=False 情况下数据划分情况# 不洗牌模式下数据划分情况import numpy as npfrom sklearn.model_selection import KFoldx = np.arange(46).reshape(23,2)kf = KFold(n_splits=5,shuffle=False)for train_index, test_index in kf.split(x): print(train_index,test_index)[ 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22] [0 1 2 3 4][ 0 1 2 3 4 10 11 12 13 14 15 16 17 18 19 20 21 22] [5 6 7 8 9][ 0 1 2 3 4 5 6 7 8 9 15 16 17 18 19 20 21 22] [10 11 12 13 14][ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 19 20 21 22] [15 16 17 18][ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18] [19 20 21 22]

(2)shuffle=True 情况下数据划分情况import numpy as npfrom sklearn.model_selection import KFoldx = np.arange(46).reshape(23,2)kf = KFold(n_splits=5,shuffle=True)for train_index, test_index in kf.split(x): print(train_index,test_index)[ 0 3 4 5 6 7 8 9 10 11 12 14 15 16 17 19 20 21] [ 1 2 13 18 22][ 0 1 2 3 5 6 7 10 11 13 15 16 17 18 19 20 21 22] [ 4 8 9 12 14][ 0 1 2 3 4 7 8 9 10 12 13 14 15 16 17 18 19 22] [ 5 6 11 20 21][ 1 2 3 4 5 6 8 9 10 11 12 13 14 15 18 19 20 21 22] [ 0 7 16 17][ 0 1 2 4 5 6 7 8 9 11 12 13 14 16 17 18 20 21 22] [ 3 10 15 19]

总结:从数据中可以看出shuffle=True情况下数据的划分是打乱的,而shuffle=False情况下数据的划分是有序的以上就是关于对用pandas划分数据集实现训练集和测试集的详细介绍。欢迎大家对用pandas划分数据集实现训练集和测试集内容提出宝贵意见

pandas训练集测试集划分_用pandas划分数据集实现训练集和测试集相关推荐

  1. java频繁项集挖掘数据关联_数据挖掘之关联分析二(频繁项集的产生)

    频繁项集的产生 格结构(lattice structure)常常用来表示所有可能的项集. 发现频繁项集的一个原始方法是确定格结构中每个候选项集的支持度.但是工作量比较大.另外有几种方法可以降低产生频繁 ...

  2. pandas删除满足条件的行_入门Pandas练习

    本节主要是自己学习pandas的练习,与你分享. 导入Pandas与NumPy import numpy as np import pandas as pd 生成Series时,pandas默认生成整 ...

  3. pandas读取csv某一列_让pandas处理大数据速度变快的三个技巧

    上一篇文章 写的是处理GB级数据时datatable比pandas会更高效,但是datatable使用起来毕竟不如pandas来的顺手.所以今天准备介绍pandas的三个使用技巧来让我们的运行效率提高 ...

  4. spark 序列化错误 集群提交时_【问题解决】本地提交任务到Spark集群报错:Initial job has not accepted any resources...

    本地提交任务到Spark集群报错:Initial job has not accepted any resources 错误信息如下: 18/04/17 18:18:14 INFO TaskSched ...

  5. 软件测试缺陷等级划分_众测项目中功能测试、安全测试和兼容性缺陷等级区分定义...

    开发者发布众测项目时,用户非常关心缺陷等级区分定义,小编给大家详细说明一下,Alltesting众测平台中严格定义,具体如下: 功能测试项目和安全测试项目按缺陷严重性分为高中低等级: 高级缺陷 导致操 ...

  6. 两台思科交换机vlan划分_华为交换机划分vlan及vlanIP地址的设置

    如果这篇文章对您有帮助,请关注并点赞,感谢您的支持,如果还有其他问题,请私信给我 Vlan(Virtual Local Area Network)翻译成中文名为虚拟局域网,在网络管理中,vlan的划分 ...

  7. 体质测试java代码_求java代码,要求做一个测试类,实现以下功能之一。最好三个功能都有。...

    展开全部 import java.util.*; public class Admin {//管理类 Scanner in=new Scanner(System.in); String msg=&qu ...

  8. 【小白学PyTorch】 2.浅谈训练集验证集和测试集

    文章目录: 经验误差与过拟合 评估方法 经验误差与过拟合 关键词:错误率(error rate),精度(accuracy). 错误率好理解,就是m个样本中,a个样本分类错误,则错误率E = a/m . ...

  9. 1.6 开发集和测试集的大小-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 1.5 训练/开发/测试集划分 回到目录 1.7 什么时候该改变开发_测试集和指标 开发集和测试集的大小 (Size of Dev and Test Sets) 在上一个视频 ...

  10. 吴恩达神经网络和深度学习-学习笔记-6-训练集、验证集和测试集 + 偏差bias和方差variance

    寻找最优超参数是一个迭代过程 在今天,应用深度学习是一个典型的迭代过程. 创建高质量的训练数据集.验证集和测试集,有助于提高循环效率. 训练集.验证集和测试集 数据Data分为三部分: 训练集trai ...

最新文章

  1. C语言字符char和整型int的关系
  2. 压缩备份日志 java_自动压缩备份日志文件到指定备份目录脚本
  3. 牛客题霸题目及题解汇总
  4. 微软:软件帝王的复兴之路
  5. html中contentEditable属性
  6. MACAPP中引入ffmpeg库完成具体功能
  7. [PhoenixRC模拟器安装]
  8. fortran语言能用matlab,fortran语言与matlab
  9. ansys linux安装包_ANSYS15.0 for Linux下载及安装教程 - 图文 -
  10. requests 使用 socks5 协议 的另外一种方式
  11. 怎么用level2行情接口获取A股数据?
  12. python读取桌面上的文件夹怎么加密_python给文件夹加密 怎么样给python文件加密...
  13. 美赛数模论文之表的格式
  14. [Python知识图谱] 二.哈工大pyltp词性标注、命名实体识别、依存句法分析和语义角色标注
  15. 刨根究底字符编码之四——EASCII及ISO 8859字符编码方案
  16. Zynga就收购顶尖移动设备游戏《Toon Blast》和《Toy Blast》的开发商伊斯坦布尔Peak公司达成协议
  17. va_list、va_start和va_end实现
  18. matlab一元线性回归及多元线性回归方程
  19. R | 导入excel文件乱码
  20. 自动下载必应主页图片做壁纸

热门文章

  1. semg特征提取matlab zc,一种融合小波包和双谱分析的肌电信号特征提取方法与流程...
  2. 用java判定三角形_人教版初中数学八年级上册“角角边”判定三角形全等公开课优质课课件教案视频...
  3. Mac版本QQ消息防撤回
  4. matlab cg steihaug,截断共轭梯度法
  5. 度分秒换算题及答案C语言,度分秒的换算题(度分秒计算100题及答案)
  6. 方舟原始恐惧mod生物代码_方舟MOD
  7. 中国联通创维SK-D740光猫管理员密码获取教程
  8. JavaScript表单验证示例
  9. mes管理系统php原码,MES系统_MES车间管理系统_轻量化定制方案
  10. rp文件,怎么用浏览器预览