机器学习算法需要大量的数据,这些数据一部分用于模型训练,另一部分作为测试或验证。

机器学习入坑者:sklearn日志(一)体验官方提供的标准数据集​zhuanlan.zhihu.com

sklearn库不仅提供了多个标准数据集,同时还具有易用的数据集划分功能,核心函数为train_test_split(),下面将对此函数用法进行具体介绍。

1、准备:数据集读取

首先,读取sklearn提供的标准数据集,确定数据总数为150:

iris 

2、train_test_split()参数详解

按照sklearn的官方文档,函数共包含下面几个主要参数:

  • *arrays :需要分割的数据,可以是list、numpy array等类型
  • test_size:测试集所占的比例,取值范围在0到1之间
  • train_size:训练集所占的比例,默认是等于1减去test_size
  • shuffle:是否在分割之前打乱数据集,默认是True

分割函数将会返回输入数据两倍的list,即train部分和test部分。其中*array表示可以同时输入多条数据,并以相同的次序对每条数据进行打乱(必须同时将data和label放入此函数中,保证打乱后依旧对应)。

3、训练集和测试集分割

通过上述的参数介绍,下面将数据集进行4:1的分割,即训练集占比80%,测试集占比20%:

X_train

数据总量为150,所以分割后训练集数量为120,测试集数量为30:

X 

iris数据集_sklearn日志(二)训练集和测试集划分相关推荐

  1. fgvc-aircraft-2013b飞机细粒度数据训练集和测试集划分python代码

    fgvc-aircraft-2013b是细粒度图像分类和识别研究中经典的benchmarks,它包含四种类型的标注: (1)按照manufacturer进行划分,可分为30个类别,例如ATR.Airb ...

  2. python按设定比例划分训练集和测试集代码

    # *_*coding: utf-8 *_* # Author --LiMing--import os import random import shutil import timedef copyF ...

  3. 训练集和测试集的标准化中的坑!!!

    问题:数据标准化,应该在训练集和测试集划分前还是后? 答:数据标准化,应该在训练集和测试集划分后,分别对训练集和测试集进行数据标准化处理.不应该是数据标准化后,再进行划分.虽然从模型测试的结果看,可能 ...

  4. 用c语言实现knn算法要有训练集和测试集,KNN算法实战:手写字体识别

    我们已经知道手写字体数据集是一个8×8的矩阵,共有64个特征.让我们看一下K最近邻算法对手写字体数据集处理的效果. 1) 导入相关包 这里我们将用到 datasets 中的手写字体数据,使用 trai ...

  5. oxford5k和paris6k数据集介绍_sklearn函数:KFold(分割训练集和测试集)

    上一篇介绍了train_test_split函数: 橘猫吃不胖:sklearn函数:train_test_split(分割训练集和测试集)​zhuanlan.zhihu.com 主要场景是,我们想要将 ...

  6. python划分数据集用pandas_用pandas划分数据集实现训练集和测试集

    1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...

  7. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  8. 【自存代码】划分数据集为训练集和测试集

    [自存代码]划分image和label为训练集和测试集 修改自这位大佬的代码:https://blog.csdn.net/weixin_47414034/article/details/1254793 ...

  9. 将数据集分为训练集和测试集(python脚本)

    文章目录 程序: 下面简单介绍一下程序流程 1.引入库 os库 shutil random 2.mk_file函数 3.主函数 程序: 我们在训练卷积神经网络之前,要搭建好数据集,分成训练集和测试集两 ...

最新文章

  1. 保护您的IE浏览器安全
  2. TextInputLayout
  3. ubuntu下nextcloud性能和安全设置优化_Ubuntu linux 18.04安装图解及IPV6协议处理和优化...
  4. Nginx反代Mogilefs分布式储存示例
  5. Winfrom实用代码项目
  6. ArcGIS学习记录—KMZ KML与SHP文件互相转换
  7. Netflix:如何通过机器学习提高流媒体质量?
  8. 22个值得收藏的android开源码-UI篇
  9. eclipse中java环境配置
  10. Swift 4.1带来条件一致性等语言上的提升
  11. 炒股一年,本金18万已亏损10万,还要不要继续?
  12. 西门子plc电源开关如何选型
  13. 定时器 cron 表达式
  14. 宝塔面板关键目录解析
  15. 自我决定理论:促进内在动机、社会发展和幸福感
  16. JAVA判断访问设为是否为手机、苹果、微信
  17. 奇偶数求和:输入任意个正整数(以输入负数表示结束输入),分别求出所有的奇数之和,所有的偶数之和。 示例: 输入格式:1 2 3 4 -1 输出格式:sumodd=4 sumeven=
  18. Android虚拟机参数
  19. windows系统软件崩溃分析
  20. 【用过的抢票软件汇总】

热门文章

  1. mysql 长时间连接没操作,断开连接
  2. BGP——邻居关系(IBGP+EBGP)的建立(讲解及配置命令)
  3. Python第十二章-多进程和多线程01-多进程
  4. 【C语言】数据结构C语言版 实验5 递归
  5. Coding:文件网盘高速直链下载无限空间
  6. 【C语言】输入5个整数并按输入顺序逆序输出
  7. Women Don’t Like Questions. Is it True?
  8. css基础媒体查询和rem
  9. css 网格布局_CSS网格布局
  10. .htaccess 重定向_如何使用.htaccess将HTTP重定向到HTTPS