sklearn是很强大的机器学习的库,传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。最开始的是获取数据,sklearn已经给出很多的数据集, 当然也可以通过sklearn自己创建。

Sklearn里给出的数据集如下:

这里具体怎么调用和创建可以参考博客:https://www.cnblogs.com/lianyingteng/p/7811126.html

这里主要说的是在sklearn怎么划分出训练集和测试集,前面说过 训练集和测试集不能有交集,最直接的方法是从一堆的数据集中直接 划分出两部分,一部分是训练集, 另一部分就是测试集。sklearn中给出了 相应的函数。

train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:

X_train,X_test, y_train, y_test  = cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

我们先解释括号里的参数都代表啥。

train_data:所要划分的样本特征集

train_target:所要划分的样本结果

test_size:样本占比,如果是整数的话就是样本的数量。这里的0.4代表的就是划分出40%的样本作为测试集。

random_state:是随机数的种子。

随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:

种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。

看到这里有一个随机数种子,啥是 随机数种子, 在这里有啥用?于是 找资料看了一下机器产生随机数的原理。

网址:https://wenda.so.com/q/1364481840069526?src=140

不管用什么方法实现随机数发生器,都必须给它提供一个名为“种子”的初始值。而且这个值最好是随机的,或者至少这个值是伪随机的。“种子”的值通常是用快速计数寄存器或移位寄存器来生成的。 随机函数产生的是一种伪随机数,它实际是一种序列发生器,有固定的算法,只有当种子不同时,序列才不同。因此,用通俗的话说就是编程语言里的随机数是通过算法生成 的,先有一个随机种子,把一些列算法应用于这个种子,随机数就出来了,因此在程序中指定种子值,每次都不变,那么程序每次产生的随机数就都是一样的,在一些程序中,这样反而起到了控制变量的作用。

最后需要说明的是train_test_split函数在sklearn的高版本中不属于cross_validation类了,属于sklearn.model_selection,调用的形式应该是sklearn.model_selection.train_test_split。

或者是:


from sklearn.model_selection import train_test_split
train= loan_data.iloc[0: 55596, :]
test= loan_data.iloc[55596:, :]
# 避免过拟合,采用交叉验证,验证集占训练集20%,固定随机种子(random_state)
train_X,test_X, train_y, test_y = train_test_split(train,target,test_size = 0.2,random_state = 0)

机器学习库sklearn之怎么划分训练集和测试集相关推荐

  1. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  2. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  3. Sklearn-train_test_split随机划分训练集和测试集

    sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...

  4. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  5. [机器学习笔记] 将数据拆分成训练集和测试集的几种方法

    问题描述: 一般情况下, 我们习惯将原始数据中的80% 作为训练集, 20% 作为测试集(当数据量足够大的时候,也可以将10% 作为测试集. 数据量较小时,如果每次都是随机划分训练集,执行多次训练后, ...

  6. sklearn.model_selection.train_test_split随机划分训练集和测试集

    1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...

  7. 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)

    文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...

  8. python按设定比例划分训练集和测试集代码

    # *_*coding: utf-8 *_* # Author --LiMing--import os import random import shutil import timedef copyF ...

  9. python划分训练集和测试集_杨涛的Python机器学习3:单特征与多特征、训练集与测试集,杨桃...

    本人CSDN博客专栏:https://blog.csdn.net/yty_7 Github地址:https://github.com/yot777/ 单特征与多特征 在上一节标签和特征的示例中,我们使 ...

  10. train_test_split(),随机划分训练集和测试集的函数

    sklearn.model_selection.train_test_split() from sklearn.model_selection import train_test_split x_tr ...

最新文章

  1. idea中新增package总是嵌套的解决方法
  2. 百味扶胰系假药 冒用降糖宁胶囊批号
  3. x299服务器芯片组,18核心炸裂!X299主板全集:为它真拼了
  4. zjoi2018day1 游记
  5. 论文赏析[ACL17]一个最小化的基于跨度的神经句法分析器
  6. 一种word版题库制作成excel版步骤
  7. 第十一届蓝桥杯物联网设计与开发实验(合集)STM32学习
  8. 小狼毫五笔输入法设置
  9. c语言用后缀字母表示不同数制,C语言基础知识总结
  10. 算法刷题记录(Day 73)
  11. 卡贴机卡贴设置又失效再次折腾
  12. PTA L2-043 龙龙送外卖
  13. IC授权卡和复制卡的区别_信用卡小知识【芯片卡磁条卡的区别】
  14. c++中的system(pause)的作用
  15. 淘宝店铺推广难?这些方法你还没掌握!
  16. 逆变电源于滤波电感器
  17. john lim php,成都环球中心天堂洲际大饭店总经理Mr.John Lim:E-Con系统开启智慧服务新时代!...
  18. 协作工具:即时设计(第三方UI设计软件)
  19. 招聘 | 阿里达摩院决策智能实验室招聘全职/博后/实习生-杭州/西雅图-内推
  20. 嵌入式开发中的滤波器设计

热门文章

  1. 计算机电脑配置ppt,计算机应用基础之word2010课件.ppt
  2. android加载obj文件,android – 从SD卡Rajawali解析.obj模型
  3. 计算机如何驱动无线网络,无线网卡驱动怎么安装,小编教你怎么给电脑安装无线网卡驱动...
  4. Seaweedfs 详细说明
  5. 二叉树的递归与非递归遍历详解
  6. 22二叉树非递归遍历算法
  7. 图论(五)单源最短路算法
  8. 约束优化内罚函数c语言程序,约束优化惩罚函数法.pdf
  9. 西门子g120变频器接线图_西门子变频器G120如何通过速度限幅来避免飞车的发生...
  10. Juce-强大的开源类库