调用sklearn里面的model_selection包的train_test_split()函数可以一行代码划分好数据集。

包名:

from sklearn.model_selection import train_test_split

代码:

x = data.drop(['Exited'],axis=1)
y = data['Exited']
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size = 0.2, random_state = 0)

代码讲解:

x是经过特征工程编码好的数据,一般训练集和测试集一起做编码;但还没有标准化,因为标准化要放在划分数据集后面进行。

drop()函数把除了因变量以外的自变量都保留了,保存在数据集x里。

y是结果,是因变量,比如是否留存、是否购买等。

train_test_split()方法括号里面的顺序是(自变量数据,因变量数据,测试集划分比例test_size,随机种子random_state )。

test_size 设置划分的比例,这里是预留20%的数据作为测试集。

random_state 是随机种子,可以随便写一个数字(详细作用见最后面“随机种子的作用”)。

X_train, X_test, y_train, y_test的顺序是:训练集的自变量、测试集的自变量、训练集的因变量、测试集的因变量。

运行结果,按0.2的比例划分好数据集啦:

随机种子的作用:一般随机的结果是和系统时间有关的,在不同的时间运行,得到的数据分组会不一样。这样就会导致即便还没开始调参,每次运行都能得到不同的准确率,就没办法判断是不是通过优化数据集或者调参带来的影响了。设置了随机种子之后,每次重新运行之后随机分的结果是一样的。有了确定的随机种子,别人在拿到你的代码的时候就可以复现得到一样的结果了。

Python机器学习:train_test_split()划分数据集相关推荐

  1. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  2. Python机器学习:随机抽样函数sample()划分数据集

    不用调包也能便捷地划分数据集,用随机抽样sample()函数两行代码可以轻松搞定. #划分训练集 train_data = data.sample(frac = 0.8, random_state = ...

  3. 【机器学习入门】(13) 实战:心脏病预测,补充: ROC曲线、精确率--召回率曲线,附python完整代码和数据集

    各位同学好,经过前几章python机器学习的探索,想必大家对各种预测方法也有了一定的认识.今天我们来进行一次实战,心脏病病例预测,本文对一些基础方法就不进行详细解释,有疑问的同学可以看我前几篇机器学习 ...

  4. 【机器学习入门】(8) 线性回归算法:正则化、岭回归、实例应用(房价预测)附python完整代码和数据集

    各位同学好,今天我和大家分享一下python机器学习中线性回归算法的实例应用,并介绍正则化.岭回归方法.在上一篇文章中我介绍了线性回归算法的原理及推导过程:[机器学习](7) 线性回归算法:原理.公式 ...

  5. 【机器学习入门】(5) 决策树算法实战:sklearn实现决策树,实例应用(沉船幸存者预测)附python完整代码及数据集

    各位同学好,今天和大家分享一下python机器学习中的决策树算法,在上一节中我介绍了决策树算法的基本原理,这一节,我将通过实例应用带大家进一步认识这个算法.文末有完整代码和数据集,需要的自取.那我们开 ...

  6. 【机器学习入门】(2) 朴素贝叶斯算法:原理、实例应用(文档分类预测)附python完整代码及数据集

    各位同学好,今天我向大家介绍python机器学习中的朴素贝叶斯算法.内容有:算法的基本原理:案例实战--新闻文档的分类预测. 案例简介:新闻数据有20个主题,有10万多篇文章,每篇文章对应不同的主题, ...

  7. 【机器学习入门】(1) K近邻算法:原理、实例应用(红酒分类预测)附python完整代码及数据集

    各位同学好,今天我向大家介绍一下python机器学习中的K近邻算法.内容有:K近邻算法的原理解析:实战案例--红酒分类预测.红酒数据集.完整代码在文章最下面. 案例简介:有178个红酒样本,每一款红酒 ...

  8. python机器学习——决策树(分类)及“泰坦尼克号沉船事故”数据集案例操作

    决策树(分类)及具体案例操作 一.决策树(分类)算法 (1)算法原理(类似于"分段函数") (2)决策树的变量类型 (3)量化纯度 (4)基本步骤 (5)决策树的优缺点 二.决策树 ...

  9. python 机器学习——K 近邻分类理论及鸢尾( Iris )数据集实例操作

    K 近邻分类理论及鸢尾( Iris )数据集实例操作 一.K 近邻分类理论 二.K 近邻分类实例操作 (1)导入数据 划分训练集测试集 (3)数据标准化 (4)用 K 近邻法建立模型 (5)性能评估 ...

最新文章

  1. android与单片机wifi通信原理图,用LT8920做2.4G无线通信原理图与51单片机程序
  2. 《LeetCode力扣练习》第7题 C语言版 (做出来就行,别问我效率。。。。)
  3. 微服务基础架构的5个关键问题
  4. AI公开课:19.02.27周逵(投资人)《AI时代的投资逻辑》课堂笔记以及个人感悟
  5. 赋能‘元宇宙’,这些企业强势破圈 | 2021AI 最佳成长榜
  6. YBTOJ:放置棋子(费用流)
  7. P4100-[HEOI2013]钙铁锌硒维生素【矩阵求逆,最大匹配】
  8. 1、Java多线程基础:进程和线程之由来
  9. php115网盘seo,115网盘禁止影视资源外链 网盘行业路在何方
  10. directshow虚拟摄像头
  11. java aspose 加水印_使用Aspose.words for java去掉Word文档的水印(底图)
  12. Mac Google浏览器出现:您目前无法访问 XX.XX.XX.XX,因为此网站发送了 Google Chrome 无法处理的杂乱凭据
  13. 在线画图软件项目结构图
  14. Check Point R80.10官方共21个产品文档翻译汉化
  15. QT程序按钮效果制作
  16. 华为设备历史200条命令查询方法
  17. Activiti7工作流-使用Idea开发体验Activti_请假流程---工作流工作笔记006
  18. 入职外包到银行的公司,我学到了这些...
  19. java 单词出现次数_Java统计英文句子中出现次数最多的单词并计算出现次数的方法...
  20. 重庆计算机上机操作试题,重庆市计算机等级考试C语言上机模拟试题答...doc

热门文章

  1. 西门子SIMATIC S7-200 SMART木工机械的应用
  2. 带你们轻松玩遍吃遍张家界
  3. TCL , 型号L24F09 怎么开机, 按显示器上的电源 ,不管用。
  4. dns电脑服务器发生故障怎么修复,电脑dns服务器发生故障怎么解决
  5. 计蒜客超级书架2题解
  6. 口算软件 ------有助于你了解代码的封装思想,更加简单 (java实现版本)
  7. 创业需要MVP(Minimum Viable Product,即“最小化可行产品”)
  8. Latex-部分基础知识
  9. MT7601 狂报Qidx(0), not enough space in MgmtRing, MgmtRingFullCount=168!
  10. [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解