前言

训练模型之前一般需要把数据集拆分为训练集和测试集,使用python代码如何拆分的关键就是如何更方便的选择出自变量X和因变量Y。

加载数据

# 导入第三方模块
import pandas as pd
# 读入数据
df = pd.read_csv(r'splitfeatures.csv')
df.head()

如何选择出X和Y

  1. 最简单的方式一个一个选择
X = df[['age','sex','income','profession']]
y = df['is_buy']
  1. 用iloc和loc选择
X1 = df.iloc[:,[0,1,2,4]]
y1 = df.iloc[:,[3]]
X2 = df.loc[:,['age','sex','income','profession']]
y2 = df.loc[:,['is_buy']]
  1. 用drop选择
X3 = df.drop(['is_buy'],axis=1)
y3 = df.is_buy
  1. 使用dataframe的colunms方法
col = df.columns[[0,1,2,4]]
X4 = df.loc[:,col]
X5 = df.iloc[:, df.columns != 'is_buy']
y5 = df.iloc[:, df.columns == 'is_buy']

使用model_selection拆分数据集

from sklearn import model_selection
# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.2, random_state = 1234)

Python 如何拆分数据集相关推荐

  1. [Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

    Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split() 功能: 将数组或矩阵拆分为随机的训练子集和测试子集 ...

  2. python机器学习--sklearn数据集使用

    文章目录 1.sklearn介绍 2.基本概括 2.1 估计器 2.2 转化器 3.sklearn中iris莺尾花数据集使用 1.sklearn介绍 Scikit-learn(以前称为scikits. ...

  3. Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例

    Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例 目录

  4. python怎么拆分没有分隔符字符串_python如何拆分含有多种分隔符的字符串

    案例: 把某个字符串依据分隔符拆分,该字符包含不同的多种分隔符,如下 s = '12;;7.osjd;.jshdjdknx+' 其中 ; . + 是分隔符 有哪些解决方案? 方法1:通过str.spl ...

  5. Python实现鸢尾花数据集分类问题——基于skearn的SVM(有详细注释的)

    Python实现鸢尾花数据集分类问题--基于skearn的SVM 代码如下: 1 # !/usr/bin/env python2 # encoding: utf-83 __author__ = 'Xi ...

  6. python数据建模数据集_Python中的数据集

    python数据建模数据集 There are useful Python packages that allow loading publicly available datasets with j ...

  7. python计算iris数据集的均值_K均值(K-Means)

    聚类是数据挖掘中的基本任务,聚类是将大量数据集中具有"相似"特征的数据点划分为统一类别,并最终生成多个类的方法. 聚类分析的基本思想是"物以类聚.人以群分",因 ...

  8. Python实现鸢尾花数据集分类问题——基于skearn的LogisticRegression

    Python实现鸢尾花数据集分类问题--基于skearn的LogisticRegression 一. 逻辑回归 逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题, ...

  9. python制作印刷体数据集:数字符号数据集(字符串转图片)

    做OCR项目,需要有很多印刷体的数据集,靠人工手动截图标注显然不现实,于是"人生苦短,我用python" 思路:数据集分两类,一类是长浮点数,模拟财务报表中的上亿元金额: 比如79 ...

最新文章

  1. 基因组组装的那些困扰,用单倍体基因组一一破解!
  2. 封装一个类搞定90%安卓客户端与服务器端交互
  3. 大量数据生成excel时候造成jvm内存泄漏问题的解决与测
  4. 技术分享 |《原神》部分渲染效果分析
  5. ashx 绝对路径得到物理路径
  6. 448. Find All Numbers Disappeared in an Array
  7. Yet Another Array Partitioning Task CodeForces - 1114B(思维)
  8. 【HDU - 5187】zhx's contest (快速幂+ 快速乘,模板)
  9. python获取网页元素坐标_Python实战爬虫系统学习笔记一:解析网页中的元素
  10. html表单的课后心得体会,web前端学习心得体会范文
  11. python画太极八卦图_用布尔运算绘制一个太极八卦图
  12. C++中实现精度的控制和输出 showpoint<<或者fixed<<setprecision()用法
  13. linux保密检查工具,linux使用lynis检查系统安全
  14. HTML基础期末速成笔记
  15. 为什么mysql默认事务隔离级别为RR
  16. Simulink 3D Animation的使用(V_realm builder2.0)
  17. 阿里云大数据分析师职业认证
  18. 计算机硬盘改造u盘,iPhone扩容硬盘不要扔!变废为宝!手把手教你如何改装U盘...
  19. Fusion360显示模糊怎么办?
  20. 更改linux时区、时间

热门文章

  1. 广工十四届校赛 count 矩阵快速幂
  2. manacher算法学习(求最长回文子串长度)
  3. Elasticsearch+Mongo亿级别数据导入及查询实践
  4. Codeforces Round #430 D. Vitya and Strange Lesson
  5. 烽火HG220G-U E00L2.03M2000光猫改桥接教程
  6. FZU 2129 子序列个数 (递推dp)
  7. WinForm如何输出中文星期几?
  8. Java 集合系列16之 Spring Boot 配置文件 选项配置(一)
  9. jquery获取元素颜色css('color')的值返回RGB
  10. Apache 配置SSL网站