一、获取数据集

在一些大数据比赛的网站或者sklearn官方的网站可以下载一些数据集

如:UCI Machine Learning Repositoryhttp://archive.ics.uci.edu/ml/index.phpKaggle: Your Machine Learning and Data Science Communityhttps://www.kaggle.com天池大数据众智平台-阿里云天池天池是阿里云旗下大数据平台,围绕云生态挖掘输送优秀人才。旨在打造“数据众智、众创”平台,欢迎来自世界各地的技术人员来天池参与百万奖金的天池大赛,进行真实业务场景演练,与全球AI人才比拼,挑战世界排名。您还可以在天池创建属于您的天池实验室,享受免费计算资源,探索不同行业真实场景数据,共同探索数据众创新模式。https://tianchi.aliyun.com

scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentationhttps://scikit-learn.org/stable/

等等,我这里用的是最后一个,sklearn的官方数据库,用import就可以导入,具体代码如下:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_splitimport math, random, time
import threading
#随机抽出训练集80%、测试集20%
def datasets_demo():#获取鸢尾花数据集并展示内容iris=load_iris()print(type(iris))#查看得到一个继承自字典的bunch类型的数据集print("iris数据集是\n",iris)print("iris的数据集描述是:", iris.DESCR)print("iris的特征值名字是:", iris["feature_names"])print("iris的特征值", iris.data, iris.data.shape)print("iris的目标值:", iris.target)print("iris的目标值名字:", iris.target_names)
# 将数据集划分为训练集train、测试集test,x是特征值,y是目标值,先出特征值;随机种子为22
# 随机抽出训练集80%、测试集20%,共150组数据x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
# 查看划分后的数据集,30组测试数据集print("测试集的特征值为", x_test, x_test.shape)return None
if __name__=='__main__':datasets_demo()

python机器学习之数据集(查看数据,划分训练集、测试集)相关推荐

  1. python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解

    文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...

  2. 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)

    文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...

  3. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  4. idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集

    [从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...

  5. Sklearn-train_test_split随机划分训练集和测试集

    sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...

  6. python按设定比例划分训练集和测试集代码

    # *_*coding: utf-8 *_* # Author --LiMing--import os import random import shutil import timedef copyF ...

  7. sklearn.model_selection.train_test_split随机划分训练集和测试集

    1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...

  8. python划分训练集和测试集_杨涛的Python机器学习3:单特征与多特征、训练集与测试集,杨桃...

    本人CSDN博客专栏:https://blog.csdn.net/yty_7 Github地址:https://github.com/yot777/ 单特征与多特征 在上一节标签和特征的示例中,我们使 ...

  9. train_test_split(),随机划分训练集和测试集的函数

    sklearn.model_selection.train_test_split() from sklearn.model_selection import train_test_split x_tr ...

  10. Python机器学习iris数据集预处理和模型训练

    机器学习模型训练 一.iris数据集简介 二.基本数据操作和模型训练 一.iris数据集简介 iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson`s Iris data set. ...

最新文章

  1. DataX 安装和使用
  2. android中有关invisible,visible,gone的区别
  3. MIT发布2018年全球10大突破性技术!
  4. 什么是反射,为什么有用?
  5. 参考-这个符号在PHP中是什么意思?
  6. JUnit 3.8 通过反射测试私有方法
  7. web页面--前端明水印
  8. SpringMVC之拦截器和异常处理
  9. 将堆栈异常返回前端显示
  10. LeetCode 堆栈队列 —— 括号匹配(20、232、155)
  11. 超强合集:OCR 文本检测干货汇总(含论文、源码、demo 等资源)
  12. Win10的Flash不能运行,报错——“暴力”解法
  13. 第九节 初始模块结构图的设计
  14. Dapper使用技巧和基础CRUD
  15. 读浅墨博客 十一 笔记
  16. 惊世奇谈:乾隆生父不是雍正而是康熙?
  17. 老款Tplink路由器如何桥接
  18. 7 个Javascript 小技巧
  19. Jmeter - JMeter监听器 -上篇(详解教程)
  20. import上一级目录的模块(Python)

热门文章

  1. 3.MQTT paho
  2. RIDE指定log和report的输出目录
  3. 安装无线网卡后,显示网络电缆被拔出?
  4. 输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。
  5. async/await实现同步
  6. 详尽Ubuntu18安装搜狗输入法教程
  7. 几种分段多项式曲线插值(拟合)的方式(含贝塞尔曲线和B样条[B-spline])
  8. Ubuntu source list
  9. excel两列数据绘制单折线图
  10. vs2010mfc单文档中添加对话框中的控件