python机器学习之数据集(查看数据,划分训练集、测试集)
一、获取数据集
在一些大数据比赛的网站或者sklearn官方的网站可以下载一些数据集
如:UCI Machine Learning Repositoryhttp://archive.ics.uci.edu/ml/index.phpKaggle: Your Machine Learning and Data Science Communityhttps://www.kaggle.com天池大数据众智平台-阿里云天池天池是阿里云旗下大数据平台,围绕云生态挖掘输送优秀人才。旨在打造“数据众智、众创”平台,欢迎来自世界各地的技术人员来天池参与百万奖金的天池大赛,进行真实业务场景演练,与全球AI人才比拼,挑战世界排名。您还可以在天池创建属于您的天池实验室,享受免费计算资源,探索不同行业真实场景数据,共同探索数据众创新模式。https://tianchi.aliyun.com
scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentationhttps://scikit-learn.org/stable/
等等,我这里用的是最后一个,sklearn的官方数据库,用import就可以导入,具体代码如下:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_splitimport math, random, time
import threading
#随机抽出训练集80%、测试集20%
def datasets_demo():#获取鸢尾花数据集并展示内容iris=load_iris()print(type(iris))#查看得到一个继承自字典的bunch类型的数据集print("iris数据集是\n",iris)print("iris的数据集描述是:", iris.DESCR)print("iris的特征值名字是:", iris["feature_names"])print("iris的特征值", iris.data, iris.data.shape)print("iris的目标值:", iris.target)print("iris的目标值名字:", iris.target_names)
# 将数据集划分为训练集train、测试集test,x是特征值,y是目标值,先出特征值;随机种子为22
# 随机抽出训练集80%、测试集20%,共150组数据x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
# 查看划分后的数据集,30组测试数据集print("测试集的特征值为", x_test, x_test.shape)return None
if __name__=='__main__':datasets_demo()
python机器学习之数据集(查看数据,划分训练集、测试集)相关推荐
- python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解
文章目录 train_test_split()用法 获取数据 划分训练集和测试集 完整代码脚手架 train_test_split()用法 python机器学习中常用 train_test_split ...
- 5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)
文章目录 1. 什么是转换器? 2. 测试集和训练集 2.1 训练集 .测试集.验证集 2.2 拆分训练集测试集有个问题 2.3 代码 3. 标准化 3.1 上离差标准化代码(举一反三就好了,其他几个 ...
- 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization
1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...
- idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集
[从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...
- Sklearn-train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...
- python按设定比例划分训练集和测试集代码
# *_*coding: utf-8 *_* # Author --LiMing--import os import random import shutil import timedef copyF ...
- sklearn.model_selection.train_test_split随机划分训练集和测试集
1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...
- python划分训练集和测试集_杨涛的Python机器学习3:单特征与多特征、训练集与测试集,杨桃...
本人CSDN博客专栏:https://blog.csdn.net/yty_7 Github地址:https://github.com/yot777/ 单特征与多特征 在上一节标签和特征的示例中,我们使 ...
- train_test_split(),随机划分训练集和测试集的函数
sklearn.model_selection.train_test_split() from sklearn.model_selection import train_test_split x_tr ...
- Python机器学习iris数据集预处理和模型训练
机器学习模型训练 一.iris数据集简介 二.基本数据操作和模型训练 一.iris数据集简介 iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson`s Iris data set. ...
最新文章
- DataX 安装和使用
- android中有关invisible,visible,gone的区别
- MIT发布2018年全球10大突破性技术!
- 什么是反射,为什么有用?
- 参考-这个符号在PHP中是什么意思?
- JUnit 3.8 通过反射测试私有方法
- web页面--前端明水印
- SpringMVC之拦截器和异常处理
- 将堆栈异常返回前端显示
- LeetCode 堆栈队列 —— 括号匹配(20、232、155)
- 超强合集:OCR 文本检测干货汇总(含论文、源码、demo 等资源)
- Win10的Flash不能运行,报错——“暴力”解法
- 第九节 初始模块结构图的设计
- Dapper使用技巧和基础CRUD
- 读浅墨博客 十一 笔记
- 惊世奇谈:乾隆生父不是雍正而是康熙?
- 老款Tplink路由器如何桥接
- 7 个Javascript 小技巧
- Jmeter - JMeter监听器 -上篇(详解教程)
- import上一级目录的模块(Python)