随机切分csv训练集和测试集 鸢尾花
import csv
import os
import numpy as np
'''将iris.csv中的数据分成train_iris和test_iris两个csv文件,其中train_iris.csv中有120个数据,test_iris.csv中有30个数据'''labels = []
data = []
a_train_file = 'train_iris.csv'
a_test_file = 'test_iris.csv'
a_file = 'iris.csv'
seed = 3
np.random.seed(seed) #seed() 方法改变随机数生成器的种子,每次运行随机函数生成的结果都一样
train_indices = np.random.choice(150, 120, replace=False) # 设置随机数生成从0-150中随机挑选120个随机数
residue = np.array(list(set(range(150)) - set(train_indices)))
test_indices = np.random.choice(len(residue),30, replace=False) # 如果训练集和测试集综合的数据加起来就是一整个数据集则不需要这个操作
with open(a_file)as afile:a_reader = csv.reader(afile) #从原始数据集中将所有数据读取出来并保存到a_reader中labels = next(a_reader) # 提取第一行设置为labelsfor row in a_reader: # 将a_reader中每一行的数据提取出来并保存到data的列表中data.append(row)
# 生成训练数据集
if not os.path.exists(a_train_file):with open(a_train_file, "w", newline='') as a_trian:writer = csv.writer(a_trian)writer.writerows([labels]) #第一行为标签行writer.writerows(np.array(data)[train_indices])a_trian.close()
# 生成测试数据集
if not os.path.exists(a_test_file):with open(a_test_file, "w", newline='')as a_test:writer = csv.writer(a_test)writer.writerows([labels]) #第一行为标签行writer.writerows(np.array(data)[test_indices])a_test.close()
随机切分csv训练集和测试集 鸢尾花相关推荐
- 随机挑选分类训练集和测试集
# -*- coding: utf-8 -*-import os import random import shutil from shutil import copy2 from tqdm impo ...
- sklearn.model_selection.train_test_split随机划分训练集和测试集
1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...
- 深度学习之数据处理——如何将图片和标签打乱并划分为训练集和测试集
深度学习之数据处理--如何将图片和标签打乱并划分为训练集和测试集 记录我的第一篇CSDN博客 最近我在网上找到Office31数据集,这个数据集中包含了三个子数据集,分别为:Amazon.dslr.w ...
- Python分割训练集和测试集
数据集介绍 使用数据集Wine,来自UCI.包括178条样本,13个特征. import pandas as pd import numpy as npdf_wine = pd.read_csv('h ...
- R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果(accuray、F1、偏差Deviance)对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况
R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...
- Sklearn-train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/gene ...
- python划分数据集用pandas_用pandas划分数据集实现训练集和测试集
1.使用model_select子模块中的train_test_split函数进行划分 数据:使用kaggle上Titanic数据集 划分方法:随机划分 # 导入pandas模块,sklearn中mo ...
- oxford5k和paris6k数据集介绍_sklearn函数:KFold(分割训练集和测试集)
上一篇介绍了train_test_split函数: 橘猫吃不胖:sklearn函数:train_test_split(分割训练集和测试集)zhuanlan.zhihu.com 主要场景是,我们想要将 ...
- idea2020.2中@test是怎么测试的_Sklearn 划分训练集和测试集
[从零开始学机器学习第 03 篇] 摘要:手写 Sklearn 的 train_test_split 函数. 之前两篇文章以酒吧的红酒故事引出了 kNN 分类算法,根据已倒好的酒(样本),预测新倒的酒 ...
最新文章
- HDU3657Game(最大流)
- php开发 linux作用是什么,linux有什么用?
- Intent跳转到系统应用中的拨号界面、联系人界面、短信界面及其他
- Linux同一网段使用不同网卡的方法
- 哪些职业申请贷款比较难?
- #leetcode刷题之路35-搜索插入位置
- python isalpha函数用法_python中string模块各属性以及函数的用法
- 2018.09.28 hdu5435A serious math problem(数位dp)
- origin 修改水平坐标的刻度
- Linux Shell 编程笔记
- iZotope RX 9 for Mac(受损音频修复工具)
- 程序设计导引及在线实践_四金一银!西电在计算机系统与程序设计竞赛再创佳绩...
- 批量创建工作表并以本月日期命名——《超级处理器》应用
- 学习python第五天
- 抖音是如何做内容推荐的?
- 1012-RPA与目标使用者
- 安装和删除Ubuntu双系统
- linux安装启动php-fpm,linux上nginx的安装启动以及配合php-fpm的使用
- css 汉堡菜单_使用CSS构建变形汉堡包菜单
- 超全MySQL学习笔记,416页满满知识,看完再也不怕学不会了