数据集拆分data_spilt
问题描述:
我们通常获取到一个数据集都需要先将其拆分成训练集、测试集、验证集用来不同的训练和运行测试,那么如何将一个数据集拆分呢?
解决方案:
以下代码举例将flower_photos拆分成train和val两个文件夹:
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
代码为:
import os
import random
from PIL import Image
file_name = os.listdir('flower_photos') # file_name是个列表,用来装images目录下的文件名
if not os.path.exists('flower_photos'):os.mkdir('flower_photos') # 创建一个我们要存放分类好的数据文件夹
s = ['train','val']
for j in s:for i in file_name:os.makedirs('flower_photos/{0}/{1}'.format(j,i)) # 将每个分类好的数据文件夹的文件夹名创建到我们要存放的数据的文件夹中for i in file_name:print(i)file = os.listdir('flower_photos/%s'%i)print(len(file))num_val = random.sample(file,100) # 随机在每个类别的样本抽取100个到验证集中
# print(num_val)for j in file:print(j)if j in num_val:img = Image.open('flower_photos/{0}/{1}'.format(i,j)) # 读取图片img.save('flower_photos/val/{0}/{1}'.format(i,j)) # 存放图片else:img = Image.open('flower_photos/{0}/{1}'.format(i,j))img.save('flower_photos/train/{0}/{1}'.format(i,j))
数据集拆分data_spilt相关推荐
- 机器学习数据拆分_解释了关键的机器学习概念-数据集拆分和随机森林
机器学习数据拆分 数据集分割 (Dataset Splitting) Splitting up into Training, Cross Validation, and Test sets are c ...
- Python 如何拆分数据集
前言 训练模型之前一般需要把数据集拆分为训练集和测试集,使用python代码如何拆分的关键就是如何更方便的选择出自变量X和因变量Y. 加载数据 # 导入第三方模块 import pandas as p ...
- 人工智能----->第二天,Numpy,Matplotlib,如何构建机器学习问题,数据集的收集、采样、拆分,数据的转换
numpy 构造numpy数组 import numpy as np '''linspace()方法:在某个范围内取等差数列参数:start:起始元素值stop:终止元素值num:元素个数 ''' a ...
- 清华构建新一代数据集NICO,定义图像分类新标准
2020-08-15 01:59:36 每件事物的出现都有它各自的使命,我们今天提数据集就不得不提到ImageNet,ImageNet数据集及其它推动的大规模视觉比赛对人工智能特别是计算机视觉领域的巨 ...
- 为基于树的机器学习模型构建更好的建模数据集的10个小技巧!
https://www.toutiao.com/a6680019995100971531/ 为了使模型更准确 - 只需对所有分类特征进行独热编码并将所有缺失值归零都可能是不够的. 假设有一个业务问题可 ...
- 如何在Keras中训练大型数据集
https://www.toutiao.com/a6670173759829180936/ 在本文中,我们将讨论如何使用Keras在不适合内存的大数据集上训练我们的深度学习网络. 介绍 深度学习算法优 ...
- 线性回归实例-鸢尾花数据集
文章目录 一.具体实现步骤 1. 导入Iris鸢尾花数据集 2. 提取花瓣数据 3. 拆分数据 4. 训练模型 二.可视化结果展示 1. 训练集 2. 测试集 三.相关知识点讲解 1. train_t ...
- ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略daiding
ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略daiding 目录 基于BigMartSales数据集利用Featuretools工具实现自动 ...
- yolo-v2 自己的数据集训练以及测试流程(仅供内部使用!)
warning 该流程仅供内部使用,外部人士使用可能会报很多很多错误! 步骤 先清除backup文件夹中老的权重文件: 将标定好图片以及annotation .txt文件拷贝到obj文件夹,一一对应, ...
- 用Python玩转统计数据:取样、计算相关性、拆分训练模型和测试
导读:本文会介绍一些技术,帮你更好地理解数据,以及探索特征之间的关系. 本文使用Python建立对数据的理解.我们会分析变量的分布,捋清特征之间的关系.最后,你会学习给样本分层,并将数据集拆分成测试集 ...
最新文章
- 【Web全栈课程5】jsonp简单使用
- PDMan-2.1.3 发布:用心开源,免费的国产数据库建模工具
- 微信竟然可以查出行轨迹了,预计又一波情侣要分手?
- 用promise封装ajax_vue实践---vue结合 promise 封装原生ajax
- Android启动initlogo.rle制作
- Windows Socket 编程_ 简单的服务器/客户端程序
- mysql memcached java_java缓存技术memcached实例
- 电商数据之战背后利益纠葛:触动最敏感神经
- w3wp对应进程_认识w3wp.exe进程,从根本上解决占用资源较大问题
- Cydia Substrate(iOS)
- 所用软件安装及环境配置
- Windows10系统下如何将chm文件转换成txt文件?
- Java-满天繁星案例(1)
- indexedDB整理
- 如何获取系统下目录的文件系统类型
- 深度解析CentOS通过日志反查***
- Google Earth Engine APP——UI地图加载一个高程显示标签并显示高程案例
- Excel快速删除一列中的空行
- visio绘制叠色图
- PHP 验证码 浅析