【深度学习】数据集打标签:生成train.txt和val.txt
当我们在Github上下载一篇论文的代码后,我们如何在自己的数据集上进行复现呢?
准备自己的数据集
这是在百度爬的十分类的服装数据集,其中train文件夹下每类大概300张,val文件夹下每类大概100张,总共在4000张左右。
设置目录
我们将taming作为根目录,在taming下新建data-->myself,再在myself下新建两个子文件夹, train 和 val,即训练集和测试集。然后在 train 文件夹下新建十个文件夹down jacket,flare skirt,hoody,jeans,jump suit,jump suit,miniskirt,overall,sport pant,sweater和T-shirt。val下也是同样这十个文件夹。每个分类文件夹下大概100张图片,总共大约4000张,至此,我们准备好了原始的数据集。
生成 train.txt 和 val.txt 文件,即训练集和验证集列表清单
在根目录taming下新建examples,在examples下新建myself 文件夹,在myself下新建create_filelist.sh文件用于存放配置文件(可运行下面的代码也可自己手创建)。
cd ~/taming/
sudo mkdir examples/myself
# 在 taminge 根目录下进行操作,这是默认的,也是良好的习惯sudo gedit examples/myself/create_filelist.sh
目录
编辑 create_filelist.sh 脚本文件,输入以下内容:
DATA=/tmp/taming/data/myself
MY=/tmp/taming/examples/myself
#DATA是数据集路径,MY是sh脚本路径,也要改成你自己的,如果是按照我上面的步骤创建的文件夹,就不用修改。#这里将文件夹名称换成你们自己,注意观察数据集图片的后缀我的是.jpeg格式
echo "Create train.txt..."
rm -rf $DATA/train.txt
find $DATA/train/downjacket -name "*.jpeg" >>$MY/train.txt
find $DATA/train/flareskirt -name "*.jpeg" >>$MY/train.txt
find $DATA/train/hoody -name "*.jpeg" >>$MY/train.txt
find $DATA/train/jeans -name "*.jpeg" >>$MY/train.txt
find $DATA/train/jumpsuit -name "*.jpeg" >>$MY/train.txt
find $DATA/train/miniskirt -name "*.jpeg" >>$MY/train.txt
find $DATA/train/overall -name "*.jpeg" >>$MY/train.txt
find $DATA/train/sportpant -name "*.jpeg" >>$MY/train.txt
find $DATA/train/sweater -name "*.jpeg" >>$MY/train.txt
find $DATA/train/Tshirt -name "*.jpeg" >>$MY/train.txt
echo "All done"
#
#
#
#
#
echo "Create val.txt..."
rm -rf $DATA/val.txt
find $DATA/val/downjacket -name "*.jpeg" >>$MY/val.txt
find $DATA/val/flareskirt -name "*.jpeg" >>$MY/val.txt
find $DATA/val/hoody -name "*.jpeg" >>$MY/val.txt
find $DATA/val/jeans -name "*.jpeg" >>$MY/val.txt
find $DATA/val/jumpsuit -name "*.jpeg" >>$MY/val.txt
find $DATA/val/miniskirt -name "*.jpeg" >>$MY/val.txt
find $DATA/val/overall -name "*.jpeg" >>$MY/val.txt
find $DATA/val/sportpant -name "*.jpeg" >>$MY/val.txt
find $DATA/val/sweater -name "*.jpeg" >>$MY/val.txt
find $DATA/val/Tshirt -name "*.jpeg" >>$MY/val.txt
#这里一定要注意是双箭头>>,单箭头的话不会换行,只会执行一行的文件夹echo "All done"
#制作结束,all done
代码解释:
rm -rf $DATA/train.txt 表示清除该路径下的train.txt文件
find $DATA/train/downjacket-name "*.jpeg" 此处为find指令的用法。查找此目录下所有的jpeg图片
$DATA/train/downjacket 表示具体的图片路径
*.jpeg 表示在该目录下得所有jpeg图片 $MY/train.txt 表示在/examples/myself/路径下产生train.txt,以上内容全部保存到此。
运行:
1.cd到create_filelist.sh的上级目录:
cd /tmp/taming/examples/myself
2.运行create_filelist.sh:
执行./create_filelist.sh
这一步如果提示没有权限要先添加权限:chmod u+x create_filelist.sh,之后运行./create_filelist.sh
3.之后就会在/taming/examples/myself目录下(和create_filelist.sh同级)生成train.txt和val.txt文件:
train.txt内容为:
大约3012行,即十个文件夹都实现了遍历生成
然后就可以加载进我们的模型进行训练了......
【深度学习】数据集打标签:生成train.txt和val.txt相关推荐
- 深度学习数据集标注工具、图像语料数据库等资源
NLP+VS︱深度学习数据集标注工具.图像语料数据库.实验室搜索ing... 2017年02月07日 12:12:01 阅读数:27032 ~~因为不太会使用opencv.matlab工具,所以在找一 ...
- NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing..
一.NLP标注工具 来源:<构想:中文文本标注工具(附开源文本标注工具列表)> Chinese-Annotator 来源:https://github.com/crownpku/Chi ...
- NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing....
from: https://blog.csdn.net/sinat_26917383/article/details/54908389 一.NLP标注工具 来源:<构想:中文文本标注工具(附开源 ...
- 【图像标注】NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing
因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...
- 深度学习数据集定义与加载
深度学习数据集定义与加载 深度学习模型在训练时需要大量的数据来完成模型调优,这个过程均是数字的计算,无法直接使用原始图片和文本等来完成计算.因此与需要对原始的各种数据文件进行处理,转换成深度学习模型可 ...
- 制作VOC格式数据集的train.txt、val.txt文件
一.前言 在以前的文章中已经聊过 VOC数据集的组织结构 和 VOC格式数据集转yolo(darknet)格式. 当我们按照组织结构将自己的图片和xml标注文件放在指定文件夹下之后,在转换时我们还需要 ...
- 深度学习(2)——生成对抗网络
深度学习(2)--生成对抗网络 译文,如有错误请与笔者联系 摘要 本文提出一个通过对抗过程来预测生成模型的新框架,其中我们同时训练两个模型:一个用来捕捉数据分布的生成模型G和预测样本来自训练数据而不是 ...
- 深度学习数据集制作工作_创建我的第一个深度学习+数据科学工作站
深度学习数据集制作工作 My Home Setup 我的家庭设置 Creating my workstation has been a dream for me, if nothing else. 创 ...
- 深度学习数据集的准备
深度学习数据集的准备 下面介绍一个做了很久的项目,其中最简单的一部分是将该乳腺X线数据集进行有病没病的分类训练,说到训练最基本的就是数据集的准备,在这里先讲讲数据集怎么准备.下图是原始数据集的一部分. ...
最新文章
- Windows Server 2003 : 服务器群集
- docker连接容器外部的mysql
- 显示mac电脑中隐藏的文件和文件夹
- 解决Jenkins邮件配置问题
- python操作系统接口错误_Python os模块和sys模块 操作系统的各种接口
- YBTOJ:单词频率(AC自动机)
- airflow sql_alchemy_conn mysql_airflow使用mysql数据库,LocalExecutor并发调度
- 承担集团数万应用、研发人员日常工作,阿里持续交付平台的设计、迭代之道... 1
- HBM3内存子系统传输速率惊人,带宽突破1TB/S!
- reactnative 获取定位_[RN] React Native 获取地理位置
- C51单片机————中断系统
- Kali-linux:nmap命令
- 微分方程数值解法(1)——常微分方程初值问题的数值解法
- 如果们正预测基本面子
- Stimulsoft.Report的代码实现功能自学整理(一)
- [编译原理学习笔记2-2] 程序语言的语法描述
- java-Book类
- www.cqyc.com:8888 10118 - x天后星期几?
- php怎么判断qq内置浏览器,如何判断微信内置浏览器(JS PHP)
- opencv打卡49:开运算 cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)
热门文章
- 如何将QQ音乐SQ品质FLAC格式转换成MP3音乐 1
- 我编程20年的指导原则
- plot3D | 三维数据绘图(1):散点图、栅格图、透视图
- 无线传感器网络及其安全问题
- Module not found: Error: Can‘t resolve ‘util‘ in ‘F:\react(zsm)\myreact\src\pages\login‘
- Eclipse+CDT+GDB调试android NDK程序
- 多线程——线程实现、线程状态、线程同步、线程通信、线程池
- windows 10下安装kali linux 双系统教程
- Vue面试题100问
- history.pushState的实际使用笔记