当我们在Github上下载一篇论文的代码后,我们如何在自己的数据集上进行复现呢?

准备自己的数据集

这是在百度爬的十分类的服装数据集,其中train文件夹下每类大概300张,val文件夹下每类大概100张,总共在4000张左右。

设置目录

我们将taming作为根目录,在taming下新建data-->myself,再在myself下新建两个子文件夹, train 和 val,即训练集和测试集。然后在 train 文件夹下新建十个文件夹down jacket,flare skirt,hoody,jeans,jump suit,jump suit,miniskirt,overall,sport pant,sweater和T-shirt。val下也是同样这十个文件夹。每个分类文件夹下大概100张图片,总共大约4000张,至此,我们准备好了原始的数据集。

生成 train.txt 和 val.txt 文件,即训练集和验证集列表清单

在根目录taming下新建examples,在examples下新建myself 文件夹,在myself下新建create_filelist.sh文件用于存放配置文件(可运行下面的代码也可自己手创建)。

cd ~/taming/
sudo mkdir examples/myself
# 在 taminge 根目录下进行操作,这是默认的,也是良好的习惯sudo gedit examples/myself/create_filelist.sh

目录

编辑 create_filelist.sh 脚本文件,输入以下内容:

DATA=/tmp/taming/data/myself
MY=/tmp/taming/examples/myself
#DATA是数据集路径,MY是sh脚本路径,也要改成你自己的,如果是按照我上面的步骤创建的文件夹,就不用修改。#这里将文件夹名称换成你们自己,注意观察数据集图片的后缀我的是.jpeg格式
echo "Create train.txt..."
rm -rf $DATA/train.txt
find $DATA/train/downjacket -name "*.jpeg" >>$MY/train.txt
find $DATA/train/flareskirt -name "*.jpeg" >>$MY/train.txt
find $DATA/train/hoody -name "*.jpeg" >>$MY/train.txt
find $DATA/train/jeans -name "*.jpeg" >>$MY/train.txt
find $DATA/train/jumpsuit -name "*.jpeg" >>$MY/train.txt
find $DATA/train/miniskirt -name "*.jpeg" >>$MY/train.txt
find $DATA/train/overall -name "*.jpeg" >>$MY/train.txt
find $DATA/train/sportpant -name "*.jpeg" >>$MY/train.txt
find $DATA/train/sweater -name "*.jpeg" >>$MY/train.txt
find $DATA/train/Tshirt -name "*.jpeg" >>$MY/train.txt
echo "All done"
#
#
#
#
#
echo "Create val.txt..."
rm -rf $DATA/val.txt
find $DATA/val/downjacket -name "*.jpeg" >>$MY/val.txt
find $DATA/val/flareskirt -name "*.jpeg" >>$MY/val.txt
find $DATA/val/hoody -name "*.jpeg" >>$MY/val.txt
find $DATA/val/jeans -name "*.jpeg" >>$MY/val.txt
find $DATA/val/jumpsuit -name "*.jpeg" >>$MY/val.txt
find $DATA/val/miniskirt -name "*.jpeg" >>$MY/val.txt
find $DATA/val/overall -name "*.jpeg" >>$MY/val.txt
find $DATA/val/sportpant -name "*.jpeg" >>$MY/val.txt
find $DATA/val/sweater -name "*.jpeg" >>$MY/val.txt
find $DATA/val/Tshirt -name "*.jpeg" >>$MY/val.txt
#这里一定要注意是双箭头>>,单箭头的话不会换行,只会执行一行的文件夹echo "All done"
#制作结束,all done

代码解释:

rm -rf $DATA/train.txt                   表示清除该路径下的train.txt文件
find $DATA/train/downjacket-name "*.jpeg"   此处为find指令的用法。查找此目录下所有的jpeg图片
$DATA/train/downjacket                 表示具体的图片路径
*.jpeg                               表示在该目录下得所有jpeg图片 $MY/train.txt        表示在/examples/myself/路径下产生train.txt,以上内容全部保存到此。

运行:

1.cd到create_filelist.sh的上级目录:

cd  /tmp/taming/examples/myself

2.运行create_filelist.sh:

执行./create_filelist.sh

这一步如果提示没有权限要先添加权限:chmod u+x create_filelist.sh,之后运行./create_filelist.sh

3.之后就会在/taming/examples/myself目录下(和create_filelist.sh同级)生成train.txt和val.txt文件:

train.txt内容为:

大约3012行,即十个文件夹都实现了遍历生成

然后就可以加载进我们的模型进行训练了......

【深度学习】数据集打标签:生成train.txt和val.txt相关推荐

  1. 深度学习数据集标注工具、图像语料数据库等资源

    NLP+VS︱深度学习数据集标注工具.图像语料数据库.实验室搜索ing... 2017年02月07日 12:12:01 阅读数:27032 ~~因为不太会使用opencv.matlab工具,所以在找一 ...

  2. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing..

    一.NLP标注工具 来源:<构想:中文文本标注工具(附开源文本标注工具列表)> Chinese-Annotator   来源:https://github.com/crownpku/Chi ...

  3. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing....

    from: https://blog.csdn.net/sinat_26917383/article/details/54908389 一.NLP标注工具 来源:<构想:中文文本标注工具(附开源 ...

  4. 【图像标注】NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing

    因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具.  .  . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...

  5. 深度学习数据集定义与加载

    深度学习数据集定义与加载 深度学习模型在训练时需要大量的数据来完成模型调优,这个过程均是数字的计算,无法直接使用原始图片和文本等来完成计算.因此与需要对原始的各种数据文件进行处理,转换成深度学习模型可 ...

  6. 制作VOC格式数据集的train.txt、val.txt文件

    一.前言 在以前的文章中已经聊过 VOC数据集的组织结构 和 VOC格式数据集转yolo(darknet)格式. 当我们按照组织结构将自己的图片和xml标注文件放在指定文件夹下之后,在转换时我们还需要 ...

  7. 深度学习(2)——生成对抗网络

    深度学习(2)--生成对抗网络 译文,如有错误请与笔者联系 摘要 本文提出一个通过对抗过程来预测生成模型的新框架,其中我们同时训练两个模型:一个用来捕捉数据分布的生成模型G和预测样本来自训练数据而不是 ...

  8. 深度学习数据集制作工作_创建我的第一个深度学习+数据科学工作站

    深度学习数据集制作工作 My Home Setup 我的家庭设置 Creating my workstation has been a dream for me, if nothing else. 创 ...

  9. 深度学习数据集的准备

    深度学习数据集的准备 下面介绍一个做了很久的项目,其中最简单的一部分是将该乳腺X线数据集进行有病没病的分类训练,说到训练最基本的就是数据集的准备,在这里先讲讲数据集怎么准备.下图是原始数据集的一部分. ...

最新文章

  1. Windows Server 2003 : 服务器群集
  2. docker连接容器外部的mysql
  3. 显示mac电脑中隐藏的文件和文件夹
  4. 解决Jenkins邮件配置问题
  5. python操作系统接口错误_Python os模块和sys模块 操作系统的各种接口
  6. YBTOJ:单词频率(AC自动机)
  7. airflow sql_alchemy_conn mysql_airflow使用mysql数据库,LocalExecutor并发调度
  8. 承担集团数万应用、研发人员日常工作,阿里持续交付平台的设计、迭代之道... 1
  9. HBM3内存子系统传输速率惊人,带宽突破1TB/S!
  10. reactnative 获取定位_[RN] React Native 获取地理位置
  11. C51单片机————中断系统
  12. Kali-linux:nmap命令
  13. 微分方程数值解法(1)——常微分方程初值问题的数值解法
  14. 如果们正预测基本面子
  15. Stimulsoft.Report的代码实现功能自学整理(一)
  16. [编译原理学习笔记2-2] 程序语言的语法描述
  17. java-Book类
  18. www.cqyc.com:8888 10118 - x天后星期几?
  19. php怎么判断qq内置浏览器,如何判断微信内置浏览器(JS PHP)
  20. opencv打卡49:开运算 cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)

热门文章

  1. 如何将QQ音乐SQ品质FLAC格式转换成MP3音乐 1
  2. 我编程20年的指导原则
  3. plot3D | 三维数据绘图(1):散点图、栅格图、透视图
  4. 无线传感器网络及其安全问题
  5. Module not found: Error: Can‘t resolve ‘util‘ in ‘F:\react(zsm)\myreact\src\pages\login‘
  6. Eclipse+CDT+GDB调试android NDK程序
  7. 多线程——线程实现、线程状态、线程同步、线程通信、线程池
  8. windows 10下安装kali linux 双系统教程
  9. Vue面试题100问
  10. history.pushState的实际使用笔记