目录

说在前面的话

一、准备工作

1、硬件设备

2、工具

二、数据集训练

1、图片预处理

2、训练

三、测试


说在前面的话

小编要考研,所以博客可能更新较慢,希望大家理解。但是写博客要坚持,每个月最少四篇吧。这段时间会以考研为主,因为要涉及到毕业论文,所以很多博客是和我的毕业设计有关系。感谢每一个支持我,点击我博客观看的人,你们也是我坚持写博客的动力,我希望能把我知道的内容一起和大家分享,也希望大家能够和我一起交流。在计算机这条路上,我们一直在一起。

如果你有什么问题,希望跟我能够一起交流,除了通过博客交流外,欢迎你加入我的QQ群,一起交流有关于机器学习、深度学习、计算机视觉有关内容。目前我并未确定具体的研究方向,所以现在 处于广泛涉猎阶段,希望我们能够一起沟通。下图是我的群二维码:

还有今天是国庆节,7天小长假,祝福大家国庆节快乐,出去游玩的朋友注意自身安全,保管好自己财务,玩的开心。

下面我们回归主题,上一篇关于YOLO的博客是数据集的制作,这一次给大家讲的是数据集的训练。

这个时候要用到Python了,因为Python读写文件真的很方便,关于Python,如果大家不太熟悉,请看我的相关博客:Python系列。这一系列博客没有很详细的从入门开始一直讲到精通,个人认为,精通一门编程语言,了解其他语言的基本语法即可,剩下的,大多数都是相通的。工作用到什么的时候,多加使用就可以了,应该把更多的重心放在架构,算法,数据结构,编程思想等其他方面,而不是广泛精通好几门编程语言。当然这只是我个人观点,给大家作为参考。

一、准备工作

1、硬件设备

我们需要一台电脑,最好是台式机,尽量不要用笔记本,我跟同学在做一个姿态识别项目的时候,电脑烧了,真的是烧了,所以还是用一个台式机,当然,如果不方便,并且你是在学习,而不是真的在训练,用笔记本也是可以的。

除了笔记本与台式机之外,还有一个很重要,电脑的硬件配置,有没有一个NVIDIA的GPU,真的不是给它做广告,这个真的很重要,没有GPU和有GPU的训练速度差别真的是很大的。GPU使用NIVDIA的。因为我们要用到CUDA及CUDNN,AMD的显卡目前还没有找到能应用CUDA的方法。

所以最好的配置是台式机,必须要有一个NVIDIA的显卡。

2、工具

这次我们用到的工具主要有如下:

1.VS2015(C++)

需要配置OpenCV和CUDNN,CUDNN需要下载和你电脑CUDA对应版本的,这个需要上NVIDIA官网下载,输入电脑显卡型号,找到对应版本下载就好了。至于OpenCV,老朋友了,OpenCV安装及教程请点击:OpenCV安装教程。至于版本嘛,3.0.0 - 3.4.0 都可以。

相关的配置如下,注意下图的路径是我自己的路径,大家注意更换路径,所以就不给大家弄文字,直接图片给大家,方便大家看

VS2015配置

2.PyCharm(Python)

需要对文件进行操作,没有安装的点击:安装教程安装即可,需要查看相关理论基础请点击:Python系列。

3.训练所需文件

Darknet下载:链接。

darknet19_448.conv.23:该文件可以点击链接直接下载:

wget https://pjreddie.com/media/files/darknet19_448.conv.23

YOLO权重文件及配置文件:配置文件下载。

二、数据集训练

1、图片预处理

预处理就是在训练之前需要对标注好的数据做一定处理。因为数据量比较大,我们需要对文件进行批处理,靠手动可以实现,但是一年半载都过来处理这个数据,还不如好好享受人生,所以我们让代码帮助我们完成。

在这里我们要用到Python语言了,用到的是PyCharm,PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。功能比较强大。

其实用记事本打开也是可以的,但是作为拥有强迫症的我来说,我喜欢能代码换行能自动空位,能提示,能语法高亮。看着好区分一些。

1.整体代码

先把所有的代码给大家,代码里面有较为详细的注释,大家可以直接复制使用:

import xml.etree.ElementTree as ET    #给包xml.etree.ElementTree 定义一个 ET 别名  操作XML文件的包
import pickle                         #pickle 模块 将某个对象所对应位置的数据抓取下来,转换成文本流,然后将文本流存入到文件中。
import os                             #os 模块 提供了非常丰富的方法用来处理文件和目录。
from os import listdir, getcwd        #从os包中引入 listdir, getcwd 类
from os.path import join              #从 os包中的path类中引入 join 方法  sets=[('2018', 'VOC')]classes = ["zuoyuting"]               #训练的类别,只有一个“zuoyuting”#-----------------------函数定义开始------------------
def convert(size, box): #dw = 1./size[0]dh = 1./size[1]x = (box[0] + box[1])/2.0y = (box[2] + box[3])/2.0w = box[1] - box[0]h = box[3] - box[2]x = x*dww = w*dwy = y*dhh = h*dhreturn (x,y,w,h)def convert_annotation(year, image_id):in_file = open('Annotations/%s.xml'%(image_id), encoding='UTF-8')out_file = open('labels/%s.txt'%(image_id), 'w', encoding='UTF-8')"""‘w’打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。"""#从xml文件中获取图片标注的宽与高tree=ET.parse(in_file)root = tree.getroot()size = root.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in root.iter('object'):difficult = obj.find('difficult').textcls = obj.find('name').textif cls not in classes or int(difficult) == 1:continuecls_id = classes.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))bb = convert((w,h), b)out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')#-----------------------函数定义结束------------------wd = getcwd()    # os.getcwd() 方法用于返回当前工作目录。for year, image_set in sets:if not os.path.exists('labels/'):              os.makedirs('labels/')                     """# os.path.exists() 用于判断变量、文件等是否存在。 如果labels文件夹不存在,创建一个文件夹# os.makedirs() 方法用于递归创建目录。"""image_ids = open('ImageSets/Main/train.txt', encoding='UTF-8').read().strip().split()  #获取数字,以便取图片"""# read() 方法用于从文件读取指定的字节数,如果未给定或为负则读取所有。# strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。# split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则仅分隔 num 个子字符串"""list_file = open('%s.txt'%(image_set), 'w', encoding='UTF-8')for image_id in image_ids:list_file.write('%s/JPEGImages/%s.jpg\n'%(wd, image_id))convert_annotation(year, image_id)list_file.close()

如果没有学习过Python的话,看这段会比较困难,接下来我会简单分块讲解一下。如果大家能看懂这段可以跳过。

2.代码分段简介

首先是引入的一些包:

import xml.etree.ElementTree as ET    #给包xml.etree.ElementTree 定义一个 ET 别名  操作XML文件的包
import pickle                         #pickle 模块 将某个对象所对应位置的数据抓取下来,转换成文本流,然后将文本流存入到文件中。
import os                             #os 模块 提供了非常丰富的方法用来处理文件和目录。
from os import listdir, getcwd        #从os包中引入 listdir, getcwd 类
from os.path import join              #从 os包中的path类中引入 join 方法  

关于包的相关概念,大家可以点击查看:import介绍。

一般来说,包是在你写代码的时候逐步完善的,用到哪一个就写哪一个,在这里,为了方便大家理解,在最前面会给大家统一列出了。

sets=[('2018', 'VOC')]
classes = ["shuiyixin"]               #训练的类别,只有一个“shuiyixin”

这两个都是定义的数组,一个是为了方便一会调用文件,另一个是定义训练的类别,大家在图像标注的时候,用的是哪个就直接写哪个就行,当然大家可能训练多个类。用数组方式分别写好即可。在这里,小编就用“shuiyixin”代替啦。

然后就是定义两个函数,Python是没有括号的,区分包含关系用的是缩进的不同,所以Python和C++等其他编程语言是不同的,它是不能随便乱缩进的,好处就是可以让代码规范化,坏处就是,一旦写错一个缩进,就有可能导致出严重错误。代码写多了还不好排错。

#-----------------------函数定义开始------------------
def convert(size, box): #dw = 1./size[0]dh = 1./size[1]x = (box[0] + box[1])/2.0y = (box[2] + box[3])/2.0w = box[1] - box[0]h = box[3] - box[2]x = x*dww = w*dwy = y*dhh = h*dhreturn (x,y,w,h)def convert_annotation(year, image_id):in_file = open('Annotations/%s.xml'%(image_id), encoding='UTF-8')out_file = open('labels/%s.txt'%(image_id), 'w', encoding='UTF-8')"""‘w’打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。"""#从xml文件中获取图片标注的宽与高tree=ET.parse(in_file)root = tree.getroot()size = root.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in root.iter('object'):difficult = obj.find('difficult').textcls = obj.find('name').textif cls not in classes or int(difficult) == 1:continuecls_id = classes.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))bb = convert((w,h), b)out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')#-----------------------函数定义结束------------------

这一整体的代码是将图像标注的XML文件信息返回到图片上去,所以需要操作XML文件,将XML信息提取出来,这是第二个函数要做的工作,想要理解第一个函数,就需要打开一个XML文件来一探究竟了。大家主要看两个部分,一个是size,另一个是bndbox。

图像的尺寸,参数1调用这组数据

图像的四个顶点位置,参数2调用这组数据。

所以第一个函数就是处理XML文件的数据的,只有经过第一个函数处理以后的数据,才能最后转回到原图。

在下面就是主要部分了,上面定义的函数是为了让代码能够分块,可读性更强。下面就是将XML文件的信息保存到图片上。用到的相关API注释里面都有详细介绍。

for year, image_set in sets:if not os.path.exists('labels/'):              os.makedirs('labels/')                     """# os.path.exists() 用于判断变量、文件等是否存在。 如果labels文件夹不存在,创建一个文件夹# os.makedirs() 方法用于递归创建目录。"""image_ids = open('ImageSets/Main/train.txt', encoding='UTF-8').read().strip().split()  #获取数字,以便取图片"""# read() 方法用于从文件读取指定的字节数,如果未给定或为负则读取所有。# strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。# split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则仅分隔 num 个子字符串"""list_file = open('%s.txt'%(image_set), 'w', encoding='UTF-8')for image_id in image_ids:list_file.write('%s/JPEGImages/%s.jpg\n'%(wd, image_id))convert_annotation(year, image_id)list_file.close()

了解完上述代码以后就可以编译运行了,图片预处理完成。

2、训练

1.代码调用流程

首先说一下训练中代码调用流程,训练过程中,运行一个cmd文件,cmd文件中包括:

1.要运行的程序“Darknet.exe 或 Darknet_no_gpu.exe ”;

2.训练用的数据文件:voc.data。

3.YOLO用于训练的cfg文件;

4.darknet19_448.conv.23:darknet19_448.conv.23是使用 Imagenet 数据集进行预训练的卷积权重。(官网现在更新为:darknet53.conv.74。)

调用darknet.exe运行开始训练,训练需要的相关数据会从数据文件中获取,训练时候的相关配置与权重,分别是cfg文件和darknet19_448.conv.23。

相关文件的下载在前面提供链接,大家可以下载使用。下载完成后,有部分内容要做修改。

2.Darknet编译运行

Darknet有两个版本,一个是针对没有GPU的用户,一个是针对有NVIDIA显卡的用户。在前面配置完VS2015以后,找到darknet.sln 或者 Darknet_no_gpu.sln编译运行,注意一定要按照上面的配置配置变量,配置出错,编译会有各种各样错误。

3.数据文件修改

打开文件修改classes,训练了几个值,就是几。

train是要用来训练的文件,转向的是VOC.txt文件,文件中保存的是图片的存储位置,VOC.txt文件内容如下:

names是训练类别的名称,名称文件、VOC.txt 和数据文件在同一文件夹下。

backup存放的是训练好的权重文件,所以在这里backup是一个文件夹。

4.cfg配置文件配置

这个要注意,一方面,cfg文件有很多,选定一个,后续所有操作都用这一个。另一方面,cfg文件需要修改内容比较多,而且不要改错位置。

我选用的是 yolov2-tiny.cfg 。修改的内容是以下几个方面:

首先是将下面没有注释的Batch改为64,subdivisions修改为8。这个就在配置文件最上面。

然后到最下面,修改classes的值,训练了几个值,就是几。然后就是修改filters,按照下面的公式。

5.创建训练文件

新建一个命令脚本文件,命名为train_voc2018,后缀名为cmd。

右键-编辑,修改内容为如下内容:

darknet_no_gpu.exe detector train VOC2018/voc.data yolov2-tiny.cfg darknet19_448.conv.23
pause

保存,然后双击运行。等待它训练即可。然后就可以在backup文件夹下看到训练出来的数据集。我训练到6000时用了6.5小时。可想这个等待是真的等待。

不过我们可以让他先训练,我们再找一台电脑开始测试。相关内容请看 YOLO初体验。有详细的代码及原理介绍。

我们将其中的cfg文件和权重文件修改成我们训练用的cfg文件和自己训练好的权重文件(尽量选择文件名数大的,准确度更高)。

三、测试

测试图如下:(比较丑,不要介意)

闭眼可以识别

侧脸戴眼镜可以识别,但是置信度不高

怪异表情可以识别

高亮背景可以识别,但是置信度不足0.8

【YOLO学习笔记——数据集】之一YOLO数据集制作2相关推荐

  1. 深度学习笔记 —— 物体检测和数据集 + 锚框

    任务:识别我们所有感兴趣的物体,同时将每个物体的位置找出来 import torch from d2l import torch as d2l import matplotlib.pyplot as ...

  2. unity学习笔记2-卡牌游戏的制作

    unity学习笔记2 需求:制作卡牌游戏 第一步,建立card类,carddatabase类 card类删除自带的start和update方法,因为只是个对象类,负责装载对象即可 carddataba ...

  3. [学习笔记] PASCAL VOC 2012数据集讲解与制作自己的数据集

    1. PASCAL VOC 2012数据集介绍 1.1 引言 PASCAL VOC 挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛.PASCA ...

  4. 深度学习笔记:在小数据集上从头训练卷积神经网络

    目录 0. 前言 1. 数据下载和预处理¶ 2. 搭建一个小的卷积网络 3. 数据预处理 4. 模型训练¶ 5. 在测试集进行模型性能评估 6. 小结¶ 0. 前言 本文(以及接下来的几篇)介绍如何搭 ...

  5. caffe(ubuntu14.04)学习笔记1——运行MNIST数据集模型

    MNIST数据集简介: MNIST数据集是一个大型的手写体数据库,广泛用于机器学习领域的训练和测试,它是由纽约大学的Yann LeCun教授整理的,包括60000个训练样本和10000个测试样本,其图 ...

  6. spark学习笔记:弹性分布式数据集RDD(Resilient Distributed Dataset)

    弹性分布式数据集RDD 1. RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可 ...

  7. ArcMap学习笔记(七)地图制作

    地图制作 前言 统计图制作 专题图制作 版面设计 前言 使用软件:ArcMap10.4.1中文版 如果出现侵权,请在评论留言,我会及时删除,谢谢. 统计图制作 1.加载数据,如下图: 2.统计图主体制 ...

  8. DNN学习笔记 最简单的皮肤制作

    说明: 在学习DNN时,使用的版本为 DNN8.参考资料:http://www.dnnsoftware.com/docs/designers/creating-themes/index.html 制作 ...

  9. Unity学习笔记(7) Unity2D骨骼动画制作流程

    用骨骼动画最大的好处就是方便之后做换装系统. 无论对3Dor2D游戏都是这样的. 这篇博文记录一下2D骨骼动画的制作流程,参考b站麦扣的系列教程: https://space.bilibili.com ...

最新文章

  1. 智能网联汽车高精地图白皮书(2020)
  2. json 字符串传到action之后的处理,遍历. 练习代码片
  3. html中for标记,C#使用for循环移除HTML标记
  4. Azure 和 Linux
  5. TFS中的统一集成(九)
  6. iOS 两种方法实现左右滑动出现侧边菜单栏 slide view
  7. iOS:动画(18-10-15更)
  8. BZOJ2118[国家集训队] 墨墨的等式
  9. 计算机基础教程有access2010,Access2010数据库案例教程
  10. Ameya:蔡司激光共聚焦显微镜的优势特点及应用领域
  11. 磁珠 符号_贴片磁珠规格
  12. 后端面试(一)计算机网络相关
  13. 借力函数计算 FC,HEROZ 打造专业级 AI 日本将棋服务
  14. (vant新手坑)引入Vant组件并改变其样式
  15. Vue项目上线(阿里云centos7+nginx)
  16. linux嵌入式开发位置,RedHat 系列 Linux 安装后,建立嵌入式开发环境
  17. 寫一個智能聊天機器人
  18. c# sql数据库基本操作
  19. Materialise Magics 22.0软件的安装
  20. 云计算+区块链,企业数字化转型的混合强劲动力

热门文章

  1. 内部存储器分区 android,Android的存储器类型(RAM V内部存储器)
  2. 天才小毒妃 第973章 韩芸汐,救我
  3. 应用8255A控制LED小灯开闭(附代码注释)
  4. visual basic VB.NET实例系列教程第一节(简单实用抽奖程序)
  5. 大二女生已失踪22天 最后与其接触者上吊自杀
  6. CS5266替代AG9311设计TYPEC转HDMI带PD3.0音视频拓展坞方案
  7. 基于R语言SVD的图像压缩方法
  8. React项目报错:The slice reducer for key “xxx“ returned undefined during initialization.
  9. Web3域名,热潮还是泡沫?
  10. NOJ1055叙拉古猜想——水题