说在前面的话

一、准备工作

1、硬件设备

2、工具

二、数据集训练

1、图片预处理

2、训练

三、测试

说在前面的话

小编要考研，所以博客可能更新较慢，希望大家理解。但是写博客要坚持，每个月最少四篇吧。这段时间会以考研为主，因为要涉及到毕业论文，所以很多博客是和我的毕业设计有关系。感谢每一个支持我，点击我博客观看的人，你们也是我坚持写博客的动力，我希望能把我知道的内容一起和大家分享，也希望大家能够和我一起交流。在计算机这条路上，我们一直在一起。

如果你有什么问题，希望跟我能够一起交流，除了通过博客交流外，欢迎你加入我的QQ群，一起交流有关于机器学习、深度学习、计算机视觉有关内容。目前我并未确定具体的研究方向，所以现在处于广泛涉猎阶段，希望我们能够一起沟通。下图是我的群二维码：

还有今天是国庆节，7天小长假，祝福大家国庆节快乐，出去游玩的朋友注意自身安全，保管好自己财务，玩的开心。

下面我们回归主题，上一篇关于YOLO的博客是数据集的制作，这一次给大家讲的是数据集的训练。

这个时候要用到Python了，因为Python读写文件真的很方便，关于Python，如果大家不太熟悉，请看我的相关博客：Python系列。这一系列博客没有很详细的从入门开始一直讲到精通，个人认为，精通一门编程语言，了解其他语言的基本语法即可，剩下的，大多数都是相通的。工作用到什么的时候，多加使用就可以了，应该把更多的重心放在架构，算法，数据结构，编程思想等其他方面，而不是广泛精通好几门编程语言。当然这只是我个人观点，给大家作为参考。

一、准备工作

1、硬件设备

我们需要一台电脑，最好是台式机，尽量不要用笔记本，我跟同学在做一个姿态识别项目的时候，电脑烧了，真的是烧了，所以还是用一个台式机，当然，如果不方便，并且你是在学习，而不是真的在训练，用笔记本也是可以的。

除了笔记本与台式机之外，还有一个很重要，电脑的硬件配置，有没有一个NVIDIA的GPU，真的不是给它做广告，这个真的很重要，没有GPU和有GPU的训练速度差别真的是很大的。GPU使用NIVDIA的。因为我们要用到CUDA及CUDNN，AMD的显卡目前还没有找到能应用CUDA的方法。

所以最好的配置是台式机，必须要有一个NVIDIA的显卡。

2、工具

这次我们用到的工具主要有如下：

1.VS2015（C++）

需要配置OpenCV和CUDNN，CUDNN需要下载和你电脑CUDA对应版本的，这个需要上NVIDIA官网下载，输入电脑显卡型号，找到对应版本下载就好了。至于OpenCV，老朋友了，OpenCV安装及教程请点击：OpenCV安装教程。至于版本嘛，3.0.0 - 3.4.0 都可以。

相关的配置如下，注意下图的路径是我自己的路径，大家注意更换路径，所以就不给大家弄文字，直接图片给大家，方便大家看

2.PyCharm（Python）

需要对文件进行操作，没有安装的点击：安装教程安装即可，需要查看相关理论基础请点击：Python系列。

3.训练所需文件

Darknet下载：链接。

darknet19_448.conv.23：该文件可以点击链接直接下载：

wget https://pjreddie.com/media/files/darknet19_448.conv.23

YOLO权重文件及配置文件：配置文件下载。

二、数据集训练

1、图片预处理

预处理就是在训练之前需要对标注好的数据做一定处理。因为数据量比较大，我们需要对文件进行批处理，靠手动可以实现，但是一年半载都过来处理这个数据，还不如好好享受人生，所以我们让代码帮助我们完成。

在这里我们要用到Python语言了，用到的是PyCharm，PyCharm是一种Python IDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。功能比较强大。

其实用记事本打开也是可以的，但是作为拥有强迫症的我来说，我喜欢能代码换行能自动空位，能提示，能语法高亮。看着好区分一些。

1.整体代码

先把所有的代码给大家，代码里面有较为详细的注释，大家可以直接复制使用：

import xml.etree.ElementTree as ET    #给包xml.etree.ElementTree 定义一个 ET 别名  操作XML文件的包
import pickle                         #pickle 模块 将某个对象所对应位置的数据抓取下来，转换成文本流，然后将文本流存入到文件中。
import os                             #os 模块 提供了非常丰富的方法用来处理文件和目录。
from os import listdir, getcwd        #从os包中引入 listdir, getcwd 类
from os.path import join              #从 os包中的path类中引入 join 方法  sets=[('2018', 'VOC')]classes = ["zuoyuting"]               #训练的类别，只有一个“zuoyuting”#-----------------------函数定义开始------------------
def convert(size, box): #dw = 1./size[0]dh = 1./size[1]x = (box[0] + box[1])/2.0y = (box[2] + box[3])/2.0w = box[1] - box[0]h = box[3] - box[2]x = x*dww = w*dwy = y*dhh = h*dhreturn (x,y,w,h)def convert_annotation(year, image_id):in_file = open('Annotations/%s.xml'%(image_id), encoding='UTF-8')out_file = open('labels/%s.txt'%(image_id), 'w', encoding='UTF-8')"""‘w’打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。"""#从xml文件中获取图片标注的宽与高tree=ET.parse(in_file)root = tree.getroot()size = root.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in root.iter('object'):difficult = obj.find('difficult').textcls = obj.find('name').textif cls not in classes or int(difficult) == 1:continuecls_id = classes.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))bb = convert((w,h), b)out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')#-----------------------函数定义结束------------------wd = getcwd()    # os.getcwd() 方法用于返回当前工作目录。for year, image_set in sets:if not os.path.exists('labels/'):              os.makedirs('labels/')                     """# os.path.exists() 用于判断变量、文件等是否存在。 如果labels文件夹不存在，创建一个文件夹# os.makedirs() 方法用于递归创建目录。"""image_ids = open('ImageSets/Main/train.txt', encoding='UTF-8').read().strip().split()  #获取数字，以便取图片"""# read() 方法用于从文件读取指定的字节数，如果未给定或为负则读取所有。# strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。# split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则仅分隔 num 个子字符串"""list_file = open('%s.txt'%(image_set), 'w', encoding='UTF-8')for image_id in image_ids:list_file.write('%s/JPEGImages/%s.jpg\n'%(wd, image_id))convert_annotation(year, image_id)list_file.close()

如果没有学习过Python的话，看这段会比较困难，接下来我会简单分块讲解一下。如果大家能看懂这段可以跳过。

2.代码分段简介

首先是引入的一些包：

import xml.etree.ElementTree as ET    #给包xml.etree.ElementTree 定义一个 ET 别名  操作XML文件的包
import pickle                         #pickle 模块 将某个对象所对应位置的数据抓取下来，转换成文本流，然后将文本流存入到文件中。
import os                             #os 模块 提供了非常丰富的方法用来处理文件和目录。
from os import listdir, getcwd        #从os包中引入 listdir, getcwd 类
from os.path import join              #从 os包中的path类中引入 join 方法

关于包的相关概念，大家可以点击查看：import介绍。

一般来说，包是在你写代码的时候逐步完善的，用到哪一个就写哪一个，在这里，为了方便大家理解，在最前面会给大家统一列出了。

sets=[('2018', 'VOC')]
classes = ["shuiyixin"]               #训练的类别，只有一个“shuiyixin”

这两个都是定义的数组，一个是为了方便一会调用文件，另一个是定义训练的类别，大家在图像标注的时候，用的是哪个就直接写哪个就行，当然大家可能训练多个类。用数组方式分别写好即可。在这里，小编就用“shuiyixin”代替啦。

然后就是定义两个函数，Python是没有括号的，区分包含关系用的是缩进的不同，所以Python和C++等其他编程语言是不同的，它是不能随便乱缩进的，好处就是可以让代码规范化，坏处就是，一旦写错一个缩进，就有可能导致出严重错误。代码写多了还不好排错。

#-----------------------函数定义开始------------------
def convert(size, box): #dw = 1./size[0]dh = 1./size[1]x = (box[0] + box[1])/2.0y = (box[2] + box[3])/2.0w = box[1] - box[0]h = box[3] - box[2]x = x*dww = w*dwy = y*dhh = h*dhreturn (x,y,w,h)def convert_annotation(year, image_id):in_file = open('Annotations/%s.xml'%(image_id), encoding='UTF-8')out_file = open('labels/%s.txt'%(image_id), 'w', encoding='UTF-8')"""‘w’打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。"""#从xml文件中获取图片标注的宽与高tree=ET.parse(in_file)root = tree.getroot()size = root.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in root.iter('object'):difficult = obj.find('difficult').textcls = obj.find('name').textif cls not in classes or int(difficult) == 1:continuecls_id = classes.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))bb = convert((w,h), b)out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')#-----------------------函数定义结束------------------

这一整体的代码是将图像标注的XML文件信息返回到图片上去，所以需要操作XML文件，将XML信息提取出来，这是第二个函数要做的工作，想要理解第一个函数，就需要打开一个XML文件来一探究竟了。大家主要看两个部分，一个是size，另一个是bndbox。

所以第一个函数就是处理XML文件的数据的，只有经过第一个函数处理以后的数据，才能最后转回到原图。

在下面就是主要部分了，上面定义的函数是为了让代码能够分块，可读性更强。下面就是将XML文件的信息保存到图片上。用到的相关API注释里面都有详细介绍。

for year, image_set in sets:if not os.path.exists('labels/'):              os.makedirs('labels/')                     """# os.path.exists() 用于判断变量、文件等是否存在。 如果labels文件夹不存在，创建一个文件夹# os.makedirs() 方法用于递归创建目录。"""image_ids = open('ImageSets/Main/train.txt', encoding='UTF-8').read().strip().split()  #获取数字，以便取图片"""# read() 方法用于从文件读取指定的字节数，如果未给定或为负则读取所有。# strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。# split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则仅分隔 num 个子字符串"""list_file = open('%s.txt'%(image_set), 'w', encoding='UTF-8')for image_id in image_ids:list_file.write('%s/JPEGImages/%s.jpg\n'%(wd, image_id))convert_annotation(year, image_id)list_file.close()

了解完上述代码以后就可以编译运行了，图片预处理完成。

2、训练

1.代码调用流程

首先说一下训练中代码调用流程，训练过程中，运行一个cmd文件，cmd文件中包括：

1.要运行的程序“Darknet.exe 或 Darknet_no_gpu.exe ”；

2.训练用的数据文件：voc.data。

3.YOLO用于训练的cfg文件；

4.darknet19_448.conv.23：darknet19_448.conv.23是使用 Imagenet 数据集进行预训练的卷积权重。（官网现在更新为：darknet53.conv.74。）

调用darknet.exe运行开始训练，训练需要的相关数据会从数据文件中获取，训练时候的相关配置与权重，分别是cfg文件和darknet19_448.conv.23。

相关文件的下载在前面提供链接，大家可以下载使用。下载完成后，有部分内容要做修改。

2.Darknet编译运行

Darknet有两个版本，一个是针对没有GPU的用户，一个是针对有NVIDIA显卡的用户。在前面配置完VS2015以后，找到darknet.sln 或者 Darknet_no_gpu.sln编译运行，注意一定要按照上面的配置配置变量，配置出错，编译会有各种各样错误。

3.数据文件修改

打开文件修改classes，训练了几个值，就是几。

train是要用来训练的文件，转向的是VOC.txt文件，文件中保存的是图片的存储位置，VOC.txt文件内容如下：

names是训练类别的名称，名称文件、VOC.txt 和数据文件在同一文件夹下。

backup存放的是训练好的权重文件，所以在这里backup是一个文件夹。

4.cfg配置文件配置

这个要注意，一方面，cfg文件有很多，选定一个，后续所有操作都用这一个。另一方面，cfg文件需要修改内容比较多，而且不要改错位置。

我选用的是 yolov2-tiny.cfg 。修改的内容是以下几个方面：

首先是将下面没有注释的Batch改为64，subdivisions修改为8。这个就在配置文件最上面。

然后到最下面，修改classes的值，训练了几个值，就是几。然后就是修改filters，按照下面的公式。

5.创建训练文件

新建一个命令脚本文件，命名为train_voc2018，后缀名为cmd。

右键-编辑，修改内容为如下内容：

darknet_no_gpu.exe detector train VOC2018/voc.data yolov2-tiny.cfg darknet19_448.conv.23
pause

保存，然后双击运行。等待它训练即可。然后就可以在backup文件夹下看到训练出来的数据集。我训练到6000时用了6.5小时。可想这个等待是真的等待。

不过我们可以让他先训练，我们再找一台电脑开始测试。相关内容请看 YOLO初体验。有详细的代码及原理介绍。

我们将其中的cfg文件和权重文件修改成我们训练用的cfg文件和自己训练好的权重文件（尽量选择文件名数大的，准确度更高）。

三、测试

测试图如下：（比较丑，不要介意）

【YOLO学习笔记——数据集】之一YOLO数据集制作2相关推荐

深度学习笔记 —— 物体检测和数据集 + 锚框
任务:识别我们所有感兴趣的物体,同时将每个物体的位置找出来 import torch from d2l import torch as d2l import matplotlib.pyplot as ...
unity学习笔记2-卡牌游戏的制作
unity学习笔记2 需求:制作卡牌游戏第一步,建立card类,carddatabase类 card类删除自带的start和update方法,因为只是个对象类,负责装载对象即可 carddataba ...
[学习笔记] PASCAL VOC 2012数据集讲解与制作自己的数据集
1. PASCAL VOC 2012数据集介绍 1.1 引言 PASCAL VOC 挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛.PASCA ...
深度学习笔记：在小数据集上从头训练卷积神经网络
目录 0. 前言 1. 数据下载和预处理¶ 2. 搭建一个小的卷积网络 3. 数据预处理 4. 模型训练¶ 5. 在测试集进行模型性能评估 6. 小结¶ 0. 前言本文(以及接下来的几篇)介绍如何搭 ...
caffe（ubuntu14.04）学习笔记1——运行MNIST数据集模型
MNIST数据集简介: MNIST数据集是一个大型的手写体数据库,广泛用于机器学习领域的训练和测试,它是由纽约大学的Yann LeCun教授整理的,包括60000个训练样本和10000个测试样本,其图 ...
spark学习笔记：弹性分布式数据集RDD(Resilient Distributed Dataset)
弹性分布式数据集RDD 1. RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可 ...
ArcMap学习笔记（七）地图制作
地图制作前言统计图制作专题图制作版面设计前言使用软件:ArcMap10.4.1中文版如果出现侵权,请在评论留言,我会及时删除,谢谢. 统计图制作 1.加载数据,如下图: 2.统计图主体制 ...
DNN学习笔记最简单的皮肤制作
说明: 在学习DNN时,使用的版本为 DNN8.参考资料:http://www.dnnsoftware.com/docs/designers/creating-themes/index.html 制作 ...
Unity学习笔记(7) Unity2D骨骼动画制作流程
用骨骼动画最大的好处就是方便之后做换装系统. 无论对3Dor2D游戏都是这样的. 这篇博文记录一下2D骨骼动画的制作流程,参考b站麦扣的系列教程: https://space.bilibili.com ...

【YOLO学习笔记——数据集】之一YOLO数据集制作2

说在前面的话

一、准备工作

1、硬件设备

2、工具

1.VS2015（C++）

2.PyCharm（Python）

3.训练所需文件

二、数据集训练

1、图片预处理

1.整体代码

2.代码分段简介

2、训练

1.代码调用流程

2.Darknet编译运行

3.数据文件修改

4.cfg配置文件配置

5.创建训练文件

三、测试

【YOLO学习笔记——数据集】之一YOLO数据集制作2相关推荐

最新文章

热门文章