VOC2007/2012数据集解析

官方下载地址： https://pjreddie.com/projects/pascal-voc-dataset-mirror/

PASCAL VOC的挑战任务

Classification/Detection Competitions
分类：对于每一个分类，判断该分类是否在测试照片上存在（共20类）;
检测：检测目标对象在待测试图片中的位置并给出边界框坐标（bounding box)
Segmentation Competition
分割：Object Segmentation
Action Classification Competition
人体动作识别（Action Classification)
ImageNet Large Scale Visual Recognition Competition
ImageNet大型视觉识别大赛
Person Layout Taster Competition
人体布局（Human Layout)

VOC2007基本信息

训练集（5011幅），测试集（4952幅），共计9963幅图，共包含20个种类：

aeroplane
bicycle
bird
boat
bottle
bus
car
cat
chair
cow
diningtable
dog
horse
motorbike
person
pottedplant
sheep
sofa
train
tvmonitor

下载

下载训练和验证集、测试集、工具包：

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar
wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCdevkit_08-Jun-2007.tar

将所有tar解压到一个名为VOCdevkit的目录中

tar xvf VOCtrainval_06-Nov-2007.tar
tar xvf VOCtest_06-Nov-2007.tar
tar xvf VOCdevkit_08-Jun-2007.tar

基本结构如下

└── VOCdevkit     #根目录└── VOC2007   #不同年份的数据集，这里只下载了2007├── Annotations  #存放xml文件，与JPEGImages中的图片一一对应，解释图片的内容等等├── ImageSets    #该目录下存放的都是txt文件，这些txt将数据集的图片分成了各种集合。如Main下的train.txt中记录的是用于训练的图片集合│   ├── Layout│   ├── Main│   └── Segmentation├── JPEGImages         #存放源图片├── SegmentationClass  #存放的是图片，语义分割相关└── SegmentationObject #存放的是图片，实例分割相关

Annotation文件夹
这个文件夹放置的是对每一张图片的标注。标注使用XML文件的格式。XML是标记语言，形如HTML。每一个XML文件对应一张图片的标注结果，000005.jpg对应的XML文件(000005.xml)标记结果如下：

<annotation><folder>VOC2007</folder><!--文件名--><filename>000005.jpg</filename>.   <!--数据来源--><source><!--数据来源--><database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><!--来源是flickr，一个雅虎的图像分享网站，下面是id，对于我们没有用--><image>flickr</image><flickrid>325991873</flickrid></source><!--图片的所有者，也没有用--><owner><flickrid>archintent louisville</flickrid><name>?</name></owner><!--图像尺寸,宽、高、长--><size><width>500</width><height>375</height><depth>3</depth></size><!--是否用于分割，0表示用于，1表示不用于--><segmented>0</segmented><!--下面是图像中标注的物体,每一个object包含一个标准的物体--><object><!--物体名称，拍摄角度--><name>chair</name><pose>Rear</pose><!--是否被裁减，0表示完整，1表示不完整--><truncated>0</truncated><!--是否容易识别，0表示容易，1表示困难--><difficult>0</difficult><!--bounding box的四个坐标--><bndbox><xmin>263</xmin><ymin>211</ymin><xmax>324</xmax><ymax>339</ymax></bndbox></object><object><name>chair</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>165</xmin><ymin>264</ymin><xmax>253</xmax><ymax>372</ymax></bndbox></object><object><name>chair</name><pose>Unspecified</pose><truncated>1</truncated><difficult>1</difficult><bndbox><xmin>5</xmin><ymin>244</ymin><xmax>67</xmax><ymax>374</ymax></bndbox></object><object><name>chair</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>241</xmin><ymin>194</ymin><xmax>295</xmax><ymax>299</ymax></bndbox></object><object><name>chair</name><pose>Unspecified</pose><truncated>1</truncated><difficult>1</difficult><bndbox><xmin>277</xmin><ymin>186</ymin><xmax>312</xmax><ymax>220</ymax></bndbox></object>
</annotation>

ImageSets文件夹
存放的是每一种类型的challenge对应的图像数据。例如在Main文件夹下有名为aeroplane_train.txt的文件，顾名思义是用于飞机类别的训练数据，其中±1应该表示的是正负样本的含义。

VOC2012基本信息

VOC2012数据集是VOC2007数据集的升级版，一共有11530张图片。

对于检测任务，VOC2012的trainval/test包含08-11年的所有对应图片。trainval有11540张图片共27450个物体。
对于分割任务， VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有2913张图片共6929个物体。

VOC2012数据集分为20类，包括背景为21类，分别如下：

Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

下载再解压

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

在VOCdevkit/VOC2012下有5个文件夹，内容和07大致一样。

Annotations
Annotations文件夹中存放的是xml格式的标签文件，每一个xml文件都对应于JPEGImages文件夹中的一张图片，共计17125个文件。举例：

<annotation><folder>VOC2012</folder>  #表明图片来源<filename>2007_000027.jpg</filename> #图片名称<source>                  #图片来源相关信息<database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size>     #图像尺寸<width>486</width><height>500</height><depth>3</depth></size><segmented>0</segmented> #是否用于分割<object>  #包含的物体<name>person</name> #物体类别<pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox>  #物体的bbox<xmin>174</xmin><ymin>101</ymin><xmax>349</xmax><ymax>351</ymax></bndbox><part> #物体的头<name>head</name><bndbox><xmin>169</xmin><ymin>104</ymin><xmax>209</xmax><ymax>146</ymax></bndbox></part><part>   #物体的手<name>hand</name><bndbox><xmin>278</xmin><ymin>210</ymin><xmax>297</xmax><ymax>233</ymax></bndbox></part><part><name>foot</name><bndbox><xmin>273</xmin><ymin>333</ymin><xmax>297</xmax><ymax>354</ymax></bndbox></part><part><name>foot</name><bndbox><xmin>319</xmin><ymin>307</ymin><xmax>340</xmax><ymax>326</ymax></bndbox></part></object>
</annotation>

ImageSets
ImageSets 中有四个文件夹

Action下存放的是人的动作（例如running、jumping等等，这也是VOC challenge的一部分）

Layout下存放的是具有人体部位的数据（人的head、hand、feet等等，这也是VOC challenge的一部分）

Main下存放的是图像物体识别的数据，总共分为20类。

Segmentation下存放的是可用于分割的数据