（二）open image dataset v5 数据集解析

Subset with Bounding Boxes (600 classes), Object Segmentations, and Visual Relationships（包含边界框(600个类)、对象分割和可视关系的子集）

这些注释文件涵盖了600个box - able对象类，并覆盖了1,743,042个训练图像，其中我们注释了边界框、对象分割和视觉关系，以及完整的验证(41,620个图像)和测试(125,436个图像)集。

下载像素有问题吗?让我们知道。

警告:图8中的网站目前托管V4数据。但是，这个子集中的174万张图像在V5中没有变化，所以您可以从图8安全地下载它们。

Subset with Image-Level Labels (19,959 classes) 带有图像级标签的子集(19,959个类)

这些注释文件覆盖所有对象类。在训练集中，人类验证的标签跨度为6,287,678张，而机器生成的标签跨度为8,949,445张。
下面的图像 IDs 列出了所有具有人类验证标签的图像。
注释文件跨越了完整的验证(41620幅图像)和测试(125436幅图像)集。

Complete Open Images 完整的开放图片

完整的9178275张图片。

Open Images Extended

Data Formats

Bounding boxes

每一行定义一个边界框。

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside
0001eeaf4aed83f9,xclick,/m/0cmf2,1,0.022673031,0.9642005,0.07103825,0.80054647,0,0,0,0,0
000595fe6fee6369,xclick,/m/02xwb,1,0.45655376,0.6097202,0.20399113,0.50554323,0,0,1,0,0
00075905539074f2,xclick,/m/04yx4,1,0.020477816,0.32935154,0.0956023,0.665392,0,0,0,1,0
000a1249af2bc5f0,xclick,/m/09j2d,1,0.56911767,0.99852943,0.0022172949,0.93569845,1,1,0,0,0
...

ImageID：这个框所在的图像。

Source：指示框是如何制作的:

xclick 是使用[1]中提供的方法手工绘制的框。
activemil 是使用增强版的方法[2]生成的框。这些是人类被证实是准确的IoU>0.7。

LabelName：此框所属对象类的 MID。

Confidence：一个虚值，总是1。

XMin, XMax, YMin, YMax：框的坐标，归一化图像坐标。XMin在[0,1]中，其中0是图像中最左边的像素，1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。

属性的定义如下:

IsOccluded：表示该对象被图像中的另一个对象遮挡。

IsTruncated：表示对象超出图像的边界。

IsGroupOf：表示框跨越一组对象(例如，花床或一群人)。我们要求注释器在超过5个实例的情况下使用此标记，这些实例彼此严重遮挡，并且具有物理上的接触。

isdescription：表示对象是一个描述(例如，对象的卡通或绘图，而不是真实的物理实例)。

IsInside：指从物体内部(如汽车内部或建筑物内部)拍摄的照片。

对于它们中的每一个，值1表示存在，0表示不存在，-1表示未知。

Instance segmentation masks

掩码信息存储在两个文件中:

单个掩码图像，在文件名中编码信息。
带有附加信息的逗号分隔值(CSV)文件(masks_data.csv)。

掩码图像是PNG二进制图像，其中非零像素属于一个对象实例，零像素是背景。文件名如下(随机5个例子)

e88da03f2d80f1a1_m019jd_e16d01b9.png
540c5536e95a3282_m014j1m_b00fa52e.png
1c84bdd61fa3b883_m06m11_62ef2388.png
663389d2c9d562d8_m04_sv_7e23f2a5.png
072b8fd82919ab3e_m06mf6_dd70f221.png

zip归档名称的格式如下：每个 <subset>_<suffix>.zip 包含所有ImageID的第一个字符为 <suffix>的图像的所有掩码。
<suffix>的值从0-9和a-f开始。
masks_data.csv中的每一行描述一个实例，使用类似的约定作为框的CSV数据文件。

MaskPath,ImageID,LabelName,BoxID,BoxXMin,BoxXMax,BoxYMin,BoxYMax,PredictedIoU,Clicks
25adb319ebc72921_m02mqfb_8423aba8.png,25adb319ebc72921,/m/02mqfb,8423aba8,0.000000,0.998438,0.089062,0.770312,0.62821,0.15808 0.26206 1;0.90333 0.41076 0;0.17578 0.66566 1;0.00761 0.23197 1;0.07918 0.26058 0;0.31792 0.47737 1;0.12858 0.59262 0;0.73229 0.34016 1;0.01865 0.20001 1;0.52214 0.31037 0;0.83596 0.28105 1;0.23418 0.60177 0
0a419be97dec2fa3_m02mqfb_8ad2c442.png,0a419be97dec2fa3,/m/02mqfb,8ad2c442,0.057813,0.943750,0.056250,0.960938,0.87836,0.89971 0.08481 1;0.20175 0.90471 0;0.11511 0.89990 0;0.94728 0.28410 0;0.19611 0.85369 0;0.07672 0.87857 1;0.82215 0.62642 0;0.13916 0.92650 1;0.51738 0.48419 1
8eef6e54789ce66d_m02mqfb_83dae39c.png,8eef6e54789ce66d,/m/02mqfb,83dae39c,0.037500,0.978750,0.129688,0.925000,0.70206,0.40219 0.16838 1;0.56758 0.65286 1;0.08311 0.90762 1;0.20840 0.56515 1;0.43336 0.23679 0;0.24689 0.43426 0;0.49292 0.65762 1;0.31383 0.51431 0;0.07137 0.86214 0;0.68160 0.38210 1;0.69462 0.59568 0
...

MaskPath：对应掩码图像的名称。

ImageID：这个掩码所在的图像。

LabelName:这个掩码所属的对象类的MID。

BoxID：图像中框的标识符。

BoxXMin, BoxXMax, BoxYMin, BoxYMax：链接到掩码的框的坐标，在归一化的图像坐标中。注意，这不是掩码的边界框，而是用于注释掩码的起始框。这些坐标可用于将掩码数据与框数据关联起来。

PredictedIoU：如果存在，表示相对于ground-truth的预测IoU值。此质量评估是基于人工注释器行为由机器生成的。详见[3]。

click：如果存在，表示人工注释器单击，它在我们执行的注释过程中提供了指导(详细信息请参阅[3])。该字段采用以下格式编码:X1 Y1 T1;X2 Y2 T2;X3 Y3 T3;Xi Yi是归一化图像坐标中点击的坐标。Ti是单击类型，值0表示注释器将该点标记为背景，值1表示对象实例的一部分(前景)。这些点击对于交互式分割领域的研究人员来说是很有趣的。对于只对最终蒙版感兴趣的用户，它们不是必需的。

Visual relationships

文件中的每一行对应一个注释。

ImageID,LabelName1,LabelName2,XMin1,XMax1,YMin1,YMax1,XMin2,XMax2,YMin2,YMax2,RelationLabel
0009fde62ded08a6,/m/0342h,/m/01d380,0.2682927,0.78549093,0.4977778,0.8288889,0.2682927,0.78549093,0.4977778,0.8288889,is
00198353ef684011,/m/01mzpv,/m/04bcr3,0.23779725,0.30162704,0.6500938,0.7335835,0,0.5819775,0.6482176,0.99906194,at
001e341dd7456c72,/m/04yx4,/m/01mzpv,0.07009346,0.2859813,0.2332708,0.5203252,0.14018692,0.31588784,0.32082552,0.48405254,on
001e341dd7456c72,/m/04yx4,/m/01mzpv,0,0.28317758,0.26454034,0.5540963,0.2224299,0.3411215,0.3908693,0.4859287,on
001e341dd7456c72,/m/01599,/m/04bcr3,0.5551402,0.6084112,0.50343966,0.5490932,0.5411215,0.95981306,0.5090682,0.78361475,on
001e341dd7456c72,/m/04bcr3,/m/01d380,0.7392523,0.9990654,0.3889931,0.518449,0.7392523,0.9990654,0.3889931,0.518449,is
...

ImageID：这个关系实例所在的映像。

LabelName1：关系三元组中第一个对象的标签。

XMin1,XMax1,YMin1,YMax1：第一个对象的包围框的规范化包围框坐标。

LabelName2：关系三元组或属性中的第二个对象的标签。

XMin2, XMax2, YMin2, YMax2：如果是一对对象之间的关系:第二个对象的边界框的规范化边界框坐标。对于对象-属性关系(RelationLabel="is"):第一个对象的规范化边界框(重复)。在本例中，LabelName2是一个属性。

RelationLabel:关系的标签(属性为“is”)。

Image Labels

人工验证和机器生成的图像级标签:

ImageID,Source,LabelName,Confidence
000026e7ee790996,verification,/m/04hgtk,0
000026e7ee790996,verification,/m/07j7r,1
000026e7ee790996,crowdsource-verification,/m/01bqvp,1
000026e7ee790996,crowdsource-verification,/m/0csby,1
000026e7ee790996,verification,/m/01_m7,0
000026e7ee790996,verification,/m/01cbzq,1
000026e7ee790996,verification,/m/01czv3,0
000026e7ee790996,verification,/m/01v4jb,0
000026e7ee790996,verification,/m/03d1rd,0
...

Source:指示如何创建注释:

verification 是由谷歌的内部注释器验证的标签。
crowdsource-verification 是指通过众包app验证标签。
machine 是机器生成的标签。

Confidence:在图像中出现的经过人类验证的标签置信度= 1(正面标签)。经过人为验证的标签在图像中不存在时，置信度为0(负标签)。机器生成的标签具有部分置信度，通常>= 0.5。信心越高，被贴上假阳性标签的可能性就越小。

Class Names

MID格式的类名可以通过查看class description.csv转换为它们的简短描述：

...
/m/0pc9,Alphorn
/m/0pckp,Robin
/m/0pcm_,Larch
/m/0pcq81q,Soccer player
/m/0pcr,Alpaca
/m/0pcvyk2,Nem
/m/0pd7,Army
/m/0pdnd2t,Bengal clockvine
/m/0pdnpc9,Bushwacker
/m/0pdnsdx,Enduro
/m/0pdnymj,Gekkonidae
...

注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:

/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb's quarters
/m/03hgsf0,"Lemon, lime and bitters"

Image IDs

它有图像url、它们的OpenImages id、旋转信息、标题、作者和许可信息:

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,
OriginalSize,OriginalMD5,Thumbnail300KURL,Rotation
...
000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\
https://www.flickr.com/photos/brokentaco/5215831864,\
https://creativecommons.org/licenses/by/2.0/,\
"https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\
211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg,0
...

每个图片都分配了一个惟一的64位ID。在CSV文件中，它们以零填充的十六进制整数的形式出现，比如000060e3121c7305。

数据与目标网站上显示的一样。

OriginalSize 是原始图像的下载大小。
OriginalMD5 是base64编码的二进制MD5，如下所述。
Thumbnail300KURL 是到具有~300K像素(~640x480)的缩略图的可选URL。它提供了方便的下载数据，在没有更方便的方式获得图像。如果缺少OriginalURL，则必须使用它(如果需要，则将其调整为相同的大小)。这些缩略图是动态生成的，它们的内容甚至分辨率可能每天都不一样。
Rotation 是图像逆时针旋转的角度数，以匹配Flickr用户期望的方向(0,90,180,270)。nan表示此信息不可用。有关此问题的更多信息，请查看此公告。

Hierarchy for 600 boxable classes

在这里可以将box - able类的集合作为层次结构查看，或者下载为JSON文件:

References

"We don't need no bounding-boxes: Training object class detectors using only human verification, Papadopolous et al., CVPR 2016.
"Extreme clicking for efficient object annotation", Papadopolous et al., ICCV 2017.
"Large-scale interactive object segmentation with human annotators", Benenson et al., CVPR 2019.