Subset with Bounding Boxes (600 classes), Object Segmentations, and Visual Relationships(包含边界框(600个类)、对象分割和可视关系的子集)

这些注释文件涵盖了600个box - able对象类,并覆盖了1,743,042个训练图像,其中我们注释了边界框、对象分割和视觉关系,以及完整的验证(41,620个图像)和测试(125,436个图像)集。

下载像素有问题吗?让我们知道。

警告:图8中的网站目前托管V4数据。但是,这个子集中的174万张图像在V5中没有变化,所以您可以从图8安全地下载它们。

Subset with Image-Level Labels (19,959 classes) 带有图像级标签的子集(19,959个类)

这些注释文件覆盖所有对象类。在训练集中,人类验证的标签跨度为6,287,678张,而机器生成的标签跨度为8,949,445张。
下面的图像 IDs 列出了所有具有人类验证标签的图像。
注释文件跨越了完整的验证(41620幅图像)和测试(125436幅图像)集。

Complete Open Images  完整的开放图片

完整的9178275张图片。

Open Images Extended

Data Formats

Bounding boxes

每一行定义一个边界框。

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside
0001eeaf4aed83f9,xclick,/m/0cmf2,1,0.022673031,0.9642005,0.07103825,0.80054647,0,0,0,0,0
000595fe6fee6369,xclick,/m/02xwb,1,0.45655376,0.6097202,0.20399113,0.50554323,0,0,1,0,0
00075905539074f2,xclick,/m/04yx4,1,0.020477816,0.32935154,0.0956023,0.665392,0,0,0,1,0
000a1249af2bc5f0,xclick,/m/09j2d,1,0.56911767,0.99852943,0.0022172949,0.93569845,1,1,0,0,0
...

ImageID:这个框所在的图像。

Source:指示框是如何制作的:

  • xclick 是使用[1]中提供的方法手工绘制的框。
  • activemil 是使用增强版的方法[2]生成的框。这些是人类被证实是准确的IoU>0.7。

LabelName:此框所属对象类的 MID。

Confidence:一个虚值,总是1。

XMin, XMax, YMin, YMax:框的坐标,归一化图像坐标。XMin在[0,1]中,其中0是图像中最左边的像素,1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。

属性的定义如下:

IsOccluded:表示该对象被图像中的另一个对象遮挡。

IsTruncated:表示对象超出图像的边界。

IsGroupOf:表示框跨越一组对象(例如,花床或一群人)。我们要求注释器在超过5个实例的情况下使用此标记,这些实例彼此严重遮挡,并且具有物理上的接触。

isdescription:表示对象是一个描述(例如,对象的卡通或绘图,而不是真实的物理实例)。

IsInside:指从物体内部(如汽车内部或建筑物内部)拍摄的照片。

对于它们中的每一个,值1表示存在,0表示不存在,-1表示未知。

Instance segmentation masks

掩码信息存储在两个文件中:

  • 单个掩码图像,在文件名中编码信息。
  • 带有附加信息的逗号分隔值(CSV)文件(masks_data.csv)。

掩码图像是PNG二进制图像,其中非零像素属于一个对象实例,零像素是背景。文件名如下(随机5个例子)

e88da03f2d80f1a1_m019jd_e16d01b9.png
540c5536e95a3282_m014j1m_b00fa52e.png
1c84bdd61fa3b883_m06m11_62ef2388.png
663389d2c9d562d8_m04_sv_7e23f2a5.png
072b8fd82919ab3e_m06mf6_dd70f221.png

zip归档名称的格式如下:每个 <subset>_<suffix>.zip 包含所有ImageID的第一个字符为 <suffix>的图像的所有掩码。
<suffix>的值从0-9和a-f开始。
masks_data.csv中的每一行描述一个实例,使用类似的约定作为框的CSV数据文件。

MaskPath,ImageID,LabelName,BoxID,BoxXMin,BoxXMax,BoxYMin,BoxYMax,PredictedIoU,Clicks
25adb319ebc72921_m02mqfb_8423aba8.png,25adb319ebc72921,/m/02mqfb,8423aba8,0.000000,0.998438,0.089062,0.770312,0.62821,0.15808 0.26206 1;0.90333 0.41076 0;0.17578 0.66566 1;0.00761 0.23197 1;0.07918 0.26058 0;0.31792 0.47737 1;0.12858 0.59262 0;0.73229 0.34016 1;0.01865 0.20001 1;0.52214 0.31037 0;0.83596 0.28105 1;0.23418 0.60177 0
0a419be97dec2fa3_m02mqfb_8ad2c442.png,0a419be97dec2fa3,/m/02mqfb,8ad2c442,0.057813,0.943750,0.056250,0.960938,0.87836,0.89971 0.08481 1;0.20175 0.90471 0;0.11511 0.89990 0;0.94728 0.28410 0;0.19611 0.85369 0;0.07672 0.87857 1;0.82215 0.62642 0;0.13916 0.92650 1;0.51738 0.48419 1
8eef6e54789ce66d_m02mqfb_83dae39c.png,8eef6e54789ce66d,/m/02mqfb,83dae39c,0.037500,0.978750,0.129688,0.925000,0.70206,0.40219 0.16838 1;0.56758 0.65286 1;0.08311 0.90762 1;0.20840 0.56515 1;0.43336 0.23679 0;0.24689 0.43426 0;0.49292 0.65762 1;0.31383 0.51431 0;0.07137 0.86214 0;0.68160 0.38210 1;0.69462 0.59568 0
...

MaskPath:对应掩码图像的名称。

ImageID:这个掩码所在的图像。

LabelName:这个掩码所属的对象类的MID。

BoxID:图像中框的标识符。

BoxXMin, BoxXMax, BoxYMin, BoxYMax:链接到掩码的框的坐标,在归一化的图像坐标中。注意,这不是掩码的边界框,而是用于注释掩码的起始框。这些坐标可用于将掩码数据与框数据关联起来。

PredictedIoU:如果存在,表示相对于ground-truth的预测IoU值。此质量评估是基于人工注释器行为由机器生成的。详见[3]。

click:如果存在,表示人工注释器单击,它在我们执行的注释过程中提供了指导(详细信息请参阅[3])。该字段采用以下格式编码:X1 Y1 T1;X2 Y2 T2;X3 Y3 T3;Xi Yi是归一化图像坐标中点击的坐标。Ti是单击类型,值0表示注释器将该点标记为背景,值1表示对象实例的一部分(前景)。这些点击对于交互式分割领域的研究人员来说是很有趣的。对于只对最终蒙版感兴趣的用户,它们不是必需的。

Visual relationships

文件中的每一行对应一个注释。

ImageID,LabelName1,LabelName2,XMin1,XMax1,YMin1,YMax1,XMin2,XMax2,YMin2,YMax2,RelationLabel
0009fde62ded08a6,/m/0342h,/m/01d380,0.2682927,0.78549093,0.4977778,0.8288889,0.2682927,0.78549093,0.4977778,0.8288889,is
00198353ef684011,/m/01mzpv,/m/04bcr3,0.23779725,0.30162704,0.6500938,0.7335835,0,0.5819775,0.6482176,0.99906194,at
001e341dd7456c72,/m/04yx4,/m/01mzpv,0.07009346,0.2859813,0.2332708,0.5203252,0.14018692,0.31588784,0.32082552,0.48405254,on
001e341dd7456c72,/m/04yx4,/m/01mzpv,0,0.28317758,0.26454034,0.5540963,0.2224299,0.3411215,0.3908693,0.4859287,on
001e341dd7456c72,/m/01599,/m/04bcr3,0.5551402,0.6084112,0.50343966,0.5490932,0.5411215,0.95981306,0.5090682,0.78361475,on
001e341dd7456c72,/m/04bcr3,/m/01d380,0.7392523,0.9990654,0.3889931,0.518449,0.7392523,0.9990654,0.3889931,0.518449,is
...

ImageID:这个关系实例所在的映像。

LabelName1:关系三元组中第一个对象的标签。

XMin1,XMax1,YMin1,YMax1:第一个对象的包围框的规范化包围框坐标。

LabelName2:关系三元组或属性中的第二个对象的标签。

XMin2, XMax2, YMin2, YMax2:如果是一对对象之间的关系:第二个对象的边界框的规范化边界框坐标。对于对象-属性关系(RelationLabel="is"):第一个对象的规范化边界框(重复)。在本例中,LabelName2是一个属性。

RelationLabel:关系的标签(属性为“is”)。

Image Labels

人工验证和机器生成的图像级标签:

ImageID,Source,LabelName,Confidence
000026e7ee790996,verification,/m/04hgtk,0
000026e7ee790996,verification,/m/07j7r,1
000026e7ee790996,crowdsource-verification,/m/01bqvp,1
000026e7ee790996,crowdsource-verification,/m/0csby,1
000026e7ee790996,verification,/m/01_m7,0
000026e7ee790996,verification,/m/01cbzq,1
000026e7ee790996,verification,/m/01czv3,0
000026e7ee790996,verification,/m/01v4jb,0
000026e7ee790996,verification,/m/03d1rd,0
...

Source:指示如何创建注释:

  • verification 是由谷歌的内部注释器验证的标签。
  • crowdsource-verification 是指通过众包app验证标签。
  • machine 是机器生成的标签。

Confidence:在图像中出现的经过人类验证的标签置信度= 1(正面标签)。经过人为验证的标签在图像中不存在时,置信度为0(负标签)。机器生成的标签具有部分置信度,通常>= 0.5。信心越高,被贴上假阳性标签的可能性就越小。

Class Names

MID格式的类名可以通过查看class description.csv转换为它们的简短描述:

...
/m/0pc9,Alphorn
/m/0pckp,Robin
/m/0pcm_,Larch
/m/0pcq81q,Soccer player
/m/0pcr,Alpaca
/m/0pcvyk2,Nem
/m/0pd7,Army
/m/0pdnd2t,Bengal clockvine
/m/0pdnpc9,Bushwacker
/m/0pdnsdx,Enduro
/m/0pdnymj,Gekkonidae
...

注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:

/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb's quarters
/m/03hgsf0,"Lemon, lime and bitters"

Image IDs

它有图像url、它们的OpenImages id、旋转信息、标题、作者和许可信息:

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,
OriginalSize,OriginalMD5,Thumbnail300KURL,Rotation
...
000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\
https://www.flickr.com/photos/brokentaco/5215831864,\
https://creativecommons.org/licenses/by/2.0/,\
"https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\
211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg,0
...

每个图片都分配了一个惟一的64位ID。在CSV文件中,它们以零填充的十六进制整数的形式出现,比如000060e3121c7305。

数据与目标网站上显示的一样。

  • OriginalSize 是原始图像的下载大小。
  • OriginalMD5 是base64编码的二进制MD5,如下所述。
  • Thumbnail300KURL 是到具有~300K像素(~640x480)的缩略图的可选URL。它提供了方便的下载数据,在没有更方便的方式获得图像。如果缺少OriginalURL,则必须使用它(如果需要,则将其调整为相同的大小)。这些缩略图是动态生成的,它们的内容甚至分辨率可能每天都不一样。
  • Rotation 是图像逆时针旋转的角度数,以匹配Flickr用户期望的方向(0,90,180,270)。nan表示此信息不可用。有关此问题的更多信息,请查看此公告。

Hierarchy for 600 boxable classes

在这里可以将box - able类的集合作为层次结构查看,或者下载为JSON文件:

References

  1. "We don't need no bounding-boxes: Training object class detectors using only human verification, Papadopolous et al., CVPR 2016.

  2. "Extreme clicking for efficient object annotation", Papadopolous et al., ICCV 2017.

  3. "Large-scale interactive object segmentation with human annotators", Benenson et al., CVPR 2019.

(二)open image dataset v5 数据集解析相关推荐

  1. 百度飞桨开源Open Images Dataset V5目标检测比赛最好单模型MSF-DET

    目标检测是计算机视觉领域中的核心任务.Open Images Dataset V5(OIDV5)是目前规模最大的目标检测公开数据集[1].基于飞桨(PaddlePaddle)的PaddleDetect ...

  2. 【转】DICOM命令集和数据集解析!!

    转自:DICOM命令集和数据集解析 - 微笑的艾米 - 博客园 摘   要:本文通过分析一个典型的DICOM消息,详细地解析了DICOM命令集和数据集的构成方式和其含义.并在此基础上,提出了一种实现D ...

  3. DataSet 添加数据集、行、列、主键和外键等操作示例

    DataSet 添加数据集.行.列.主键和外键等操作示例 前台代码:html <%@ Page language="c#" Codebehind="CodeUse. ...

  4. S3DIS数据集解析为点云

    S3DIS数据集解析为点云 S3DIS数据集解析 数据格式 1.直接解析pointcloud.mat文件 2.通过data文件夹中的pose合成rgb和depth 个人解析代码GitHub:https ...

  5. 二维码(QR code)原理解析

    二维码(QR code)原理解析 基于 <GB/T 18284-2000 快速响应矩阵码> 文章目录 二维码(QR code)原理解析 1 模式 1.1 ECI 模式 1.2 数字模式 1 ...

  6. 深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等

    [深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等 专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...

  7. Alink漫谈(二十) :卡方检验源码解析

    Alink漫谈(二十) :卡方检验源码解析 文章目录 Alink漫谈(二十) :卡方检验源码解析 0x00 摘要 0x01 背景概念 1.1 假设检验 1.2 H0和H1是什么? 1.3 P值 (P- ...

  8. (一)Open Image Dataset V5概述

    Open Images V5 概述 Open Images是一个由~9M图像组成的数据集,使用图像级标签( image-level labels).对象边界框(object bounding boxe ...

  9. Banknote Dataset(钞票数据集)介绍

    Banknote Dataset(钞票数据集):这是从纸币鉴别过程中的图像里提取的数据,用来预测钞票的真伪的数据集.该数据集中含有1372个样本,每个样本由5个数值型变量构成,4个输入变量和1个输出变 ...

最新文章

  1. Linux(CentOS 7_x64位)系统下安装ACPYPE
  2. Rhel6服务器ftp服务配置
  3. mysql为datetime类型的字段设置默认值current_timestamp,引发 Invalid default value for 错误...
  4. HttpContext.Current.Cache vs. HttpRuntime.Cache
  5. SAP从视图获得数据
  6. 通过销售订单领用到成本中心,FI替代实现不同成本中心记账科目不同
  7. 在使用net start mysql命令时提示键入 net helpmsg 3523错误
  8. SQLServer 清空某个库所有表
  9. Leetcode分类
  10. Spark2.2出现异常:ERROR SparkUI: Failed to bind SparkUI
  11. Laravel项目问题集锦
  12. webmagic之爬取数据存入HDFS
  13. 没有找到dllregisterserver输入点_「Mac实用技巧」将浏览器的点密码转换成文本密码的三种方法分享...
  14. oracle定时清理回收站,电脑设置定时清理回收站的操作方法
  15. linux 设置显卡命令,linux查看显卡命令
  16. sort降序shell_shell脚本学习指南之文本排序与排重等
  17. J2EE框架技术(持续更新)
  18. unity中Asset Store下载的资源保存位置
  19. 一分钟了解光纤、单模光纤、多模光纤
  20. python图片raw转换成jpg

热门文章

  1. MSER最稳定极值区域源码分析
  2. 雷军:互联网创业的葵花宝典
  3. 一加3T等手机在Ubuntu16.04下经常不能进入调试模式解决
  4. 检测单词拼写语法:是否符合大小写语法
  5. Pingping Zhang+语义对象检测
  6. 游戏外挂原理基础18反外挂方案
  7. 华为否认鸿蒙为噱,华为否认鸿蒙为噱头 鸿蒙系统手机会上市吗
  8. 小学英语课堂教学与计算机的结合,信息技术在小学英语课堂教学中的有效运用...
  9. 从零开始搭建SpringBoot项目(三)——小程序Uni-app项目搭建(详细教程和实战)
  10. 坐标系与右手定则(OpenInventor使用的坐标系统)