900万张标注图像，谷歌发布Open Images最新V3版

翻译 | Shawn

过去几年机器学习的发展使得计算机视觉有了快速的进步，系统能够自动描述图片，对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO（监督学习）以及 YFCC100M（无监督学习数据集）这样的数据集的公开使用。

2016年，谷歌发布 Open Images，这是一个包含约 900万张图像 URL 的数据集，里面的图片通过标签注释被分为 6000 多类。近日，谷歌又发布了 Open Images 最新的 V3 版，相比之前的版本，这次更新有哪些改变呢？

一、下载地址

图像：下载并打包整理自 Common Visual Data Foundation

https://github.com/cvdfoundation/open-images-dataset

图像 URLs 和元数据 (990 MB)

https://storage.googleapis.com/openimages/2017_11/images_2017_11.tar.gz

边界框标注（训练集、验证集和测试集）（97 MB）

https://storage.googleapis.com/openimages/2017_11/annotations_human_bbox_2017_11.tar.gz

经人类验证的图像级标注（训练集、验证集和测试集）（137 MB）

https://storage.googleapis.com/openimages/2017_11/annotations_human_2017_11.tar.gz

机器生成的图像级标注（训练集、验证集和测试集）（447 MB）

https://storage.googleapis.com/openimages/2017_11/annotations_machine_2017_11.tar.gz

类别及类别描述（295 KB）

https://storage.googleapis.com/openimages/2017_11/classes_2017_11.tar.gz

查看如何将标注导入到 PostgreSQL 中

https://github.com/openimages/dataset/wiki/Importing-into-PostgreSQL

二、数据结构

该数据集包含一个训练集（9011219张图像）、一个验证集（41620张图像）和一个测试集（125436张图像）。V1 版本里的验证集在 V2 版本中被划分为验证集和测试集，这样做是为了更好地进行评估。Open Images 中的所有图像都标注有图像级标签和边界框，如下图所示。

图像级标签（Image-level labels）

表1概括了该数据集所有子集的图像级标签。Open Images中的所有图像都标注有由类似于 Google Cloud Vision API（https://cloud.google.com/vision/）的计算机视觉模型自动生成的图像级标签。

Open Images 数据集总共有 19995 个图像类别，这些类别下的图像都标注有图像级标签（其中有 19693 个类别至少包含一个经人类验证的样本，7870 个类别包含一个由机器生成的样本；而且，验证过程是借助机器生成的标签和仅供谷歌内部使用的验证模型共同完成的）。在这些类别中，有 5000 个类别被认为是可以训练的。V3 版本没有改变V2 版本中的可训练类别（在 V2 版本中，训练集中至少包含 30 个经人类验证的样本，验证集或测试集至少包含 5 个）。

另外，我们还可以借助 MIDs（机器生成的 IDs）识别出类别，MIDs 也存在于 Freebase（https://en.wikipedia.org/wiki/Freebase）或谷歌知识图谱 API ( Google Knowledge Graph API - https://developers.google.com/knowledge-graph/)中。 class-descriptions.csv （https://storage.googleapis.com/openimages/2017_11/class-descriptions.csv）中包含有对每个类别的简要描述。

每个标注都分配有一个可信度值（0.0-1.0）。经人类验证的标签的可信度值不是 1 就是 0。由机器生成的标签的可信度值是分数，通常大于或等于0.5。可信度越高，标签是伪肯定的几率就越小。

边界框（Bounding boxes）

表 2 概括 Open Images 数据集所有子集的边界框标注。该数据集的标注覆盖 600 个目标类别，其中包括软呢帽和雪人等新类别，超越了 ILSVRC 和 COCO 检测挑战赛中的数据集的标注覆盖范围。

谷歌的人类标注员对验证集和测试集中的所有目标实例进行了完整的边界框手工标注。这一操作针对的是所有被人类验证为 positive 的图像级标签（见表 1）。我们试着用语义层次中最为明确的方式对边界框进行标注。

在训练集中，我们对 150 万张图像进行了边界框标注，并将带有最明确的肯定标签的图像作为重点标注对象。训练集中的每张图像平均大约有 2 个标注框。在整个训练集中，如果一张图像中包含多个属于同一类别的目标，通常只对一个目标进行边界框标注。

总体上，每张图像至少包含 600 个带有标注框的类别。在这 600 个类别中，有 545 个类别被认为是可训练的（600 个可进行边界框标注的类别与 5000 个带有图像级标签的可训练类别的交集）。

数据格式（Data Formats）

数据 tarball 包含以下文件：

1）images.csv

训练集、验证集和测试集的子目录的各子集中都包含这一文件。该文件中包含图像 URL、OpenImages ID、作者和授权信息：

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,\ OriginalSize,OriginalMD5,Thumbnail300KURL ... 000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\ https://www.flickr.com/photos/brokentaco/5215831864,\ https://creativecommons.org/licenses/by/2.0/,\ "https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\ 211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg ...

每张图像都分配有一个独特的 64 位 ID。在 CSV 文件中，OpenImages ID 的格式为包含很多 0 的 16 位整数，例如 000060e3121c7305。

数据的格式为数据在目标网站上的格式。

OriginalSize 是指原始图像的下载文件大小。
OriginalMD5 是指 base64 编码的二元 MD5（参考https://cloud.google.com/storage/transfer/create-url-list#md5）
Thumbnail300KUR 是指 ~300000 像素 (~640x480) 的索引图像（thumbnail）的可选择 URL。如果没有其他更好的方法，我们可以通过这个 URL 方便地下载图像数据。如果没有这个URL，则必须使用 OriginalURL（如有需要，再将图像调整为相同的大小）。注意：这些索引图像是在运行过程中生成的，它们的内容和分辨率可能会每天都会有变化。

2）annotations-machine.csv

机器生成的图像级标签（训练集、验证集和测试集都包含这样一个文件）：

ImageID,Source,LabelName,Confidence 000002b66c9c498e,machine,/m/05_4_,0.7 000002b66c9c498e,machine,/m/0krfg,0.7 000002b66c9c498e,machine,/m/01kcnl,0.5 000002b97e5471a0,machine,/m/05_5t0l,0.9 000002b97e5471a0,machine,/m/0cgh4,0.8 000002b97e5471a0,machine,/m/0dx1j,0.8 000002b97e5471a0,machine,/m/039jbq,0.8 000002b97e5471a0,machine,/m/03nfmq,0.8 000002b97e5471a0,machine,/m/03jm5,0.7 ...

这些是由类似于 Google Cloud Vision API 的计算机视觉模型生成的。

3）annotations-human.csv

经人类验证的图像级标签（训练集、验证集和测试集都包含这样一个文件）：

ImageID,Source,LabelName,Confidence 000026e7ee790996,verification,/m/04hgtk,0 000026e7ee790996,verification,/m/07j7r,1 000026e7ee790996,crowdsource-verification,/m/01bqvp,1 000026e7ee790996,crowdsource-verification,/m/0csby,1 000026e7ee790996,verification,/m/01_m7,0 000026e7ee790996,verification,/m/01cbzq,1 000026e7ee790996,verification,/m/01czv3,0 000026e7ee790996,verification,/m/01v4jb,0 000026e7ee790996,verification,/m/03d1rd,0 ...

从源代码中可以看出标注的生成过程：

“验证集”是经人类验证的图像级标签。
“众包验证集”是Crowdsource 应用程序中经人类验证的标签。

4）annotations-human-bbox.csv

人为提供的、带有边界框坐标的标签（训练集、验证集和测试集都包含这样一个文件）。

在训练集中，标签和边界框坐标如下所示：

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax 000002b66c9c498e,activemil,/m/0284d,1,0.560250,0.951487,0.696401,1.000000 000002b66c9c498e,activemil,/m/052lwg6,1,0.543036,0.907668,0.699531,0.995305 000002b66c9c498e,activemil,/m/0fszt,1,0.510172,0.979656,0.641628,0.987480 000002b66c9c498e,verification,/m/01mzpv,1,0.018750,0.098438,0.767187,0.892187 000002b66c9c498e,xclick,/m/01g317,1,0.012520,0.195618,0.148670,0.588419 000002b66c9c498e,xclick,/m/0284d,1,0.528951,0.924883,0.676056,0.965571 000002b66c9c498e,xclick,/m/02wbm,1,0.530516,0.923318,0.668232,0.976526 000002b66c9c498e,xclick,/m/052lwg6,1,0.516432,0.928012,0.651017,0.985915 000002b66c9c498e,xclick,/m/0fszt,1,0.525822,0.920188,0.669797,0.971831 ...

在验证集和测试集中，附加的属性如下所示：

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside 000026e7ee790996,freeform,/m/07j7r,1,0.071905,0.145346,0.206591,0.391306,0,1,1,0,0 000026e7ee790996,freeform,/m/07j7r,1,0.439756,0.572466,0.264153,0.435122,0,1,1,0,0 000026e7ee790996,freeform,/m/07j7r,1,0.668455,1.000000,0.000000,0.552825,0,1,1,0,0 000062a39995e348,freeform,/m/015p6,1,0.205719,0.849912,0.154144,1.000000,0,0,0,0,0 000062a39995e348,freeform,/m/05s2s,1,0.137133,0.377634,0.000000,0.884185,1,1,0,0,0 0000c64e1253d68f,freeform,/m/07yv9,1,0.000000,0.973850,0.000000,0.043342,0,1,1,0,0 0000c64e1253d68f,freeform,/m/0k4j,1,0.000000,0.513534,0.321356,0.689661,0,1,0,0,0 0000c64e1253d68f,freeform,/m/0k4j,1,0.016515,0.268228,0.299368,0.462906,1,0,0,0,0 0000c64e1253d68f,freeform,/m/0k4j,1,0.481498,0.904376,0.232029,0.489017,1,0,0,0,0 ...

这些属性的定义如下：

IsOccluded: 表示目标被图像中的另一目标遮蔽。
IsTruncated: 表示目标超出了图像的边界。
IsGroupOf: 表示边界框覆盖了一群目标（例如：一床花朵、一群人）。当图像中的实例（instances ）超过 5 个并且各实例相互重叠或交叠时，我们会要求标注员使用这个标签。
IsDepiction: 表示目标是一幅画（例如：目标的卡通画或素描，不是真正的实体实例）。
IsInside: 表示是从对象内部(例如汽车内部或建筑物内部）拍摄的照片。

从源代码中可以看出生成边界框的过程：

"freeform" 和 "xclick" 代表人类绘制的边界框。
"activemil" 代表经过 Active MIL 程序验证后被认为是重合度高（IoU > 0.7）的边界框。
"verification" 代表经过谷歌内部目标检测模型的检测后被认为是重合度高（IoU > 0.7）的边界框。

5）class-descriptions.csv

根据 class-descriptions.csv，我们可以将标签 MID 转换为简短的描述：

... /m/025dyy,Box /m/025f_6,Dussehra /m/025fh,Professor x /m/025fnn,Savannah Sparrow /m/025fsf,Stapler /m/025gg7,Jaguar x-type /m/02_5h,Figure skating /m/025_h00,Solid-state drive /m/025_h88,White tailed prairie dog /m/025_hbp,Mercury monterey /m/025h_m,Yellow rumped Warbler /m/025khl,Spätzle ...

请注意代码中的逗号和引号等字符。该文件遵循标准的 csv escaping 规则。例如：

/m/02wvth,"Fiat 500 ""topolino""" /m/03gtp5,Lamb's quarters /m/03hgsf0,"Lemon, lime and bitters"

6）classes.txt

19995 个带有图像级标签的类别：

/m/0100nhbf /m/0104x9kv /m/0105jzwx /m/0105ld7g /m/0105lxy5 /m/0105n86x /m/0105ts35 /m/0108_09c /m/01_097 /m/010dmf ...

7）classes-trainable.txt

5000 个带有图像级标签的可训练类别。

8）classes-bbox.txt

600 个带有标注框的类别。

9）classes-bbox-trainable.txt

545 个带有标注框的可训练类别。

三、统计和数据分析

浏览数据

通过此链接（http://www.cvdfoundation.org/datasets/open-images-dataset/vis）浏览边界框的groundtruth，由 CVDF 提供。
通过此链接（https://storage.googleapis.com/openimages/2017_07/bbox_labels_vis/bbox_labels_vis.html）查看可进行边界框标注的标签：

标签分布

下图展示了标注在数据集中的分布。注意：类别分布有很严重的倾斜（Y轴采用对数分度）。

我们先后按照 positive 实例的数量和 negative 实例的数量对标签进行了排列。绿色代表 positive 实例，红色代表 negative 实例。

训练后的模型

Inception resnet v2 目标检测模型（使用 V2 版本数据训练）。Tensorflow 目标检测API 中包含模型检测点、评估协议（protocol）以及推理和评估工具。
Resnet 101 图像分类模型（使用 V2 版本数据训练）；模型检测点、检测点说明（Checkpoint readmedm）和推理代码。

原文链接：

https://github.com//openimages/dataset

精选推荐

深度学习高手该怎样炼成？这位拿下阿里天池大赛冠军的中科院博士为你规划了一份专业成长路径

打败DBA老炮，机器学习如何改变数据库管理系统

机器学习依然奇货可居，但不是只有博士才能玩得转

Youtube 短视频推荐系统变迁：从机器学习到深度学习

最实用的机器学习算法优缺点分析，没有比这篇说得更好了

机器学习的四十三条经验法则——来自谷歌的ML工程最佳实践

900万张标注图像，谷歌发布Open Images最新V3版相关推荐

9 万张车辆图像及标注数据 - 数据堂
9 万张车辆图像及标注数据 - 数据堂 https://www.datatang.com/dataset 1. 数据产品概述车型分布:8 种车型数据特点:车辆齐全,数据清晰,矩形框标注车牌采集设 ...
轻松练：如何从900万张图片中对600类照片进行分类|技术头条
点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」7折优惠最后2天,请扫码咨询 ↑↑↑ 作者 | Aleksey Bilogur 译者 | 风车云马责编 | Jane 出品 | AI科 ...
如何从900万张图片中对600类照片进行分类，附代码
作者 | Aleksey Bilogur 译者 | 风车云马责编 | Jane 出品 | AI科技大本营(公众号id:rgznai100) [导语]完成一个简单的端到端的机器学习模型需要几步?在本文 ...
63万张！旷视发布最大物体检测数据集Objects365 | 技术头条
编辑 | 琥珀来源 | AI科技大本营(id:rgznai100) 昨日,在旷视科技联合北京智源人工智能研究院举办的发布会上,旷视研究院发布了物体检测数据集 Objects365,包含 63 万张图 ...
63万张！旷视发布最大物体检测数据集Objects365，物体检测竞赛登陆CVPR
郭一璞发自北京会议中心量子位报道 | 公众号 QbitAI 比ImageNet大的图像数据集来了. 在4月16日的智源学者计划启动暨联合实验室发布会上,旷视科技发布了通用物体检测数据集Obj ...
Science: 四万张大脑图像首次揭示人脑白质的基因基础
来源:青牛帮脑白质,是大脑内部神经纤维聚集的地方,由于其区域比细胞体聚集的大脑表层颜色浅,故名脑白质.人到了大约二十岁时,白质才会在不同脑区逐渐发育完全,而其生长的时机与成熟程度,会影响到学习,智力 ...
“151秒识别128万张ImageNet图像”背后，腾讯告别技术赛马
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货担任腾讯技术运营副总监好几年,徐海丽的风格一向稳健,可今年十月底申报预算时却特别紧张,因为她打 ...
重新标注128万张ImageNet图片：多标签，全面提升模型性能
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:机器之心自发布以来,ImageNet 数据集逐渐成为机器学习社区最流行的图像分 ...
重新标注128万张ImageNet图片：多标签，提升模型性能
2021-01-28 14:47:13 机器之心报道作者:杜伟.魔王自发布以来,ImageNet 数据集逐渐成为机器学习社区最流行的图像分类基准,但 ImageNet 自身存在着标签噪声,以及单标 ...

900万张标注图像，谷歌发布Open Images最新V3版

900万张标注图像，谷歌发布Open Images最新V3版相关推荐

最新文章

热门文章