Visual Object Classes Challenge 2012 (VOC2012) 简介

介绍

这项挑战的主要目标是从现实场景中的许多视觉对象类（即未预先分割的对象）中识别对象。这是一个有监督的学习问题，因为它提供了一组标记图像的训练集。选择的20个对象类是：

人：人
动物：鸟、猫、牛、狗、马、羊
车辆：飞机、自行车、船、公共汽车、汽车、摩托车、火车
室内：瓶子、椅子、餐桌、盆栽植物、沙发、电视/显示器

主要有三个目标识别竞赛：分类、检测和分割、动作分类竞赛和ImageNet大规模识别竞赛。此外，还有一个“品尝者”的个人布局比赛。

图像分类/检测比赛

分类：对于20个类中的每一个，预测测试图像中是否存在该类的示例。
检测：从测试图像的20个目标类中预测每个对象的包围盒和标签。

参赛者可以参加其中一项（或两项）比赛，也可以选择参加二十个目标类中的任何一项（或全部）。这项挑战为每项比赛提供了两种方法：

参与者可以使用使用任何方法或数据（不包括提供的测试集）构建或训练的系统。
仅使用提供的培训/验证数据建立或培训系统。

在第一种情况下，目的是确定目前在这些问题上可以达到什么程度的成功以及通过什么方法；在第二种情况下，目的是确定在给定特定的训练集的情况下，哪种方法最成功。

图像分割比赛

分割：产生像素级的分割，给出在每个像素处可见的对象类别，否则为“背景”。

动作分类比赛

动作分类：预测一个人在静止图像中所做的动作。

2012年，这场比赛有两种不同的方式，这取决于在测试图像中如何识别动作要分类的人：（i）在人的周围有一个紧密的包围盒；（ii）只有一个位于身体某处的点。后一个竞赛的目的是研究方法的性能，只给出一个人的近似定位，可能是从一个通用的人检测器的输出。

ImageNet大型视觉识别比赛

本次比赛的目的是评估照片的内容，以便使用大型手工标记ImageNet数据集（描绘10000多个对象类别的10000000个标记图像）的子集进行检索和自动标注。测试图像将显示没有初始注释-没有分割或标签-并且算法将必须生成指定图像中存在哪些对象的标签。在这个初始版本的挑战中，目标只是识别图像中的主要对象，而不是指定对象的位置。

更多详情请访问ImageNet网站。

人物布局大赛

人物布局：预测人物各部位（头、手、脚）的包围盒和标签。

数据

要下载培训/验证数据，请参阅开发工具包。

提供的训练数据由一组图像组成；每个图像都有一个注释文件，为图像中20个类中的一个类中的每个对象提供一个边界框和对象类标签。注意，来自多个类的多个对象可能出现在同一个图像中。注释是根据分发给所有注释者的一组准则执行的。

为了支持图像分割的竞争性，对图像子集进行了逐像素分割。

动作分类任务的图像与分类/检测/分割任务的图像不相交。它们部分地用人、边界框、参照点及其动作进行了注释。注释是根据分发给所有注释者的一组准则执行的。

测试集与主要任务分离的person layout taster的图像还附加了部分人（头/手/脚）的注释。

数据将分两个阶段提供；在第一阶段，将发布一个开发工具包，其中包括培训和验证数据，以及评估软件（用MATLAB编写）。验证集的一个目的是演示在提交竞赛之前评估软件是如何工作的。

在第二阶段，将为实际比赛提供测试集。正如在VOC2008-2011年的挑战中一样，测试数据的基本事实不会被公布。

数据分为50%用于培训/验证，50%用于测试。在训练/验证和测试集中，图像和对象按类的分布大致相等。数据库的统计数据是在线的。

可在线查看分类/检测/分割/动作任务和人员布局品尝器的示例图像和相应注释：

分类/检测示例图像
分割示例图像
动作分类示例图片
个人布局品尝者示例图片

VOC2012与VOC2011

对于VOC2012，大部分注释工作都用于增加分段和动作分类数据集的大小，并且没有为分类/检测任务执行额外的注释。下表总结了VOC2012和VOC2011之间的数据差异。

分类/检测：2012年数据集与2011年使用的数据集相同。没有其他数据被注释。因此，参与者不允许在VOC2011数据集上运行评估，评估服务器上的此选项已被禁用。
分割：2012年的数据集包含2008-2011年的图像，已经为这些图像准备了额外的分割。与前几年一样，培训/测试组的任务也得到了维持。分割后的图像总数从7062幅增加到9993幅。
动作分类：2012年的数据集包括2011年的数据集和附加注释的图像。培训/测试集的任务已经得到维护。除了框注释之外，人们现在还使用主体上的参考点进行注释，以支持“无框”动作分类任务（参见开发工具包）。
人体布局：2012年的数据集与2011年使用的数据集相同。没有其他数据被注释。因此，参与者不允许在VOC2011数据集上运行评估，评估服务器上的此选项已被禁用。

开发工具包

开发包由训练/验证数据、用于读取注释数据的MATLAB代码、支持文件和每个比赛的示例实现组成。

开发工具包现在可用：

下载培训/验证数据（2GB tar文件）
下载开发工具包代码和文档（500KB tar文件）
下载PDF文档（500kbpdf）
浏览HTML文档
查看用于注释数据库的准则（VOC2011）
查看用于注释操作任务图像的操作准则

试验数据

测试数据将根据挑战时间表提供。请注意，数据中唯一的注释是用于操作任务和人体布局的。与2008-2011年一样，目前还没有发布完整注释的计划——主办方将提供结果评估。

测试数据可以从评估服务器下载。您还可以使用评估服务器在测试数据上评估您的方法。

有用的软件

下面是一个您可能会发现有用的软件列表，由参与者提供给以前的挑战。

编码方法评估工具包
Encoding Methods Evaluation Toolkit
Ken Chatfield, Victor Lempitsky, Andrea Vedaldi, Andrew Zisserman
CPMC：用于自动目标分割的约束参数最小割集
Joao Carreira和Cristian Sminchisescu。
自动标记环境（语义分割）
Automatic Labelling Environment (Semantic Segmentation)
Lubor Ladicky, Philip H.S. Torr.
可变形零件模型的判别训练
Discriminatively Trained Deformable Part Models
Pedro Felzenszwalb, Ross Girshick, David McAllester, Deva Ramanan.
颜色描述符
Color Descriptors
Koen van de Sande, Theo Gevers, Cees Snoek.

时刻表

2012年5月：提供开发工具包（培训和验证数据以及评估软件）。
2012年6月25日：提供测试集。
2012年9月23日（格林尼治标准时间2300小时，星期日）：提交结果的截止日期（不会延期）。
2012年10月12日：与ECCV2012相关的挑战研讨会。

提交结果

要求参与者按照所采用的方法提交一组结果。研究过多个算法的参与者可以每种方法提交一个结果。算法参数的变化并不构成一种不同的方法-所有参数的调整都必须使用单独的训练和验证数据。

必须使用自动评估服务器提交结果：

PASCAL VOC评估服务器

结果文件的格式必须正确。提交结果所需文件格式的详细信息可以在开发工具包文档中找到。结果文件应该收集在一个归档文件（tar/tgz/tar.gz）中。

提交多个不同方法结果的参与者（注意上面不同方法的定义）应该为每个方法生成一个单独的存档。

除结果文件外，参与者还需要指定：

联系方式及隶属关系
贡献者名单
方法说明（至少500个字符）-见下文

自2011年以来，我们要求所有提交的资料都附有一份描述该方法的摘要，至少500个字符。摘要将部分用于在挑战研讨会上挑选受邀的发言者。如果由于商业利益或其他保密问题，您无法提交说明，则必须联系主办方进行讨论。下面是两个示例说明，用于先前在挑战研讨会上介绍的分类和检测方法。注意这些是我们自己的摘要，不是由原始作者提供的。

示例摘要：对象分类

基于张建国、科迪莉亚·施密德、斯维特兰娜·拉泽尼克、让·庞斯在帕斯卡视觉对象类挑战赛2006（VOC2006）第2.16节中对LSPCH的VOC1006 QMUL描述的结果。

我们使用视觉词汇袋法（cf Csurka等人2004）。感兴趣的区域用拉普拉斯检测器检测（Lindeberg，1998），并按比例进行归一化。然后为每个检测计算SIFT描述符（Lowe 2004）。然后，从训练集中随机选择50000个描述符，将其矢量量化（使用k-均值）为k=3000个“可视词”（10个类中每个类300个）。然后，每个图像由每个可视单词使用频率的直方图表示。我们还使用空间金字塔方案（Lazebnik等人，CVPR 2006）。我们首先利用chi^2核来训练基于金字塔中每一层直方图的支持向量机分类器。然后，这些SVM分类器的输出被连接到每个图像的特征向量中，并用于学习另一个基于高斯RBF核的SVM分类器。
示例摘要：对象检测

基于“基于部件模型的目标检测”；Pedro F.Felzenszwalb、Ross B.Girshick、David McAllester和Deva Ramanan；IEEE模式分析和机器智能交易，第32卷，第9期，2010年9月。

提出了一种基于判别训练零件的目标检测模型。该模型由一个粗糙的HOG特征“根”模板（Dalal和Triggs，2006）加上一些高分辨率的基于零件的HOG模板组成，这些模板可以在相对于其默认位置的邻域中进行转换。根模板和零件模板的响应通过一个潜在的支持向量机模型进行组合，其中潜在的变量是零件的偏移量。提出了一种新的隐式支持向量机训练算法。我们还利用了一个迭代训练过程，利用了“硬-负”示例，这些示例是在早期迭代中错误分类的负示例。最后以滑动窗口的方式在不同尺度上扫描测试图像，产生候选检测结果，然后进行贪婪的非最大值抑制。该模型适用于所有20帕斯卡的VOC目标检测挑战。

如果要提交方法的更详细描述（例如相关出版物），可以将其包含在结果存档中。

最佳实践

VOC挑战鼓励两种类型的参与：（i）仅使用所提供的“trainval”（培训+验证）数据进行培训的方法；（ii）使用除所提供的测试数据以外的任何数据构建或培训的方法，例如商业系统。在这两种情况下，测试数据必须严格用于单独报告结果-不得以任何方式用于培训或调整系统，例如运行多个参数选择并报告获得的最佳结果。

如果使用我们作为挑战开发工具包一部分提供的培训数据，则所有开发（如功能选择和参数调整）必须单独使用“trainval”（培训+验证）集。一种方法是将集合分为训练集和验证集（如开发工具包中所建议的）。其他方案，如n倍交叉验证，同样有效。调整后的算法应该只在测试数据上运行一次。

在VOC2007中，我们提供了所有注释（即用于培训、验证和测试数据），但从那时起，我们就没有提供测试注释。相反，测试数据的结果将提交到评估服务器。

由于算法只应在测试数据上运行一次，我们强烈建议不向服务器多次提交（实际上，严格控制同一算法的提交次数），因为评估服务器不应用于参数调整。

我们鼓励您使用评估服务器的输出，始终在最新版本的挑战上发布测试结果。如果您希望比较方法或设计选择，例如功能的子集，则有两个选项：（i）使用所有注释都可用的整个VOC2007数据；（ii）单独使用最新的“trainval”集报告交叉验证结果。

注册评估服务器时电子邮件地址要求的策略
根据上面的最佳实践过程，我们限制评估服务器处理测试数据的次数。为防止滥用此限制，注册评估服务器时需要提供机构电子邮件地址。这旨在防止一个用户在不同的电子邮件下多次注册。机构电子邮件包括学术电子邮件，如name@university.ac.uk和公司电子邮件，但不包括个人电子邮件，如name@gmail.com或name@123.com。

出版政策

传播结果的主要机制将是挑战网页。

每个提交方法的详细输出将在线发布，例如分类任务的每个图像置信度，以及检测任务的边界框。其目的是协助社区内的其他人对自己的方法进行详细的分析和比较。发布的结果不会是匿名的-通过提交结果，参与者同意在网上共享他们的结果。

引用

如果您使用VOC12012数据，请在任何出版物中引用以下参考资料（将在挑战研讨会之后准备）：

@misc{pascal-voc-2012,
author = “Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.”,
title = “The {PASCAL} {V}isual {O}bject {C}lasses {C}hallenge 2012 {(VOC2012)} {R}esults”,
howpublished = “http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html”}

数据库权限

VOC2012数据包括从“flickr”网站获得的图像。使用这些图像必须遵守相应的使用条款：

“flickr”使用条款

为了质询的目的，数据库中图像的身份，例如来源和所有者的姓名，已经被模糊了。在完成挑战后，每个图像的贡献者的详细信息可以在注释中找到，这些注释将包含在数据的最终版本中。任何关于数据使用或所有权的疑问都应向组织者提出。

组织者

Mark Everingham（利兹大学）
卢克·范·古尔（苏黎世埃茨）
克里斯·威廉姆斯（爱丁堡大学）
John Winn（微软剑桥研究院），John@John Winn.org
安德鲁·齐瑟曼（牛津大学）

致谢

我们非常感谢以下人员，他们花了很多时间为VOC2012数据库提供注释：

优素福·艾塔尔、露西亚·巴列里尼、哈肯·比伦、肯·查特菲尔德、米尔恰·西姆波伊、阿里·伊斯拉米、巴苏拉·费尔南多、克里斯托夫·戈多、伯坦·冈耶尔、凤凰社/黄轩、杰里·基维宁、马库斯·马蒂亚斯、克里斯托夫·奥杜夫、康斯坦蒂诺斯·雷马塔斯、约翰·范·隆帕伊、吉拉德·谢里尔、马蒂亚斯·维克鲁伊斯、维巴夫·维内特、张子明、帅凯尔·郑。

我们还感谢优素福·艾塔尔继续开发和管理评估服务器，并感谢阿里·伊斯拉米对结果的分析。

支持

欧盟资助的PASCAL2模式分析、统计建模和计算学习卓越网络支持这项挑战的准备和实施。

历史和背景

自2005年以来，每年都有主要挑战。有关VOC的更多背景，以下期刊论文讨论了我们在应对挑战中所做的一些选择和我们的经验，并对2007年的方法和结果进行了更深入的讨论：

PASCAL可视化对象类（VOC）挑战

Everingham，M.，Van Gool，L.，Williams，C.K.I.，Winn，J.和Zisserman，A。
国际计算机视觉杂志，88（2），303-33820010
Bibtex源|摘要| PDF

下表简要总结了挥发性有机化合物发展的主要阶段。

2005 ：只有4类，自行车，汽车，摩托车，人。训练/验证/测试：1578个图像，包含2209个注释对象。

两项比赛：分类和检测|图片大部分是从现有的公共数据集中获取的，并不像随后使用的flickr图片那样具有挑战性。此数据集已过时。
2006：10个类，自行车、公共汽车、汽车、猫、牛、狗、马、摩托车、人、羊。训练/验证/测试：包含4754个注释对象的2618个图像。

来自flickr和微软剑桥研究中心（MSRC）数据集的图像|MSRC的图片比flickr容易，因为照片通常集中在感兴趣的对象上。此数据集已过时。
2007 ：20个类。
- 人：人
- 动物：鸟、猫、牛、狗、马、羊
- 车辆：飞机、自行车、船、公共汽车、汽车、摩托车、火车
- 室内：瓶子、椅子、餐桌、盆栽植物、沙发、电视/显示器
- 训练/验证/测试：9963张图像，包含24640个注释对象。
- 班级从10个增加到20个
- 细分品尝器介绍
- 人布局品尝师介绍
- 添加到批注的截断标志
- 分类挑战的评估方法改为平均精度。以前是ROC-AUC。

今年设立了20个类，从那时起就固定下来了。这是为测试数据发布注释的最后一年。

2008： 20个类。数据在50%的train/val和50%的测试中被分割（和往常一样）。train/val数据有4340个图像，其中包含10363个注释对象。
- 添加到批注的遮挡标志。
- 测试数据注释不再公开。
- 分割和人物布局数据集包括来自相应VOC2007集的图像。
2009：20类。train/val数据包含7054幅图像，其中包含17218个ROI注释对象和3211个分段。
- 从现在起，所有任务的数据都由前几年的图像和新图像组成。在早些年，每年都会发布一个全新的数据集，用于分类/检测任务。
- 增强允许图像数量每年增长，这意味着测试结果可以与前几年的图像进行比较。
- 分割成为一个标准的挑战（从品尝者那里提升）
- 没有为附加图像提供困难的标记（省略）。
- 测试数据注释未公开。
2010：20类。train/val数据包含10103个图像，其中包含23374个ROI注释对象和4203个分段。
- 动作分类尝试者介绍。
- 提出了基于ImageNet的大规模分类的相关挑战。
- 亚马逊机械土耳其人用于早期的注释阶段。
- 计算AP的方法改变了。现在使用所有数据点，而不是TREC样式的采样。
- 测试数据注释未公开。
2011：20类。train/val数据包含11530个图像，其中包含27450个ROI注释对象和5034个分段。

动作分类尝试者扩展到10个等级+其他。

布局注释现在不是“完整的”：只有人被注释，有些人可能没有注释。
2012：20类。train/val数据包含11530个图像，其中包含27450个ROI注释对象和6929个分段。
- 分割数据集的大小大大增加。
- 动作中的人分类数据集在正文上附加了一个引用点注释。
- 分类、检测和人员布局的数据集与VOC2011相同。