内容首发于“迈微AI研习社”公众号

DeepFashion 是当前最大的时尚数据集,但它也有一些缺陷,使其与现实场景存在巨大差距。为此,本文作者提出了 DeepFashion2,其标注数量是 DeepFashion 的 3.5 倍,买家秀-卖家秀图像对数量也是前者的数倍。

近年来,由于在产业中的巨大潜力,时尚图像分析成为了活跃的研究课题。但是,由于巨大的变形、遮挡,以及消费者和商业图像之间存在的服装域的差异,在实际应用中,理解时尚图像仍然是一个挑战。一些挑战可能根植于最近的基准和实际场景之间的差异。例如,现有的最大的时尚数据集 DeepFashion 就有其自身的缺点,比如说每个图像只有一件服装,稀疏的标记和姿态定义(每个服饰类别会共享 4~8 个关键点),如图 1.(a) 所示,没有每个像素的掩膜标注。

图 1.DeepFashion(a)和 DeepFashion 2(b)的对比。(a)每幅图像只有一件衣服,用 4~8 个稀疏标志标注。边界框是基于标签标记估计出来的,使得它们看起来很乱。在图(b)中,每张图像最少有一件服饰,最多有七件服饰。每件服饰都被手动标记了边界框、掩膜和密集的标注(平均每件服饰 20 个标记),

为了解决上述缺陷,这项工作提出了 DeepFashion2,这是一个大规模的基准集,具有全面的任务和时尚图像理解的标注。DeepFashion2 包含 49.1 万张图像,包含 13 种流行的服饰类别。在这个数据集上定义了全面的任务,包括服饰检测和识别、标记和姿态估计、分割以及验证和检索。所有的这些任务都有丰富的标注支持。

例如,DeepFashion2 总共有 80.1 万件服饰,如图 1(b)所示,其中每件都标有比例、遮挡、缩放、视角、边界框、密集标注和像素掩膜。这些服饰可以被归类为 4.38 万个服饰标识,其中服饰标识代表一类具有几乎相同裁剪、图案和设计的服饰。拥有同一类服饰标识的图像既有买家秀,也有卖家秀,卖家秀和买家秀组成图像对。该数据集中总共有 87.3 万买家秀-卖家秀图像对,比 DeepFashion 大 3.5 倍。上述详细的注释助力开发强大的算法来理解时尚图像。

这项工作有三个主要贡献:(1)构建了具有全面任务和标注的大规模时尚数据集基准来推动时尚图像分析。DeepFashion2 拥有最丰富的任务定义和最大数量的标签。它的标注至少是 DeepFashion[14] 的 3.5 倍,是 ModaNet [21] 的 6.7 倍,是 FashionAI [1] 的 8 倍。(2)在本文提出的数据集上仔细定义了全部任务。例如,据本文研究者所知,服饰姿态估计是首次在文献中通过对 13 个类别的姿态和标记进行定义来提出,这些姿态要比人类的姿态更多样化,更加丰富。(3)研究者用 DeepFashion2 广泛地评测了 Mask R-CNN [6],这是最近提出的一个用于视觉感知的框架。本文还提出了一个新的 Match R-CNN 来聚合所有从服饰类别、姿态以及掩膜中学习到的特征,用一种端到端的方式解决服饰图像检索的问题。DeepFashion2 和 Match R-CNN 的实现即将发布。

论文:DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

论文地址:https://arxiv.org/abs/1901.07973

摘要:理解时尚图像已经通过通过具有丰富的标注的基准数据集进行了提升,例如 DeepFashion,它的标签包含服饰类别、标记和卖家秀-买家秀图像对。但是,DeepFashion 有它不可忽视的问题,例如,一副图像只有一个单独的服饰,稀疏的标记(仅有 4~8 个),以及没有像素掩膜,这使得它与现实场景之间存在巨大的差距。我们通过提出 DeepFashion2 填补这种差距,以解决这些问题。它是一个含有 4 个任务的多功能基准集,包括服饰检测、姿态估计、分割以及检索。它有 80.1 万件服饰,每件都有丰富的标注,例如风格、比例、视角、遮挡、边界框、密集标记和掩膜。其中也有 87.3 万对买家秀-卖家秀图像。我们还提出了一个强大的基线模型,叫做 Match R-CNN,它是在 Mask R-CNN 的基础上构建的,用来以一种端到端的方式解决上述四种任务。我们用不同的标准在 DeepFashion2 上开展了评估。

2 DeepFashion2 数据集和基准

与现有的时尚数据集相比,DeepFashion2 有 4 个独特的特点:

  1. 大规模:它包括 49.1 万张图像,总共是 4.38 万个服饰标识(购物店展示的独特服饰)。
  2. 多功能:DeepFashion2 面向多种时尚理解任务。它丰富的标注支持服饰检测和分类、密集标注和姿态检测、实例分割以及跨域实例级别的服饰检索。
  3. 表达能力:这主要反映在两个方面。首先,单幅图像中存在多个服饰;其次,本研究有 13 种不同类别的标识和姿态。
  4. 多样性:研究者通过控制它们的 4 个属性变量来收集数据,包括尺寸、遮挡、缩放和视角,如图 2 所示,这使得 DeepFashion2 成为了一个具有挑战性的基准。
图 3(a)展示了 DeepFashion2 中不同变量属性的统计数据。(b)是 DeepFashion2 中 13 种类别的数目。(c)展示了 DeepFashion[14] 中类别的含糊不清。例如,很难区分开衫(cardigan)和外套(coat),很难区分慢跑者(joggers)和运动裤(sweatpants)。这在给数据打标签的时候会造成歧义。(d)上:

3 Match R-CNN

研究者在 DeepFashion2 上基于 Mask RCNN [6] 提出了一个强大的基线模型,名为 Match R-CNN,它是一个端到端的训练框架,联合学习了服饰检测、标志估计、实例分割和买家秀-卖家秀的检索。

图 4.Match R-CNN 的三个主要组成部分:一个特征提取网络(FN)、一个感知网络(PN)以及一个 match 网络(MN)。

4 实验

研究者通过评估 Mask R-CNN [6] 和 Match R-CNN,在多项任务中展示了 DeepFashion2 的有效性,包括衣物检测和分类、标志估算、实例分割和买家秀-卖家秀服饰检索。

表 3:在不同的验证子集上使用 Mask R-CNN [6] 的标志估计,包括尺寸、遮挡、缩放和视角。

图 5:(a)展示了服饰检测失败的例子;(b)展示了服饰分割失败的例子。在(a)和(b)中,缺失的边界框用红色绘制。不准确的掩膜也在图(b)中用箭头标出来了。

图 6:(a)展示了标志和姿态估计的结果。(b)展示了服饰分割的结果。(c)展示了服饰查询的 top 5 的结果。第一列是买家秀图像,它具有由检测模块预测的边界框,第二列到第六列展示了卖家秀图像检索结果。(d)在整体查询验证集上的检索精度,(1)是检测框,(2)是真实框。

表 4:在不同的验证集上使用 Mask R-CNN [6] 进行服饰分割的结果,包括尺寸、遮挡、缩放和视角。

推荐阅读

(点击标题可跳转阅读)

  • 尝试混搭,告别格子衫,这个GAN帮你展示真人高清混搭效果
  • 朋友圈变美靠AI:新型美颜技术实现细粒度颜值提升
  • 黑科技DeepFake检测方法:利用心跳做信号,还能「揪出」造假模型
  • 滑动窗口也能用于实例分割,陈鑫磊、何恺明等人提出图像分割新范式
现为 ⛴迈微AI研习社⛴

数据集标注工具_DeepFashion2数据集:87.3万对“买家秀-卖家秀”图像+海量标注相关推荐

  1. 03- 目标检测数据集和标注工具介绍 (目标检测)

    要点: 常用数据集和标注工具 标注工具 PPOCRLabel github地址:paddleocrlabel 参考文档:目标检测简介 - 知乎 一 目标检测数据集 1. PASCAL VOC VOC数 ...

  2. labelCloud:用于三维点云物体检测的轻量级标注工具

    点云PCL免费知识星球,点云论文速读. 文章:labelCloud: A Lightweight Domain-Independent Labeling Tool for 3D Object Dete ...

  3. vatic标注工具安装步骤(非docker安装)以及错误解决办法

    Vatic标注工具安装步骤(非docker安装)以及错误解决 1.安装参考 2.安装步骤 2.1.环境介绍 2.2.下载Vatic 2.3.配置Apache 2.4.配置MySQL 2.5.配置/安装 ...

  4. 融合与创新:数据堂骨龄标注工具为医生赋能

    骨龄是评价青少年儿童生物年龄的主要方法,骨龄与实际年龄并不是必须一致的,骨龄检查可以了解骨骼的发育情况,判断骨龄发育迟缓还是过速,了解身材过矮的原因以及预后.在临床医学.法医学和运动医学等领域中有广泛 ...

  5. 图像/视频数据标注工具

    十个最常用深度学习图像/视频数据标注工具 原创: gloomyfish OpenCV学堂 从此以后图像与视频数据标注不用为找工具发愁!好东西记得分享 图像数据标注概述 在深度学习领域,训练数据对训练结 ...

  6. python图像标记工具怎么用_图片标注工具LabelImg使用教程

    1.进入labelImg-master文件夹,在空白处使用 "Shift+鼠标右键" ,选择在此处打开命令窗口,依次输入下面语句即可打开软件. pyrcc4 -o resource ...

  7. 首个中文全词类知识库-百科知识树 开源啦!搭配开源标注工具,一招搞定知识关联!...

    近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本.2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过「超大规模无监督语料上的预训练语言模型+相对 ...

  8. 标注工具_语料标注工具(2)

    继续总结语料标注工具 3. BRAT BRAT虽然也是实体.实体关系.事件抽取的标注工具,但是中文里有人利用它标注了情感语料. 项目地址: http://brat.nlplab.org/introdu ...

  9. NLP标注工具Brat的简单使用

    目录 写在前面 1. 背景 2. Brat的安装与启动 3. Brat的运行 4. 标注配置与标注 (1) 原始数据文件准备 (2) 配置文件配置 (3) 标注 (4) 中文标签配置 (5) 标注 ( ...

最新文章

  1. Netty Pipeline源码分析(2)
  2. COM First Teck.
  3. LeetCode5-最长回文子串原理及Python实现
  4. std::tostring_枚举:如何正确使用name()和toString()方法
  5. 电商 php 颜色数据怎么敲?_来客说电商|电商系统开发注意事项
  6. 基于C8051F040单片机的CAN总线测试模式研究
  7. 物联网全称_物联网的魔力世界
  8. 1. JavaScript学习笔记——JS基础
  9. matlab ssb,MatlabSSB信号的仿真分析.doc
  10. (18)FPGA串/并转换的思想
  11. 新代系统plc梯形图说明书_东莞自动化PLC编程需要多少钱
  12. SpringCloud学习笔记012---SpringBoot启动时Caused by: java.lang.NoClassDefFoundError:
  13. OUTLOOK邮箱设置
  14. errortext为什么不显示?原来是rowtemplate的高度作怪要=20
  15. 2011年手机应用商店混战局面开始
  16. 异或鉴相器 matlab 数字鉴相器,一种异或门鉴相器的制作方法
  17. matlab计算星期,在matlab中计算周数
  18. -Xms -Xmx -Xmn -Xss 核心总结
  19. python opencv 实现图像白平衡
  20. 用纯Python就能写一个漂亮的网页

热门文章

  1. 数据中台选型必读(三):什么企业适合上数据中台?
  2. 水平集图像分割序列——LBF模型
  3. 诺基亚近日宣布,60年来首次更改其标志Logo,使用全新标志。
  4. 分享个性蓝色职业竞聘通用个人简介PPT模板
  5. 阿里巴巴微服务核心手册:Spring Boot+Spring cloud+Dubbo
  6. 基于jsp+ssm的医药销售管理系统进销存系统-计算机毕业设计
  7. php颜色底色,PHP GD 库自定义图片背景颜色
  8. SM3_CNC,轴组,G代码解析,CNC运动控制
  9. 2019全新大数据系统学习路径!
  10. 感染Nimda蠕虫病毒