阿里天池关于服装属性标签识别的竞赛的 Top5 团队的技术方案 PPT 汇总. 可以在竞赛主页观看技术方案的答辩视频.

1. 禾思众成团队

2. JUST GAN 团队

3. 小飞猪团队

在开始我们的展示之前,首先想先问大家一个问题: 如何理解Fashion?其实每个人对fashion都有不同的理解和关注点。因此阿里巴巴在本次竞赛中提供了丰富的数据,从Attributes Recognition 角度去理解Fashion。

数据集照片的属性标签可以分为两大类:长度估计,款式设计

长度估计包括:衣长,裤长,裙长,袖长

款式设计包括:领口,领线

带观众了解一下数据集,数据集又分为两大类,一类是长度估计,包括衣长、裙长、裤长、袖长;另一类是款式设计,大多关注领口的款式,比如V领圆领等。

总的来说,数据集大概有18万的训练图片,可以分为8大类,54小类。

(看几个例子)数据集中有两类图片,一类是模特图,一类是平铺图。左边是两个比较容易的图片(不需要解释为什么容易),右边是一些比较难的图片,他们有遮挡、剪切、多个人、姿势变形、小尺度、旋转等方面的问题.

下面,我向大家介绍一下我们这次提出的解决方案

我们的方案非常直观,分为两个模块,第一个是Detection,第二个是Recognition.

具体的网络框架可以看这幅图,左边是Detection的过程,对输入的图片进行处理,找到图片最重点的区域,右边是recognition,检测到图片区域会经过两个深度卷积神经网络,得到最终的结果。下面我们将对这些模块一一具体讲解。

首先,为什么我们要做detection。大家可以想象一下,不管我们的分类长度估计也好,款式设计也好,首先我们应该做的,是把这件衣服找出来。而detection就能帮助我们完成这件事情,让我们把注意力集中到图片中最关键的区域,这样就可以避免位置和尺度不一带来的干扰。其次是假如图片中有多个人或多件衣服,detection也是可以搞定的,有多少件给你识别多少件出来,这样的情况在生活中是非常常见的.

这是我们detection的整个pipeline,可以分为四步。首先,当然是检测出衣服所在的位置在哪啦(强调“当然是”),然后再经过后面的放大,填充以及数据增强操作.

我们怎么做detection呢。我们采用的是Faster R-CNN, ROIAlign和YOLOv2作为我们的detector,它们都是在学术界非常state-of-the-art的方法,也在一些成熟的产品项目中有应用.

检测出框之后,我们会利用框周围的context信息对原来的框进行补充。好这里问题来了,为什么我们要用context信息呢?

大家可以想象一下,比如对于裙子来说,我们人的腿是不是一个非常有用的参考信息,比如我看到了膝盖,可能就是短裙,我看到脚踝,可能就是长裙。因此,这个context上下文信息是可以引入一些挺有用的参考信息的,对分类也是有帮助的。其次,加context信息可以把一些漏检的区域给补回来,有效地减少缺胳膊少腿的情况.

好,现在问题又来了,怎么设定这个padding的大小呢?这里我们要引入学术圈非常常用的两个数字,一个是512,另一个是448,在训练模型的时候,512 random crop 448是一个非常广泛使用的setting,我们在之后的训练中也用到了。所以,怎么让这个random crop,无论怎么random,都能框住检测的核心区域呢?答案就是,将核心区域的大小缩放到384,这样就能保证,检测核心区域能够永远被框中.

Detection部分的亮点就是这样,下面我将介绍我们的分类模型。我们的base分类模型采用的是DPN和NASNet,其中DPN是imagenet2017 物体定位的冠军,性能非常强大,而NASNet就更有意思了,它是google最近搞出来的,用神经网络生成出来的神经网络。非常推荐去阅读这两篇paper了解更多有意思的细节.

数据集难点。其实在这个task中,有一个提到的难点,这个数据集中有两类的图片,一类是模特图,一类是平铺图。从我们人的直观感受来看,假如衣服穿在人身上,我们人就是一把活的尺子,可以用来丈量衣服的长度,而对于平铺图,就只能通过一些比例,比如长宽比啊去估算了。我们统计了一下数据集的一个分布,发现了一个有趣的事情,在长度估计的类别中,模特图平铺图的比例大概是一半一半,而领口款式设计类的图片全是模特图。我们接下来提出的方案是针对图片有人没人这个特点的,因此只对四个长度类进行设计。

这个是最原始的分类网络,输入图片,输出label。

我们在此基础上,引入了multi task training 的概念,用另一个分支去预测输入图片是模特图还是平铺图,两个分支同时优化整个网络。这样做有什么好处呢?这个好处是体现在分类之前的这个feature F身上的. 原本的 F 只有区分label的能力,网络需要去学习模特图和平铺图之间的共同点,这样是比较困难的;现在F同时具有了判别模特图平铺图的能力,这样在最后一个隐空间学习的时候,能从两个不同的角度去拟合label,这两个角度都是学习同种图片类内的共同点,所以会比较简单。

首先,不知道大家注意到没有,不同长度之间,实际是有一种包含递增的关系的. 像长裙可能有这么多布料,长裙包含这么多布料,它当然包括短裙需要的布料长度. 我们可以利用这种类别与类别之间的递增关系。

另外,如果一个短裙被误判成了这种中长裙,错得不多,但如果预测成了长裙,那错得就很离谱了,显然,错得越离谱需要给更多的惩罚。结合刚刚说到的两点,我们提出了这种 incremental label 的表达方式。

具体是这样的。最原始的label,第一位是1代表第一类,第三位是1代表第三位;可能也有其他人注意到这点,稍微改进成了这种soft label的方式,让ground truth周围的类不会有太大的惩罚;而我们提出的incremental label是这样,一个1代表第一类,三个1代表第三类,六个1代表第六类,用1的数量来表示长度。我们通过实验也发现,这种方式的设计可以大大提升准确率。

下面我们展示一些我们在比赛过程中做的一些不同维度的对比实验

首先这个是我们在本地验证集上的实验结果,我们对比了在所有类别上用原图,加了detection以及加了模特平铺图分支分别的实验结果,可以看到,加了detection对准确率和map的提升非常大,而加了模特平铺图分支之后又能进一步提升.

这个是我们在衣长这个类别上,对比了我们几种创新方案的实验,可以incremental label和soft label的准确率提升都非常大,但map指标反而下降,因此最终我们没有采用这两种方案,用的还是模特平铺图这种在准确率和map都有提升的方案

接下来我带大家做一下性能分析。首先我先解释几个概念,在预测的时候,为了提高分数,我们使用了multi crop testing,具体操作是 :

1crop指的是原图,2crop指的是原图和翻转,5crop指的是对原图进行五种尺度的裁剪,10crop是五种尺度裁剪以及镜像。

下面这个是我们模型的运行效率,推荐大家从下往上看。

最后,总结一下提出的方案.

首先,Detection能够大大地提升准确率,而且它在更加复杂的场景,比如多个物体,或者物体不在图片中心之类的情况,都能够适用,在实际产品中非常具有应用价值;

其次,适当的multi task training可以增强feature的表达能力,在一些具有层级结构label的分类任务中能够起到作用,比如说动植物里面界门纲目科属种的分类就可以这么用;

第三,incremental label的这种表达形式对于具有递增形式label的分类任务是非常有作用的,比如年龄,长度,体积等等

性能分析,上面是在detector和classifier中用的分辨率,检测器速度

下面是分类器速度,当我用用大batch size的时候,由于GPU做了并行优化,可以发现速度明显加快

Invisible是一个特殊的类,它跟其他长度的类或者设计的类没有共性,放在一起会加大网络学习的难度。我们将这个task提前,让模型在前面先判断是否visible,如果是visible的,后面再进行label预测,这样就不会让invisible的图片干扰到label的学习.

这个是novel trail的实验结果,可以看到 incremental label,soft label, invisible的准确率都有提升,但是map降了,所以我们最终的方案并没有采用.

4. BUPT_OVERFITED 团队

5. SIAT-MMLAB-VIP 团队

html5比赛策划书,FashionAI 天池竞赛 - Top5 技术方案简汇相关推荐

  1. 计算机打字比赛活动策划书怎么写,打字比赛策划书范文.docx

    打字比赛策划书范文 第 PAGE \* Arabic \* MERGEFORMAT 7 页 打字比赛策划书范文 打字比赛策划书(一) 一.比赛简介: 为了丰富大学生的课余生活,提高学生动手能力和综合素 ...

  2. 计算机打字比赛活动策划书怎么写,打字比赛策划书范文

    打字比赛策划书(一) 一.比赛简介: 为了丰富大学生的课余生活,提高学生动手能力和综合素质,本协会面对全体协会成员开展此项打字比赛活动. 此项活动为我协会电脑培训系列活动之一,是挑战自我.超越自我的比 ...

  3. 五子棋c语言策划书活动内容,五子棋比赛策划书

    与<五子棋比赛策划书>相关的范文 活动前言:楚汉相争,是智能的较量,让中国象棋带进我们进进那没有硝烟的战争中:谁先连珠,是智力的斗争,让五子棋带引我们走进那获胜的喜悦里.在棋类的对弈中,我 ...

  4. 计算机安全知识策划书,安全知识竞赛策划书模板

    一.活动宗旨:通过多种形式的互动问答及情景表演,加深对安全知识的了解,增强将理论知识应用于实际的能力. 二.主办单位:综合部.生产部 三.承办单位:办公室 四.活动时间:2011年6月28日9:00 ...

  5. 计算机拨打比赛策划书,电脑打字擂台赛活动策划书

    电脑打字擂台赛活动策划书 发布时间:2019-03-22 一.活动目的:为了提高同学们对键盘的熟悉程度.打字速度和正确率,进一步丰富学生课外生活,为日后进入社会打下扎实的基础. 二.活动时间: 4月2 ...

  6. 2020 ICDM 知识图谱竞赛获奖技术方案

    导读:ICDM(IEEE International Conference on Data Mining,简称ICDM)是数据挖掘领域的国际顶级会议.京东数科硅谷机器学习算法组朱翔宇带队在Knowle ...

  7. 计算机动漫设计比赛策划书

    为了体现青春校园活力,丰富同学们的业余生活,增进同学们之 间的交流,培养大家的创意设计,营造动漫嘉年华.我院电影动漫协 会以院第一届科技节为契机,将展开具有我院特色的计算机动漫设计 比赛活动,具体活动 ...

  8. 计算机打字大赛策划书,打字比赛策划书

    一.比赛简介: 为了丰富大学生的课余生活,提高学生动手能力和综合素质,本协会面对全体协会成员开展此项打字比赛活动. 此项活动为我协会电脑培训系列活动之一,是挑战自我.超越自我的比赛项目.通过打字比赛这 ...

  9. 计算机百科知识竞赛活动背景,大学百科知识竞赛策划书

    第1篇:大学百科知识竞赛策划书 百科知识竞赛 策 划 书 主办单位 :水利电力学院团委学生会 2013年 9月 14日 目录 活动目的及宗旨 ............................. ...

最新文章

  1. 控制器框架Struts与策略模式那点事
  2. matlab降幂排序,Matlab教程(三)
  3. 计算机二级mysql报名2020_关于2020年秋季全国计算机等级考试报名的通知
  4. sqoop 导入到hive字段全是null_Sqoop 一点通
  5. oracle数据块调用存储过程,VC调用存储过程的通用方法(ORACLE篇)
  6. git 查看修改用户名
  7. 1014.QxORM移植
  8. 没能 PK 掉 WiFi 的 Li-Fi,可能是 5G 请来的救兵
  9. 如何安装配置CKEditor 3.0
  10. 4.1 软件开发生命周期模型
  11. Adobe Acrobat Reader DC缺少字体包的问题
  12. 天正的计算机快捷命令大全,新手必看-史上最全CAD快捷键大全
  13. 铁通计算机网络,【计算机网络技术】常见宽带错误代码及处理办法(使用移动宽带【铁通】、部分电信宽带故障、联通宽带故...
  14. NRF24L012.4G模块
  15. iA Writer for Mac(mac好用的写作软件)
  16. 什么是jQuery,jQuery选择器
  17. 网页无法打开, 位于 https://xxx 的网页无法加载,因为:net::ERR_NAME_NOT_RESOLVED
  18. 量化:纸上得来终觉浅,绝知此事要躬行。
  19. 怎么将两个pdf文件合并在一起
  20. 【Makefile】strip

热门文章

  1. jquery中如何获得$.ajax()事件返回的值
  2. Flex RIA的ArcIMS WebGIS之路(一)--胸中的那棵竹
  3. 用贝叶斯定理解决三门问题并用Python进行模拟(Bayes‘ Rule Monty Hall Problem Simulation Python)
  4. LOL(英雄联盟)提示不支持虚拟机登录,解决方法
  5. 2021年内衣品牌营销传播方案-婧麒+美柚.pdf(附下载链接)
  6. 【采访】腾讯社交广告高校算法大赛第三周周冠军——到底对不队比赛经验及心得分享
  7. KDD'21 | 揭秘Facebook升级版语义搜索技术
  8. java+tableseg,多种功能集成,带Refresh刷新的tableV,Seg分段控件
  9. word 编辑域中的汉字_Word中根号2、根号3怎么打?
  10. ext列表禁止滑动_后台列表设计避坑指南(下)