0.Abstract :

说明本篇文章的主要工作 : 一是提出了一个用于人体解析的大数据集 Look into Person (LIP), 这个数据集相比之前的数据集更大,覆盖情景更多,更复杂,作者还在这个数据集上详细分析了之前的各种人体解析方法的优劣 。二是提出了一种 self-supervised structure-sensitive approaches 去结合 high-level 的人体关节特征去改进人体解析方法,达到了 state-of-the-art.

1.Introduction :

介绍了目前人体解析任务以及现状。
提出了存在的问题 :

  1. 没有大规模数据集,并且当前数据集过于简单且没有评价机制来防止潜在的过拟合,导致目前的 CNN 不能达到一个好的效果。
  2. 缺乏 high-level 的监督去捕捉人体结构的信息,比如人体姿态 (身体的节点)。

写出了本文的贡献:

  1. 建立了一个大的用于人体解析的数据集,它有 50462 张带标记的图片,分为20类 ,19类人体部件标签,1类背景,其中有 30462 张图片作为训练集,10000 张图片作为验证集,还有 10000 张图片作为测试集,并且提供了专门的测试服务
  2. 在这个基准数据集上详细的分析了之前的人体解析的方法的成功与失败之处。
  3. 提出了一种 self-supervised structure-sensitive 架构去保证人体结构和人体解析结果的一致性,达到改进当前的深度学习方法的目的。

2.Related work

介绍了当前领域的情况,包括数据集情况和深度学习方法在人体解析领域的应用情况。

3.Look into Person Benchmark

这里详细介绍了新的数据集,分为了三个方面进行介绍 。

  1. Image annotation :
    LIP数据集中的人体图像是从microsoft coco训练集和验证集中裁剪的。我们定义了19个人体部件或衣服标签,它们是帽子、头发、太阳镜、上衣、衣服、外套、袜子、裤子、手套、围巾、裙子、连体裤、脸、右臂、左臂、右腿、左腿、右脚、右脚鞋、左鞋,以及背景标签。

  2. Dataset split :
    数据集中共有50462张图像,其中包括19081张全身图像、13672张上身图像、403张下身图像、3386张头部丢失的图像、2778张后视图图像和21028张有遮挡的图像。我们将图像分成不同的训练、验证和测试集。在随机选择之后,我们得到了一个唯一的分割,包括30462个训练、10000个验证图像,以及10000个测试图像,其中测试集的标注不公开,专门用于测试

  3. Dataset statistics :
    这里对数据集中的各种标签进行了详细的统计如下图,体现出了数据集的多样性和复杂性,更加体现出了数据集的意义所在。

4.Empirical study of state-of-the-arts :

这里主要是对各种人体解析以及语义分割方法在新建立的基准数据集上做一个测试,并且做了一个详尽的分析。目的是探究当前方法提取特征的 robust 以及当前存在的各种挑战,发现限制当前方法的原因。
分析了 FCN (全卷积结构)、SegNet (编码解码结构)、Deeplabv2 (多尺度以及空洞卷积结构)以及 Attention (attention 机制) ,每一个都训练 30 epochs , 并且在 validation set 和 test set 上分别估计,结果如下 :(不太理解钱)

发现 SSL 的使用确实提升了训练的结果。

3.2 Performance evaluation under different challenges

对于不同的具有挑战性的场景 : 遮挡、全身、上身、头部缺失、背后视角。我们分别进行了测试。测试结果如下 :


不难发现,背后视角是最大的挑战,其次是头部的缺失,上身预测的效果最好,因为它比较大,语义部分较少。
从这些结果中,我们可以得出结论:Head(或Face)是现有人体解析方法的重要线索。如果头部部分在图像或在back-view中消失,则出现模糊结果的概率会增加。此外,由于存在,小尺度部件的存在(如,鞋子,袜子),导致下半身部件解析要比上半身更难。在这种情况下,人体关节结构在人体解析中会起到更重要的作用。

Performance evaluation under different challenges

为了更详细地讨论和分析LIP数据集中的20个标签中每个类别,我们进一步报告了IOU在LIP验证集上每个类别的性能,如下表所示 :

可以发现,较大的部件表现的要好,较小的部件表现的差。原因在于小部件需要更加精准的预测。使用了 attention 的 Attention 以及 多尺度的 deeplabv2 在小物体上显然有着更好的效果。

Visualization comparison

对于上述 五种具有挑战的因素,给出了分析。
对于稍微遮挡的上身图像(a),四种方法都表现良好,误差较小.。对于back-view(b),所有四种方法都错误地将右臂标记为左臂。最糟糕的结果出现在头部漏掉的图像©上。SegNet [3]和FCN-8 不能识别手臂和腿,而DeepLabV2 和Attention 在手臂、腿和鞋子上都出现错误。此外,严重的遮挡(d)对性能影响也很大。全身性不那么具有挑战性,但像鞋子这样的全身图像中的小物体也很难精确预测。而且,从(c)和(d)观察可知,从人体配置的角度来看,由于现存的方法缺少人体结构信息,使得一些解析结果不合理,(例如,脚上的两只鞋)。总的来说,人体解析比一般的目标分割还要更困难。特别,为了增强对人体部位和服装结构的预测能力,我们应该更过注意的人体结构,才能使得分割结果会更合理,更符合人体配置。因此,我们考虑将人的解析结果和身体关节结构联系起来,以找到一种更好的人的解析方法。

4.Self-supervised Structure-sensitive Learning

主要是提出了一种结构性损失,使用身体关节点预测去 guide 人体解析工作,以获得结构的特征。但是我们 身体关节点不直接进行标记,而是通过计算中心点近似得到。然后计算一个 structure loss 作为权重系数去乘以 softmax loss 得到最后的 loss 然后进行反向传播。
这里每一个 joint 通过一个热度图来标记 (下图中的图是 9 个 joint 热度图叠起来出现的视觉效果),如果不存在这种 joint 则把热度图全部标记成 0,使用 MSE 作为损失函数。
过程 以及 计算公式如下图 :

Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing相关推荐

  1. 【论文阅读】Graphonomy: Universal Human Parsing via Graph Transfer Learning通过图迁移学习进行的通用人体解析

    Problem问题 人体解析是指将在图像中捕获的人分割成多个语义上一致的区域,例如, 身体部位和衣物.作为一种细粒度的语义分割任务,它比仅是寻找人体轮廓的人物分割更具挑战性. 人体解析对于以人为中心的 ...

  2. [半监督学习] Adversarial Dropout for Supervised and Semi-Supervised Learning

    引入了对抗性 dropout(AdD), 可最大限度地提高具有 dropouts 的网络输出之间的差异. 识别出的对抗性 dropout 用于在训练过程中自动重新配置神经网络, 是 Virtual A ...

  3. RepNet:Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human PoseEstimation

    RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimati ...

  4. Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction

    ECCV 2020的内容,属于几何深度学习,同时隶属于当下火热的方法隐式函数,下文是本篇论文的读书笔记. 文献一开始提出了隐式函数在进行生成的时候的缺点: (1)生成的物体表面是静态的 (2)模型的表 ...

  5. 人体解析--Look into Person: Self-supervised Structure-sensitive Learning

    Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing ...

  6. (十一:2020.08.28)CVPR 2017 追踪之论文纲要(译)

    CVPR 2017 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  7. CVPR2017论文

    CVPR2017论文 Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View Subspace ...

  8. CVPR 2017 paper

    参考链接 CVPR 2017 open access Paperlist Graph-Structured Representations for Visual Question Answering ...

  9. CVPR 2017论文集锦(论文分类)—— 附录部分翻译

    作为计算机视觉领域的三大顶级会议之一,CVPR 2017 又收录了很多优秀的文章.具体可参见 CVPR 的论文官网:http://www.cvpapers.com/cvpr2017.html Mach ...

最新文章

  1. python【蓝桥杯vip练习题库】ADV-309进制转换
  2. Git/Github--push自己的第一段代码
  3. 利用解构赋值获取后端特定字段数据
  4. linux5.9安装教程,Linux内核5.9的最重要功能及安装方法
  5. 搬货物(51Nod-1596)
  6. CentOS 7部署 Ceph分布式存储架构
  7. 镁光ssd管理工具 linux,镁光C400固态硬盘08TH固件及升级软件
  8. [转载] Python学习笔记 String类型常用方法
  9. Linux Command - alien
  10. sencha touch 2中list控件分组排序
  11. 电商api全境,Python网络爬虫与数据采集
  12. 传奇3服务器配置文件,分享传奇三架设的全部详细攻略
  13. win7电脑怎么伪装ip地址【系统天地】
  14. 《视觉slam十四讲》第3讲课后习题
  15. 电脑android模拟器下载地址,原神电脑版怎么下载 安卓模拟器电脑版下载地址
  16. Node.JS的魔力与神话
  17. 专有钉钉下载(windows、IOS、Android)地址
  18. FD650B数码管驱动
  19. git tag怎么使用_这才是真正的Git——Git内部原理揭秘!
  20. js 数组从头添加到数组_如何从头开始实现JavaScript数组方法

热门文章

  1. c语言编游戏怎么设置背景图,steam如何设置背景图片 steam个人背景图片设置教程...
  2. Mac外接显示器设置(四种模式)
  3. 腾讯云服务器和域名的搭建
  4. 【JavaScript】四个常用功能/案例:表格排序 | 替换链接 | 倒计时 | 双色球机选一注
  5. 如何使用数字孪生和人工智能优化制造
  6. Vivado将程序固化到Xilinx的FPGA开发板的flash芯片中
  7. 微信 html avi视频无法播放,为何MP4不能播放MP4格式视频文件
  8. 一些linux的记录
  9. jQuery导航插件One-Page-Nav演示-显示命名锚记
  10. Machine Learning 和 Data Science 的最佳公共数据集