论文地址:Occlusion-Aware Siamese Network for Human Pose Estimation

论文总结

  本文的网络名,作者命名为OASNet。本文的出发点就如名字所说的一般,设计方法的思路是朝着姿态检测中遮挡问题做的。其主要做法就是通过人工制作遮挡,使用attention机制将遮挡部分的信息擦除,然后使用领域信息重构回丢失的有用信息,这部分也就是信息擦除和重构模块。这个attention分支得到的东西是通过中间监督来保证遮挡部分的信息擦除。
  特征重构部分是想要将特征擦除中丢失的有用信息给找回来,其方式是通过两个连续的空洞卷积来得到上下文信息。在对特征重构做监督的时候,需要将自遮挡部分的区域信息给抹去,这是因为自遮挡部分对于特征重构而言也会造成一定的问题,因此其目的只是对抹除掉的有效遮挡信息做恢复。特征重构的监督,是通过共享权重,但不同输入(一个人工遮挡部分关键点,一个原图)的孪生网络得到的对应特征图所做的。至于将自遮挡部分的信息擦除的操作,是通过数据集中对可标不可见的自遮挡关键点有额外的标签,所以能有此操作,实际上也就是通过该label生成对应的mask进行处理。
  因为特征重构中不对自然遮挡部分(不是人工生成的遮挡)做监督,所以作者对该部分的损失函数权重较低(如果同为L2的话,则为1%)。整个网络的训练中还是添加了大量的Joint Heatmap的监督和中间监督。

论文介绍

结构介绍

  本文的网络结构入下图所示:在训练的时候,会生成数个Joint Heatmap,以及一个attention map,一个重构的特征表示。通过孪生网络,输入对应的添加遮挡的图片已经原图得到一组重构的特征表示,进行联合学习。

  由于有三组输出,所以网络在训练时也有三个对应的损失函数:其中LJL_JLJ​是Joint Heatmap的损失函数,一般为L2L_2L2​损失函数,LoL_oLo​是Occlusion map的损失函数,Occlusion map∈R1∗h∗w\in R^{1*h*w}∈R1∗h∗w,损失函数一般也为L2L_2L2​;LmimincL_{miminc}Lmiminc​是重构特征通过Mask产生的特征的损失函数,作者推荐使用基于分布匹配的OT(Optimal Transport)散度去寻找最优传播路径。

思路介绍

  本文利用attention机制来排除遮挡的干扰。对attention map添加中间监督,使其更有目的性,更能精确地预测遮挡部分。这样得到的attention map为特征消除和重构提供坚实的基础。

  在明确学习的遮挡感知attention map的知道下,可以消除遮挡引起的模糊性,获得相对干净的feature map。但这样也会删除一些有用信息,特别是在自遮挡的情况下。因此特征重构是获得更有效、更有信息的特征表示的必要方式。实际上,就是通过两个连续的空洞卷积获取上下文信息。两个空洞卷积,空洞率分别为222和444,卷积核大小为3∗33*33∗3。

  特征重构,一方面获得新的信息来替换被遮挡的特征;另一方面用于恢复那些被错误消除的有用的语义信息。因此,特征重构子模块可以在没有遮挡的情况下捕获周围区域的信息,从而为恢复提供方便。

  因此,提出一个孪生网络框架来促进这一进程,为重构提出充足的前期指导。孪生网络有两个分支,共享权重,第二个分支以无遮挡的图像作为输入,提供干净的特征表示;而第一个分支输入遮挡的图像,遮挡出现在第一个分支是手动生成的。孪生网络的目的是遮挡分支去模仿没有遮挡分支的行为,但如何让两个分支在高纬度上相近是由挑战性的,所以作者选择在低维空间上使用optimal transport(OT)散度,附加额外的mask作为正则化。

  作者总结的本文所做的三个贡献:

  1. attention map是遮挡感知的,以消除不同类型的遮挡引起的模糊问题;
  2. 为使遮挡的特征能模仿无遮挡特征的行为,提出了一种带有特征消除和重构子模块的孪生网络;
  3. 没有采用element-wise对齐的方法来减少两组特征的差距,而是使用最大传输(Optimal Transport)来完成这一任务。

  本文利用了额外标记的遮挡的flag来明确学习的注意力。在以前的工作中,很少有利用这个标签资源的,他们忽视了这种有价值的线索。Occlusion map的ground truth和预测如下图所示:所有的channel叠加到了一个通道上,然后clamp到[0,1][0,1][0,1]的区间内,且只预测被遮挡部分的关键点。

  学习的occlusion heatmap通过HA=1−HoH_A=1-H_oHA​=1−Ho​取反操作得到对应的无遮挡区域信息,再通过元素乘积即可得所需要的无遮挡信息,即完成遮挡特征擦除工作。

【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation相关推荐

  1. [论文阅读:姿态识别Transformer] POET: End-to-End Trainable Multi-Instance Pose Estimation with Transformers

    [论文阅读:姿态识别&Transformer] 2103 POET: End-to-End Trainable Multi-Instance Pose Estimation with Tran ...

  2. 论文阅读 Semantic Graph Convolutional Networks for 3D Human Pose Regression

    Semantic Graph Convolutional Networks for 3D Human Pose Regression 使用语义图卷积网络对三维人体姿态进行回归 Abstract ​ 在 ...

  3. 论文学习笔记:Learning to Estimate 3D Human Pose and Shape From a Single Color Image

    解决的问题:从单个彩色图像估计人体的姿势和形状 - 一般方法:通过迭代优化 - 存在的问题:卷积网络缺少训练数据.3D预测时分辨率低 本篇论文的工作:提出一个基于卷积网络的高效的直接预测方法来解决上述 ...

  4. Kaiming He论文阅读笔记三——Simple Siamese Representation Learning

    Kaiming He大神在2021年发表的Exploring Simple Siamese Representation Learning,截至目前已经有963的引用,今天我们就一起来阅读一下这篇自监 ...

  5. 【ACCV2022】论文阅读笔记Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning

    Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning 使用基于蒸馏通道裁剪的轻量Alpha抠图网络 ht ...

  6. 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

    论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...

  7. 自监督论文阅读笔记SELF-SUPERVISED SPECTRAL MATCHING NETWORK FOR HYPERSPECTRAL TARGET DETECTION

    高光谱目标检测是一个像素级的识别问题.给定几个目标样本,它旨在从整个高光谱图像中识别特定的目标像素,例如飞机.车辆.船舶.一般来说,背景像素占图像的大部分并且分布复杂.结果,数据集的注释很弱并且非常不 ...

  8. 【SSN】:Spatial Shortcut Network for Human Pose Estimation

    1.概述 现有的基于姿态估计的方式,是通过逐像素分类实现的,这种方式是考虑不到大范围的空间信息的.举例来说:在左图中,由于肘关节的外观与膝关节非常相似,对于一个感受野仅能覆盖肘关节本身的小特征提取器, ...

  9. Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation翻译

    对抗性的PoseNet:一种对于人类姿态估计的结构感知的卷积网络 摘要: 在单目图像中,人的姿态估计,关节遮挡和重叠在人体上经常导致偏差的姿势预测. 在这种情况下,可能会产生生物学上难以置信的姿态预测 ...

最新文章

  1. 【bzoj4916】神犇和蒟蒻 杜教筛
  2. Spring in Action 4 读书笔记之使用标签创建 AOP
  3. 产品设计丨价格理论与用户体验
  4. DateDiff 函数的用法
  5. IOS中货币高精度要求使用NSDecialNumber、
  6. 《树莓派渗透测试实战》——2.12 用例子总结以上步骤
  7. LeetCode 673. 最长递增子序列的个数(DP)
  8. 太牛了!西工大研究生一期Science发了3篇文章!
  9. C# 中? 和 ?? 在变量中的使用
  10. 【工具相关】iOS-Reveal的使用
  11. Rust 碎碎念:【译】Arc 在 Rust 中是如何工作的
  12. linux锐捷代码_锐捷认证 For Linux
  13. ASP.NET使用WPS WORD转PDF
  14. 自适应盲信号处理的经典
  15. stm32中的“hello world”
  16. 学习笔记——共阳数码管的动态显示
  17. MySQL连接、SSL加密与密码插件
  18. Exercise14_11
  19. 项目记录——为沙特客户Android开发Google地图应用
  20. ERP主要功能模块简介- -

热门文章

  1. Oracle RAC修改监听端口号:
  2. 饥荒联机服务器启动文件副本,饥荒联机版一个存档一直启动服务器 | 手游网游页游攻略大全...
  3. Intellij idea 代码提示忽略字母大小写和常用快捷键及设置
  4. 简单讲解冒泡排序算法
  5. 《当代青年血槽已空图鉴》
  6. c mysql maxpoolsize_记一次 druid maxPoolSize(maxActive) 配置引起的线上事故
  7. 创业失败的十八个原因——The 18 Mistakes that Kill Startups
  8. percona mysql 主从_percona主从配置
  9. android 手机获取 root 权限
  10. 职业教育标准教材·计算机组装与维修,中等职业教育计算机专业系列教材:计算机组装与维护...