用于视觉识别的深度高分辨率表征学习

github:https://github.com/HRNet

论文地址:https://arxiv.org/pdf/1908.07919

摘要

高分辨率表示对于位置敏感的视觉问题是必不可少的,例如人体姿态估计、语义分割和对象检测。现有的最先进的框架首先将输入图像编码为通过子网的低分辨率表示,该子网通过串联连接高到低分辨率卷积(例如,ResNet、VGGNet)而形成,然后从编码的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络,命名为高分辨率网络(HRNet),在整个过程中保持高分辨率表示。

有两个关键特征:(1)并行连接高到低分辨率卷积流;㈡在不同决议之间反复交换信息。好处是,结果表示在语义上更丰富,在空间上更精确。

我们展示了所提出的人力资源网在广泛的应用中的优越性,包括人体姿态估计、语义分割和目标检测,表明HRNet是解决计算机视觉问题的更强有力的支柱。

介绍

我们展示了两个版本的HRNet。第一个名为HRNetV1,只输出从高分辨率卷积流计算的高分辨率表示。我们通过遵循热图估计框架将其应用于人体姿态估计。我们通过实验证明了COCO关键点检测数据集上优越的姿态估计性能[94]。另一个名为HRNetV2,结合了所有从高到低分辨率的并行流的表示。我们通过从组合高分辨率表示中估计分割图,将其应用于语义分割。我们观察到HRNetV1和HRNetV2相对于COCO姿势估计的相似性能,以及HRNetV2相对于HRNet1在语义分割方面的优势。此外,我们从HRNetV2的高分辨率表示输出中构建了一个名为HRNetV2p的多级表示,并将其应用于最先进的检测框架,包括快速R-CNN、级联RCNN [12]、FCOS [136]和中心网[36],以及最先进的联合检测和实例分割框架,包括掩码R-CNN [53]、级联掩码R-CNN和混合任务级联[16]。结果表明,我们的方法得到了检测性能的提高,特别是对小目标的显著提高。

我们的网络并行连接高到低的卷积流。它在整个过程中保持高分辨率表示,并通过重复融合来自多分辨率流的表示来生成具有强位置敏感性的可靠的高分辨率表示。本文代表了我们之前的会议论文[130]的一个非常实质性的扩展,增加了我们未发表的技术报告[131]中的附加材料,以及在最新开发的最先进的对象检测和实例分割框架下的更多对象检测结果。与[130]相比,主要的技术创新有三个方面。(1)我们将[130]中提出的网络(命名为HRNetV1)扩展到两个版本:HRNetV2和HRNetV2p,这两个版本探索了所有的四分辨率表示。(2)我们建立了多分辨率融合和正则卷积之间的联系,为探索HRNetV2和HRNetV2p中所有四分辨率表示的必要性提供了证据。(3)展示了HRNetV2和HRNetV2p相对于HRNetV1的优势,并介绍了HRNetV2和HRNetV2p在包括语义分割和目标检测在内的广泛视觉问题中的应用。

HRNet

我们将图像输入到一个主干中,该主干由两个stride2   3 × 3conv组成,将分辨率降低到1/4,随后是输出具有相同分辨率(1/4)的表示的主体。主体如图2所示,下面将详细介绍,它由几个部分组成:并行多分辨率卷积、重复多分辨率融合和图4所示的表示头。

Parallel Multi-Resolution Convolutions 并行多分辨率卷积

我们从一个高分辨率的卷积流作为第一阶段开始,逐步逐个添加高分辨率到低分辨率的流,形成新的阶段,并行连接多分辨率流。因此,后一阶段的并行流的分辨率由前一阶段的分辨率和更低的分辨率组成。图2所示的示例网络结构包含4个并行流,逻辑如下:

Repeated Multi-Resolution Fusions重复多分辨率融合

融合模块的目标是跨多分辨率表示交换信息。它被重复几次(例如,每4个剩余单元)。让我们看一个融合3分辨率表示的例子,如图3所示。

Representation Head表示头

我们有三种表示头,如图4所示,分别称为HRNetV1、HRNetV2和HRNetV1p。

HRNetV1。输出只是高分辨率流的表示。其他三种表示被忽略。这如图4 (a)所示。

HRNetV2。我们通过双线性上采样重新缩放低分辨率表示,而不将通道数更改为高分辨率,并连接四个表示,然后进行1 × 1卷积以混合四个表示。这如图4 (b)所示。

HRNetV2p。我们通过将HRNetV2的高分辨率表示输出下采样到多个级别来构建多级别表示。这在图4 (c)中有描述。在本文中,我们将展示将HRNetV1应用于人体姿态估计、HRNetV2应用于语义分割以及HRNetV2p应用于对象检测的结果。

结构和分析

主体包含四个阶段和四个并行卷积流。分辨率是1/4、1/8、1/16和1/32。第一阶段包含4个残差单元,其中每个单元由宽度为64的瓶颈形成,随后是一个3 × 3卷积,将特征映射的宽度更改为C。第二、第三和第四阶段分别包含1、4、3个模块化块。模块化块的多分辨率并行卷积中的每个分支包含4个剩余单元。每个单元对于每个分辨率包含两个3 × 3卷积,其中每个卷积之后是批量归一化和非线性激活ReLU。四种分辨率的卷积的宽度(通道数)分别是C、2C、4C和8C。一个例子如图2所示。

我们分析了分成两个部分的模块化块:多分辨率并行卷积(图5 (a))和多分辨率融合(图5 (b))。多分辨率并行卷积类似于群卷积。它将输入通道分成几个通道子集,并分别在不同的空间分辨率上对每个子集执行规则卷积,而在组卷积中,分辨率是相同的。这种联系意味着多分辨率并行卷积享有群卷积的一些好处。多分辨率融合单元类似于常规卷积的多分支全连接形式,如图5 (c)所示。如[178]所述,一个规则的卷积可以被分成多个小卷积。输入通道分为几个子集,输出通道也分为几个子集。输入和输出子集以完全连接的方式连接,每个连接都是规则的卷积。输出通道的每个子集是输入通道的每个子集上的卷积输出的总和。不同之处在于我们的多分辨率融合需要处理分辨率的变化。多分辨率融合和规则卷积之间的联系为探索HRNetV2和HRNetV2p中完成的所有四分辨率表示提供了证据。

训练和结果(只记录语义分割部分)

我们遵循相同的训练协议[181],[182]。通过随机裁剪(从1024×2048到512 × 1024)、在[0.5,2]范围内的随机缩放和随机水平翻转来扩充数据。我们使用基本学习率为0.01、动量为0.9、权重衰减为0.0005的SGD优化器。0.9次方的多学习率策略用于降低学习率。所有模型都经过120K迭代的训练,在4个GPU和syncBN上的批处理大小为12。

在small model上的表现(轻量级网络)

论文解读|2020TPAMI|Deep High-Resolution Representation Learning for Visual Recognition相关推荐

  1. 【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition

    Deep High-Resolution Representation Learning for Visual Recognition 用于视觉识别的深度高分辨率表示学习 文章地址:https://a ...

  2. Deep High-Resolution Representation Learning for Visual Recognition阅读笔记

    用于视觉识别的深度高分辨率表示学习 论文链接 摘要: 高分辨率表示对于人体姿态估计.语义分割和目标检测这类位置敏感的视觉问题至关重要.现有的 sota 框架首先通过串联 high-to-low 分辨率 ...

  3. 论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

    论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning (2018 ACL) 简要信息: ...

  4. 论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap

    论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap ...

  5. 论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction

    论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction (201 ...

  6. 论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall

    论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall   先前一系列Prompt方法基于搜索策略获得Prompt的templa ...

  7. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征

    DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition 一般视觉识别的深度卷积刺激特征 Abstra ...

  8. 指代消解_论文理解《Improving Coreference Resolution by Learning Entity-Level Distributed Representations》

    论文<Improving Coreference Resolution by Learning Entity-Level Distributed Representations> 段落: ...

  9. 【论文笔记】Towards Universal Sequence Representation Learning for Recommender Systems

    论文详细信息 题目:Towards Universal Sequence Representation Learning for Recommender Systems 作者:Yupeng Hou a ...

最新文章

  1. 【Verilog HDL 训练】第 09 天(按键消抖)
  2. 【原生js】js动态添加dom,如何绑定事件
  3. OC之OBJC2_UNAVAILABLE
  4. 不属于个人计算机范围的是,计算机应用基础模拟试卷2
  5. P2911 [USACO08OCT]Bovine Bones G (python3实现)
  6. JavaScript文档对象模型DOM节点操作之第一个子元素和最后一个子元素(3)
  7. ssl客户端与服务端通信的demo
  8. GEO-Slope产品
  9. c++ 多线程_python要点-多线程
  10. 给你 2021 最酷网页设计指南!
  11. vscode退回快捷键
  12. 2021年美国大学生数学建模竞赛助力
  13. 【一文读懂生物学重复与技术重复】
  14. Ubuntu 设置合上笔记本盖子休眠的方法
  15. 微型投影仪第五篇——Metro UI
  16. python 多版本共存
  17. 无尽学习者修炼指南 v3.0
  18. c#连接sqlserver数据库-百分百能连接成功的代码超详细
  19. 学生作品 | Indigo Design Awards获奖作品,可乐瓶的二次利用
  20. ssm整合笔记(1)-curd

热门文章

  1. 2018 Arab Collegiate Programming Contest (ACPC 2018) E - Exciting Menus AC自动机
  2. linux 运行 epics,CentOS7安装EPICS Base与建立IOC实例
  3. 用PhotoShop快速给证件照排版
  4. xiunobbs 4 mysql_轻论坛程序 - Xiuno BBS 4.0
  5. 微信小程序开通直播的条件
  6. 一、达梦数据库的安装
  7. 基于代理的西亚城市动态模拟:难民的影响
  8. 计算机显示屏显示超出屏幕大小,如果计算机提示显示器显示超出范围,该怎么办?...
  9. 什么样的投影仪好?哪款家用投影仪又好又便宜
  10. Android 版灵动岛插件上线;iPhone 15或将改名,并改用USB-C接口;​Swift 5.7 发布|极客头条