Index

  • 摘要
  • 现有的方法
  • HRNet
    • 并行子网结构
    • 多尺度融合
  • 应用

论文1:https://arxiv.org/abs/1904.04514
论文2:https://arxiv.org/abs/1902.09212
代码:https://github.com/HRNet

摘要

这两篇文章主要讲的就是如何在人体姿态估计,目标检测,语义分割等情况下保持高分辨的特征表示。目前多数方法从由高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。而本文在整个过程中保持高分辨率的表示。我们将高分辨率子网开始作为第一阶段,逐步添加高到低分辨率子网以形成更多阶段,并行连接多个子网,每个子网具有不同的分辨率。我们进行重复的多尺度融合,使得高到低分辨率表示可以重复从其他分辨率的表示获取信息,从而导致丰富的高分辨率表示。因此,预测的关键点热图可能更准确,空间更精确。

现有的方法


现有的高分辨率的表示方法主要有

  • Hourglass:对称结构,先下采样,再上采样,同时使用跳层连接恢复下采样丢失的信息;
  • Cascade pyramid networks:级联金字塔;
  • SimpleBaseline:先下采样,转置卷积上采样,不使用跳层连接进行数据融合;
  • Dilated convolutions:扩张卷积,减少下采样次数,不使用跳层连接进行数据融合;

HRNet


它能够在整个过程中保持高分辨率表示。以高分辨率子网开始作为第一阶段,逐个添加高到低分辨率子网以形成更多阶段,并且并行连接多分辨率子网。在整个过程中反复交换并行多分辨率子网络中的信息来进行重复的多尺度融合。

优点:

  • 并行连接高低分辨率子网,而不是像大多数现有解决方案那样串联连接。因此,我们的方法能够保持高分辨率而不是通过从低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确
  • 大多数现有的融合方案汇总了低级别和高级别的表示。相反,我们在相同深度和相似水平的低分辨率表示的帮助下执行重复的多尺度融合以提升高分辨率表示,反之亦然,导致高分辨率表示对于姿势估计也是丰富的。因此,我们预测的热图可能更准确。个人感觉增加多尺度信息之间的融合是正确的,例如原图像和模糊图像进行联合双边滤波可以得到介于两者之间的模糊程度的图像,而RGF滤波就是重复将联合双边滤波的结果作为那张模糊的引导图,这样得到的结果会越来越趋近于原图。此处同样的道理,不同分辨率的图像采样到相同的尺度反复的融合,加之网络的学习能力,会使得多次融合后的结果更加趋近于正确的表示。

并行子网结构


如图,每一次并不是直接下采样,而是多了一条并行的下采样支路。

多尺度融合


支路之间的信息传递,对于每一条支路,都接受前一个阶段所有支路的信息,那么多尺度更大的特征图则通过strided 3x3卷积来下采样,而尺度小的则通过插值来上采样并通过一个1x1卷积。融合的策略是add。

应用

  • 人体姿态估计
    对应的图(a),也就是HRNet1,只输出最高分辨率。
  • 语义分割、人脸关键点检测
    对于的图 (b),所有的低分辨率特征图上采样后concat,也就是HRNetV2,最后1x1卷积后softmax。
  • 目标检测
    对应的图(c),将语义分割也就是HRNetV2的特征图下采样构成新的特征金字塔,也就是HRNetV2p,类似于FPN,每一个尺度分别预测。
  • 图像分类


如上图所示,就是结合多个尺度,高分辨率下采样后与低分辨率add,最后全局均匀池化后进行分类。

目标检测系列:高分辨率表示HRNetV1、HRNetV2/V2p相关推荐

  1. 目标检测(降低误检测率及小目标检测系列笔记)

    深度学习中,为了提高模型的精度和泛化能力,往往着眼于两个方面:(1)使用更多的数据(2)使用更深更复杂的网络. ** 一.什么是负样本 ** 负样本是指不包含任务所要识别的目标的图像,也叫负图像(Ne ...

  2. 非极大值抑制_【计算机视觉——RCNN目标检测系列】三、IoU与非极大抑制

    写在前面 在上一篇博客:[计算机视觉-RCNN目标检测系列]二.边界框回归(Bounding-Box Regression)( 戴璞微:[计算机视觉-RCNN目标检测系列]二.边界框回归(Boundi ...

  3. 【R-CNN目标检测系列】三、IoU与非极大抑制

    写在前面 在上一篇博客:[计算机视觉--RCNN目标检测系列]二.边界框回归(Bounding-Box Regression)中我们主要讲解了R-CNN中边界框回归,接下来我们在这篇博客我们讲解R-C ...

  4. 目标检测系列(preface) 数据集DataSets

    目标检测系列(Preface) - 数据集 公开数据集(PASCAL VOC // COCO)介绍 一.PASCAL VOC格式数据集 官网 标注工具 1.数据集一般格式 VOC2007 Annota ...

  5. python目标识别算法_深度学习目标检测系列:一文弄懂YOLO算法|附Python源码

    摘要: 本文是目标检测系列文章--YOLO算法,介绍其基本原理及实现细节,并用python实现,方便读者上手体验目标检测的乐趣. 在之前的文章中,介绍了计算机视觉领域中目标检测的相关方法--RCNN系 ...

  6. 【目标检测系列】CNN中的目标多尺度处理方法

    关注上方"深度学习技术前沿",选择"星标公众号", 技术干货,第一时间送达! [导读]本篇博文我们一起来讨论总结一下目标检测任务中用来处理目标多尺度的一些算法. ...

  7. ubuntu查看cudnn是否安装成功_深度学习之目标检测系列(0) -ubuntu18.04+RTX2080Ti+cuda+cudnn安装...

    ubuntu18.04使用cudnn的过程中会遇见很多问题,而且搜索很多文章发现比较杂乱,我这里总结一下,方便小伙伴少走几步坑. 我的服务器硬件配置信息 (2019-01购买) CPU: 英特尔(in ...

  8. 3d max用不同目标做关键帧_基于光流的视频目标检测系列文章解读

    作者:平凡的外卖小哥 全文5747字,预计阅读时间15分钟 1 简介 目前针对于图片的目标检测的方法大致分为两类: faster R-CNN/R-FCN一类: 此类方法在进行bbox回归和分类之前,必 ...

  9. tensorflow2 目标检测_基于光流的视频目标检测系列文章解读

    作者:平凡的外卖小哥 全文5747字,预计阅读时间15分钟 1 简介 目前针对于图片的目标检测的方法大致分为两类: faster R-CNN/R-FCN一类: 此类方法在进行bbox回归和分类之前,必 ...

最新文章

  1. RabbitMQ简单测试
  2. python输入与输出165
  3. CSS+js弹出居中的背景半透明div层
  4. Laravel大型项目系列教程(五)之文章和标签管理
  5. 下一代 IDE:Eclipse Che 究竟有什么奥秘?
  6. 硅谷历史_使其新颖:硅谷设计的历史
  7. 无效内存引用_10.swift5-常见语法及内存管理
  8. CLI里面的秘密……(二)强命名、元数据以及文件结构(上半部分)
  9. 通信电子电路实验(一)—— 高频小信号调谐放大器电路设计
  10. JAVA中interface接口的使用
  11. 计算机游戏cpu,千元级战斗机游戏CPU体验,大学4年够你天天开黑了
  12. c语言化验诊断题目,医学检验技师模拟考试题(含答案)
  13. 在服务器上创建文件夹,在服务器上创建文件夹
  14. Ubuntu systemd配置文件/etc/systemd/system被删解决方案
  15. 游弋于太平洋,摆脱甜蜜的烦恼
  16. 多个vue项目合并成一个_多个Excel表格合并成一个表,最简单的方法在这里
  17. 同济大学数理强化计算机,同济大学考研之学科设置介绍
  18. ChatGPT与创意表达:探索机器人写作者的潜力
  19. ssl证书 所属项目怎么上传_ssl证书怎么上传
  20. 解决:These dependencies were not found

热门文章

  1. 本周AI热点回顾:AI技术重现的老北京原声影像又火了、百度ERNIE-ViL刷新5项任务记录、Transformer 3发布
  2. 小程序AP配网和AK配网教程(开源)
  3. ValueError:too many values to unpacked(expect2)
  4. python基础(24)IO编程
  5. JavaSE 和 Java EE 分别是什么
  6. Nvidia Maxine 精讲(一)AR-SDK安装使用——BodyTrack 【非官方全网首发】
  7. 洞见 SELENIUM 自动化测试
  8. 关于设置背景图片的透明度(html+css)
  9. CC3200——管脚的细节
  10. jQuery遍历对象/数组/集合