ECCV-2018


文章目录

  • 1 Background and Motivation
  • 2 Advantages / Contributions
  • 3 Method
    • 3.1 Pose Estimation Using A Deconvolution Head Network
    • 3.2 Pose Tracking Based on Optical Flow
  • 4 Experiments
    • 4.1 Datasets
    • 4.2 Pose Estimation on COCO
    • 4.3 Pose Estimation and Tracking on PoseTrack
  • 5 Conclusion(own) / Future work

1 Background and Motivation

在 《Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation》和 Deeppose 的引领下,人体姿态评估进入了 DCNN 时代,几年的发展,基于 DCNN 的人体姿态评估方法已经在 MPII 和 COCO 数据集上实现了精度上的飞跃,随着人体姿势评估的快速成熟,“simultaneous pose detection and tracking in the wild” 任务成为了人们攻克的新目标

然而,architecture and experiment practice have steadily become more complex,精度却一直比较暧昧,this makes the algorithm analysis and comparison more difficult(不知道哪个方向,哪个细节更影响精度)

于是作者大繁若简,搞了一个 Simple Baseline,除去繁华,追求最存粹的真善美(简单实用)

在 challenging benchmark 上实现了 SOTA,比 the winner of ICCV’17 PoseTrack Challenge 和 the winner of COCO 2017 keypoint Challenge 精度都高!

2 Advantages / Contributions

用简单的 resnet 配合 de-convolution,实现了 human pose estimation and tracking 的 SOTA

We hope such baselines would benefit the field by easing the idea development and evaluation.

3 Method

3.1 Pose Estimation Using A Deconvolution Head Network


三种结构的共同点是 three upsampling steps and also three levels of non-linearity (from the deepest feature) are used to obtain high resolution feature maps and heatmaps.

作者的观测是

obtaining high resolution feature maps is crucial, but no matter how

然后还来了句

It is hard to conclude which architecture in Fig. 1 is better

反正在 MS COCO 这个数据集上,朴实无华的 resnet 有一战之力

作者的方法比较直接,用 ResNet 配合 3 个 deconvolution (deconvolution 用的是 4×4 的 kernel,256 个 filters,stride 为 2)就搞定了,学了这个方法,再看别人的方法,感觉都像是……

作者采用 MSE loss 来计算 GT 和 predict 的热力图,GT 的处理和 【Stacked Hourglass】《Stacked Hourglass Networks for Human Pose Estimation》 一样,都是常规操作

给我一种,只要风大(数据够,训练的久),猪(朴实无华的网络)飞起来(效果追上来)不是不可能的感觉

3.2 Pose Tracking Based on Optical Flow

略,感觉把文章的核心给略了,哈哈

4 Experiments

4.1 Datasets

  • COCO MS
    train:COCO train2017 dataset (includes 57K images and 150K person instances)
    ablation:COCO val2017
    report the final results: COCO test-dev2017

评价指标是 AP,和目标检测的区别是用 OKS 替换了 IoU,细节可以参考 MS COCO 目标检测 、人体关键点检测评价指标

作者这两句话也提炼的蛮 nice

The OKS plays the same role as the IoU in object detection. It is calculated from the distance between predicted points and ground truth points normalized by scale of the person.

4.2 Pose Estimation on COCO

1)Training:

人的框框被设定为固定的比例,4:3,It is then cropped from the image and resized to a fixed resolution,eg:256×192

ResNet 用 ImageNet pretrained 模型

2)Testing:

先用 faster-RCNN detector with detection AP 56.4 for the person category on COCO val2017,检测出人,然后再进行关键点检测

flipping 和原图预测出来的热力图会平均起来,来预测最终的 joint location(人基本在图片的中心,所以问题不大,本来也是对称预测的)

A quarter offset in the direction from highest response to the second highest response is used to obtain the final location.


3)Ablation Study

  • Heat map resolution
    (a)输出的 heatmaps 分辨率为 64×48,(b)输出的分辨率为 32×24,3 次最好
  • Kernel size(deconvolution)
    (a、c、d),4 最好
  • Backbone
    (a、e、f),确实网络越大效果越好
  • Image size
    (a、g、h),也是越大效果越好

4)Comparison with Other Methods on COCO val2017


对比的方法都遵循 top-down two-stage paradigm,top-down 的意思是先检测人,再预测 joint location,two-stage 应该是 low-to-high 然后 high-to-low,U 形结构

作者这里用的 person detection AP 有 56.4

5)Comparisons on COCO test-dev dataset


作者这里用的 person detection AP 有 60.9

【Simple Baselines】《Simple Baselines for Human Pose Estimation and Tracking》相关推荐

  1. 10.23周报Simple Baselines for Human Pose Estimation and Tracking研读

    目录 前言 文献 文献名字:Simple Baselines for Human Pose Estimation and Tracking 作者:Bin Xiao, Haiping Wu, and Y ...

  2. 计算机思维在美术方面的应用,【家园共育】《思维绘画在儿童美术中的运用》心得体会...

    原标题:[家园共育]<思维绘画在儿童美术中的运用>心得体会 提到幼教365,相信老师和家长们已不再陌生,转眼间,从刚开始接触到深入学习幼教365平台上专家的直播讲座已经90多期了.现在,老 ...

  3. 姿态估计入门-2020综述《The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D》

    <The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D Human Pose ...

  4. 【2020-CVPR-3D人体姿态估计】Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data

    Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data 题目:<基于进化训练数据的级联深 ...

  5. 【哲学问题】-《哲学家们都干了些什么?》

    引言 本文来源于<哲学家们都干了些什么?>这本书以及本人阅读此书之后的一些想法.这本书虽通熟易懂,但贯穿了哲学所涉及的大部分内容,我将挑出书中涉及的比较重要的内容并融入我的部分思考分几次来 ...

  6. 【文本分类】《融合后验概率校准训练的文本分类算法》

    ·阅读摘要:   本文主要提出后验概率校准.负例监督两个创新点,提升了实验精度. ·参考文献:   [1] 融合后验概率校准训练的文本分类算法 参考论文信息   论文名称:<融合后验概率校准训练 ...

  7. 【读书笔记】《写给大忙人看的Java SE 8》——Java8新特性总结

    2019独角兽企业重金招聘Python工程师标准>>> 阅读目录 接口中的默认方法和静态方法 函数式接口和Lambda表达式 Stream API 新的日期和时间 API 杂项改进 ...

  8. 【读书笔记】《解读基金——我的投资观与实践》(修订版)

    <解读基金>封面 <解读基金--我的投资观与实践> 作者:季凯帆 出版社:中国经济出版社 出版时间:2018.10.01 书籍字数:15.1万字 阅读耗时:5小时31分(202 ...

  9. 【重读经典】《Python核心编程(第3版)》

    今天星期五,很高兴马上将开启愉快的周末时光,今天要介绍的是指引了无数读者入门并提高的Python殿堂的神书<Python核心编程(第3版)>中文版累计销售超20万册.他被誉为提高Pytho ...

最新文章

  1. 用C++ 和OpenCV 实现视频目标检测(YOLOv4模型)
  2. 微软发布Azure Cosmos DB产品以及新的物联网解决方案
  3. SQL2008R2 不支持用该后端版本设计数据库关系图或表
  4. 排名前20的网页爬虫工具,超多干货
  5. android 获取蓝牙设备id_不需要任何权限获得Android设备的唯一ID
  6. python中打乱顺序的函数_numpy.random.shuffle打乱顺序函数的实现
  7. 谷歌开源集成学习工具AdaNet:2017年提出的算法终于实现了
  8. Java编程:多路查找树
  9. 2021,Java最全的分布式面试题合集附答案,共2w字!
  10. 快速阅读《构建之法》——构建之法阅读笔记01
  11. BZOJ2005 [NOI2010]能量采集
  12. R语言数据科学编程教程-从新手到大师
  13. mysql5.7卸载教程_MySQL 5.7.19 简易安装、卸载教程
  14. 苏大与东大计算机软件专业比较,东北大学和苏州大学哪个实力更强一些?网友:苏大强?...
  15. SONY索尼PXW-X280摄像机断电MXF/RSV视频文件损坏修复技术
  16. C语言合法标识符(含知识点)
  17. 不正确的c语言语句是,【单选题】下列不正确的C语言语句是( )。 A. x=y=5; B. x=1,y=2; C. y=int x; D. x++;...
  18. 你告诉我,读书没有用
  19. FAST 2020 摘要概览
  20. 什么叫轻量瓷_骨瓷碗价格多少钱

热门文章

  1. 在xen virt平台运行xen
  2. 电影票+外卖CPS返利项目实操
  3. 云开发连接mysql_详解小程序云开发数据库
  4. mac环境下brew安装mnmp
  5. 数字输入框去除上下箭头以及添加正则匹配
  6. 买iPad2 3G还是买iPhone 4S?
  7. 计算机组成原理自测题,《计算机组成原理》自测题1参考答案
  8. Android Mediaplay 详解一
  9. CF1770E Koxia and Tree
  10. 图解 K8s 核心概念和术语