博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

长久以来,三维姿态估计都在追求准确性上一路狂奔。

但精度提高的同时,也带来了计算成本的上升。

而刚刚被CPVR 2021接受的论文中所提出的模型,MobileHumanPose却可以同时做到又小又好

还是放在手机上都能hold得住的那种。来感受一下这个feel:

这种动作的健身操也没问题:

据了解,这个模型的尺寸,只有基于ResNet-50的模型的1/7,算力达到了3.92GFLOPS

而且平均每关节位置误差(MPJPE),也只有大约5厘米

那么这一模型到底是如何在有限的算力下产生极佳性能的呢?

基于编码器-解码器结构的改进

这是一个从基本的编码器-解码器结构改良得来的模型。

在编码器用于全局特征提取,而解码器进行姿态估计的基础架构上,研究团队对其主干网络、激活函数,以及Skip concatenation功能都进行了修改。

先来看研究团队选择的主干网络,MobileNetV2。

他们在MobileNetV2的前四个倒置残差块(Residual Block)处修改了通道大小,获得了性能提升。

接下来,将PReLU函数用于实现激活功能,其中ai为学习参数 yi是输入信号。

这一函数中的可学习参数能够在每一层网络都获得额外的信息,因此在人体姿势估计任务中使用参数化PReLU时可提升性能。

修改了激活函数后的baseline

现在,模型的效率已经不低了,但考虑到推理速度,团队使用Skip concatenation结构。这一结构能从编码器到解码器中导出低级别特征信号(Lowlevel feature signal),不会降低性能。

参数量减少5倍,计算成本降到1/3

团队使用Human3.6M和MuCo-3DHP作为三维人体姿势数据集,他们提出了MobileNetV2的大小两个模型。

在Human3.6M上,MobileNetV2大模型实现了51.44毫米的平均每关节位置误差。

且其参数量为4.07M,对比同类模型的20.4M(chen)减少了5倍,计算成本为5.49GFLOPS,是同类模型的1/3不到(14.1G)。

对于多人三维姿势估计任务,研究者使用RootNet来估计每个人的绝对坐标,在MuPoTS的20个场景中进行了实验:

实验结果证明,对比Zerui Chen等研究者提出的获ECCV 2020的三维人体姿态估计方法,MobileNetV2在一般场景中的性能都更好,且在少数场景中取得了最佳性能:

在模型效率上,MobileNetV2的大模型效率为2.24M/3.92GFLOPS,远超同类模型的13.0M/10.7GFLOPS(Zerui Chen)。

而小模型也能实现56.94毫米的平均每关节位置误差,有224万个参数,计算成本为3.92GFLOPS。

作者介绍

论文的三位作者皆毕业于韩国高等技术研究院,一作Sangbum Choi为该校的电机及电子工程专业硕士。

论文:
https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html

开源地址:
[1]https://github.com/SangbumChoi/MobileHumanPose
[2]https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D

可以装在手机里的3D姿态估计,模型尺寸仅同类1/7,平均关节位置误差却只有5厘米 | CPVR 2021...相关推荐

  1. 3D姿态估计|时序卷积+半监督训练

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题&作者团队 1. 论文简要 在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是 ...

  2. AAAI论文首发:几何驱动的自监督的人体3D姿态估计方法

    徐亦达团队和北理工李侃老师的共同博士生李杨在AAAI 的发表了一篇机器学习论文,本人得到徐老师授权在本站发布论文. Geometry-driven Self-supervised Method for ...

  3. 3D姿态估计——ThreeDPose项目简单易用的模型解析

    前言 之前写过tensorflow官方的posenet模型解析,用起来比较简单,但是缺点是只有2D关键点,本着易用性的原则,当然要再来个简单易用的3D姿态估计.偶然看见了ThreeDPose的项目,感 ...

  4. 记一次坎坷的算法需求实现:轻量级人体姿态估计模型的修炼之路(附MoveNet复现经验)...

    点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨Fire 编辑丨极市平台 导读 本文记录了作者实现轻量级人体姿态估计模型的全过程,从方案的选取 ...

  5. MoveNet复现,轻量级人体姿态估计模型的修炼之路

    这天接到个新需求,需要实时检测自然场景下目标人体的关键点位置. 从算法工程师的角度来拆解下需求: 1.检测人体关键点位置,就是人体姿态估计任务嘛: 2.要实时,那么就是终端部署,服务端那传输延时就不考 ...

  6. 记一次坎坷的算法需求实现:轻量级人体姿态估计模型的修炼之路(附MoveNet复现经验) 收藏

    一.需求背景 这天接到个新需求,需要实时检测自然场景下目标人体的关键点位置. 从算法工程师的角度来拆解下需求: 1.检测人体关键点位置,就是人体姿态估计任务嘛: 2.要实时,那么就是终端部署,服务端那 ...

  7. 今日 Paper | 模态平衡模型;组合语义分析;高表达性SQL查询;多人姿态估计模型等

    2020-02-07 14:23 导语:为了更好地服务广大 AI 青年,AI 研习社正式推出全新「论文」版块.   目录 视觉对话的模态平衡模型 对注意力的通用攻击和对应的数据集DAmageNet 半 ...

  8. 3D姿态估计:语义图卷积SematicGCN与GAN-RepNet

    3D人体姿态估计(3 Demensional Human Pose Estimation)的目标是在单张/多张RGB图片或2D人体姿态坐标的基础上,预测人体的三维坐标.目前流行的方法包括由单张图像直接 ...

  9. 新卡装在手机里显示无服务器,为什么我的手机卡今天突然变成无服务,是怎么回事...

    手机SIM卡变成无服务的原因: 1.手机SIM卡故障.将SIM卡放入到其它手机上面看看是否可以正常使用: 2.手机SIM卡与手机接触不良.把手机上面的SIM卡取出后清理手机卡槽.擦拭SIM卡后再放入到 ...

最新文章

  1. [云炬python3玩转机器学习笔记] 2-2机器学习主要任务
  2. Buuoj reverse1
  3. JAVA学习:maven开发环境快速搭建How to download J2EE API (javaee.jar) from Maven
  4. linux搜索文件内容含有星号,文本内容查找grep、文件查找find、正则匹配
  5. 高可用+负载均衡 方案
  6. keil流水灯c语言程序两个一起亮,我用keil c51编了一个流水灯程序,编译无误却只有第一和第二个灯亮了,最后停在第一个灯处不动...
  7. Spring Cloud Sleuth+Zipkin 构建微服务链路跟踪系统
  8. 彻底删除SQL Server2005(转)
  9. 安装PetShop后调试的诸多问题
  10. CentOS 6.2安装配置LAMP服务器(Apache+PHP5+MySQL)
  11. 520用Java制作一个表白app
  12. DHCP 报文结构和类型
  13. 解决Intel Edison 已连接Wifi但无法上网问题
  14. 第一台计算机英语怎么说,世界第一台计算机英文缩写名为
  15. MySQL基础之二 | 详解(SQL-DDL)
  16. 职高学计算机可以考的大学名单,职高可以考的大学有哪些
  17. 06-谷粒商城项目 人人开源快速开发 renren-fast前后端联调 逆向工程搭建&使用
  18. 苹果商店如何申请退款
  19. 自动驾驶(十一)---------泰勒展开式、雅克比矩阵、主成分分析
  20. 利用python计算fasta文件中ATGC的含量

热门文章

  1. 【问题解决方案】ImportError: No module named ‘openpyxl‘/‘xlrd’
  2. 如何在C#Windows控制台应用程序中更新当前行?
  3. 如何转换高度:0; 达到高度:自动; 使用CSS?
  4. 构造函数中的虚拟成员调用
  5. IP子网划分和vlsm(变长子网掩码)和路由汇总
  6. Ubuntu 下面部署Django 项目
  7. linux C实现mkdir功能
  8. 如何:对 SharePoint 列表项隐藏 ECB 中的菜单项
  9. 实现操作系统运行稳定流畅如初、免受各类运行异常之苦的六个实用“秘诀”...
  10. Windows Server 2003 R2 修复Windows Server 2003