动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系,或是仅考虑单一尺度的关节点关系。
然而,很多时候是一组关节一起运动,抽象地表达动作的整体特征;相反,如果过度关注细节的关节,模型的整体性能也容易被复杂的运动影响。这种新的动态多尺度图神经网络(DMGNN),实现了更精准的运动预测。
动态多尺度图建模3D人体骨架
基于3D人体骨架的运动预测目的是基于观测的人体骨架运动序列生成未来的姿态,被广泛应用于众多领域如人机交互、自动驾驶和行人跟踪等。
现有方法通常无法显式地挖掘不同身体部位之间的关系或约束,或者仅构建了单一尺度下关节点之间的关系,却不足以反应一组运动的关节,例如,在行走中,包含多个关节的上肢和下肢之间的交互运动至关重要,不应该过度关注手指和脚趾。
行走
拍照
买东西
本文提出一种多尺度图用来描述不同尺度下的人体部位和人体结构。每个多尺度图包含两个子图:单尺度图和跨尺度图。
单尺度图逐步抽象人体骨骼;跨尺度图连接相邻的两个单尺度图。多尺度图是可训练的,并且在不同的网络层中呈现动态变化,可灵活的表达不同层级的身体部位之间的关联关系。
基于多尺度图,作者提出动态多尺度图神经网络(DMGNN),其整体框架为一个编码器-解码器结构,分别用于提取运动特征和生成未来姿态。
编码器的核心是一系列基本组分「多尺度图计算单元」(MGCU),解码器核心是「基于图的门控循环单元」(G-GRU)。
基于动态多尺度图的运动预测算法
动态多尺度图
为了建模人体中综合的关联关系,作者提出建立多尺度图,其中图的节点是不同尺度下的身体部位,边为身体部位之前的关系。
多尺度图包含两个子图:单尺度图和跨尺度图,其中单尺度图用于描述单个尺度中的人体内部关联,而跨尺度图连接了不同 的单尺度图,描述了不同尺度中的身体部位的相互作用。
例如,在粗尺度中的「上肢」节点可与细尺度中的「手」和「肘」建立连接。基于人类先验,多尺度图由一种预定义的物理性质的连接作为初始化,在模型的训练过程中被自适应地调整;针对网络不同层中的人体特征,多尺度图呈现动态变化,灵活地描述不同层级中的人体表达。
模型框架
动态图神经网络包含一个编码器和一个解码器,其中编码器内部包含串联的的动态多尺度图计算单元(MGCU),用来逐层地提取人体运动的多尺度特征。每个MGCU包含多个单尺度图卷积块(SS-GCB)和跨尺度融合模块(CS-FB)
其中SS-GCB利用单尺度图的空间图卷积以及时间卷积提取单个尺度中运动的时空特征;CS-FB通过两个相邻尺度中的特征表达,学习两个尺度中不同身体部位之间的关联关系,以构建跨尺度图,并实现两个尺度中特征的交替融合。
解码器中包含了基于图的门控循环单元(G-GRU),可以利用图卷积增强动作隐含特征中的信息传播,以更准确地生成未来姿态。
此外,本文还提出了差分算子,用来获取运动的速度、加速度等高阶特征,有效地辅助运动预测。
目标函数
DMGNN通过L1 loss进行训练,原因主要是相比于L2 loss,L1 loss在loss小的情况下保持足够大的梯度,在loss大的情况下降低了梯度爆炸的情况,可训练模型生成更准确的预测。
Human3.6M和CMU Mocap数据集验证效果超SOTA
作者在Human3.6M和CMU Mocap两个数据集上进行了实验,通过计算预测结果与真实序列之间的平均角度误差进行定量评价,通过展示生成样本进行定性评价。
Human3.6实验结果
在短期预测中,可以超过绝大多数state-of-the-art方法。在长期预测中,DMGNN可达到十分具有竞争力的表现。
CMU Mocap实验结果
在短期和长期预测中,DMGNN均可超过大多数state-of-the-art方法。
实验结果可视化
通过生成样本可视化,可以看出,相比于众多前人工作,DMGNN可以生成准确且合理的未来动作;而其他方法,容易在短期或长期出现较大的误差或偏移。
消融实验
通过改变不同的身体尺度,可以发现:
1)当利用3个尺度时,模型的表达效果最优;
2)当尺度过少时,模型没有足够的抽象能力,无法准确把握动作的整体特征,故表达效果不够强;
3)当尺度过多时,模型引入了过多抽象的特征表达,而动作预测本身对抽象和精度的要求都很高,过于粗化的特征反而影响了模型的预测能力。
通过定量和定性的实验分析,本文证明了DMGNN对比state-of-the-art方法,可以实现准确且合理的短期或长期人体运动预测。
本文作者:Maosen Li, Siheng Chen, Ya Zhang等
论文地址:https://arxiv.org/abs/2003.08802
项目地址:https://github.com/limaosen0/DMGNN(待完善)
视频链接:https://www.bilibili.com/video/BV1hf4y1U7Ri
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA相关推荐
- CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
新智元推荐 编辑:白峰 [新智元导读]上海交大.三菱电机实验室联合提出将人体骨架建模为一个可学习的多尺度图,并且对不同层次的特征,多尺度图呈现动态变化.通过学习综合的多尺度特征表达,DMGNN ...
- 科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者 | VVingerfly 编辑 | 陈大鑫 3D人体姿态和形状估计在最近几年是一个重要的研究热点 ...
- 无限想象空间,用Python玩转3D人体姿态估计
前言 姿态估计,一直是近几年的研究热点. 它就是根据画面,捕捉人体的运动姿态,比如 2D 姿态估计: 再比如 3D 姿态估计: 看着好玩,那这玩应有啥用呢? 自动驾驶,大家应该都不陌生,很多公司研究这 ...
- 深度学习3D 人体姿态估计面临的问题和挑战
在 3D 人体姿态估计中,学者们致力于研究基于单目 RGB 视频的 3D 人体姿态估计,这是因为目前单目 RGB 摄像头应用广泛.价格低廉,在人们日常使用的手机.电脑均配备有摄像头,因此该技术有着广大 ...
- 无限想象空间,用Python就能玩的3D人体姿态估计
击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 四月南风大麦黄,枣花未落桐叶长. 1 ...
- 论文浅尝 - SIAM ICDM 2020 | 基于图时空网络的知识引导的诊断预测
论文笔记整理:吴锐,东南大学硕士. 来源:SIAM ICDM 2020 论文下载地址: https://epubs.siam.org/doi/abs/10.1137/1.9781611976236.3 ...
- 图卷积网络进行骨骼识别代码_深兰科学院:动作识别——人体骨架时空图卷积网络的关节图构造方法简介...
港中文团队论文的主要内容 1 Introduction 近年来,人类动作识别已成为活跃的研究领域,因为它在视频理解中起着重要作用.一般而言,人类行为可以从多种形式中识别,例如外观.深度. 光流和人体骨 ...
- 3D人体重建从单张图中-DeepHuman: 3D Human Reconstruction from a Single Image
论文链接:http://www.liuyebin.com/deephuman/assets/DeepHuman.pdf 摘要 我们提出深度人体,一个图像导向立体到立体的转换CNN对3D人体重建从一个单 ...
- DeepHuman:从单一图像中3D人体重建
摘要:我们提出DeepHuman,一种图像引导的体到体转换CNN,用于从单一的RGB图像进行3D人体重建.为了减少与表面几何重建相关的模糊性,甚至对于不可见区域的重建,我们提出并利用从SMPL模型生成 ...
最新文章
- PhysicsJoint
- LinCode落单的数
- Dns信息收集工具集合
- 使用Android Studio 开发APP入门经验
- 零基础简单易用的EmberJS框架
- 正态分布、指数分布的特征函数及期望与方差 - 随机过程
- win10打开计算机加载很慢,解析为何win10系统中我的电脑打开速度很慢
- nodejs项目(基于Express)——为上传的图片贴上国旗图标(使用gm)并返回图片位置
- unity中使用手柄控制角色移动
- 一些专业术语的中英文对照
- 【软件构造】实验一的心得体会
- 抖音快手短视频功能解读
- 成年人的100个心酸瞬间:那些看似光鲜亮丽职业的背后......
- Angular2 之 Animations
- 基于Opencv实现连续检测yuv转bmp后的每一帧的sobel算法实现
- [转载]Mac地址、IP、子网掩码、网关、DNS(转)
- 思科网络学院-网络互联-第一章
- 空腹不能吃的8种食物
- java自行车租凭系统项目包_基于jsp的自行车租赁-JavaEE实现自行车租赁 - java项目源码...
- 如何查看支付宝年度账单?快来看看你的关键词是什么