A Spatio-temporal Transformer for 3D Human Motion Prediction

Author: Emre Aksan、Peng Cao
Chinese Title: 《用于3D人体运动预测的时空Transformer》
Classification: Motion Prediction
Progress: Finished
Publication: ArXiv 2020
Reading Date: October 15, 2021

Intro:

短范围预测已经取得了很多进步,但是长范围预测仍然非常具有挑战性。

目前的大多数工作通常存在奔溃成静态姿势的情况,这表明缺乏捕捉长期依赖性的能力。

常用的方法随着时间积累,误差不断增大,最终导致奔溃变成一个非正常姿态,可能是因为数据与模型之间的分布差异导致的。

本文提出包含两个块的时空transformer,空间注意力块从当前时刻戳的关节特征中提取信息。时间注意力块侧重从单个关节的先前记录中提取信息。对序列的双重自我关注允许模型直接访问过去信息,从而明确地捕捉依赖关系。


Contributions:

  • 有能力生成真实的长范围预测结果(可达到20s)且打败了短范围预测的SoTA记录

Related Works:

非循环模型: 通过用密集层的滑动窗口在运动序列上。Li 等人在seq2seq框架中使用卷积代替RNN来提升长期依赖性。后来提出的GCN是对姿态的时序猖狂进行操作,并一次性产生整个输出。本文的模型完全是最回归,因此很容易部署来生成任意长的序列。

循环模型: RNNs之前主宰了3D动作的建模任务。ERD则采用了LSTM控制门在隐空间。后来也有了在解码器的输出输出上应用seq2seq和跳跃连接来解决种子和预测之间的过渡问题,同时也提出用预测值来训练模型以缓解暴露偏差的问题。


Methods:

大致方法流程为:将骨架分解成关节点,把所有关节投影到更高维空间,自注意力块识别关节间和关节内的关系,最后把预测出的关节组装回骨架。

  1. Spatial-temporal Transformer

**关节点映射:**通过一个线性层把所有节点映射到n维空间,再通过正弦位置编码对节点映射进行编码。

**Temporal Attention:**根据同一节点的历史信息来更新特征信息,通过多头注意力进行计算,其中在缩放点乘的结果后需要加入一个M掩码来防止信息泄漏到后面,最后每个头经过softmax以及多头加权后投影回表示空间。

A t t e n t i o n ( Q , K , V , M ) = s o f t m a x ( Q K T D + M ) V = A V Attention(Q,K,V,M)=softmax(\frac{QK^T}{\sqrt{D}}+M)V = AV Attention(Q,K,V,M)=softmax(D ​QKT​+M)V=AV

**Spatial Attention:**引入空间注意力来学习动态和关节点之间的依赖性。

**Aggregation:**两个Transformer块是平行计算的,最后结果进行加和喂入前馈网络,再跟一个Dropout和LN。把这部分堆了L层用于联系更新和修正预测。

**Joint Predictions:**最后把经过L个注意力层的D维映射投影回M维关节角表示空间。


Results:

Datasets: AMASS

  • Quantitative Evaluation


    短期预测的结果效果基本还是很不错的,尤其在Euler指标下的改进最大。

    长期预测采用了新的评估方法:PS度量,用来衡量预测分布和测试分布之间的差异性以及功率谱的熵, 结果显示也是很不错的。

  • Qualitive Evaluation

在长周期运动上表现良好,可以预测18s的序列,而在非周期运动会局限在几秒内。


Conclusion:

  • 提出一个st-tansformer网络用于3D人体运动的生成式建模任务。
  • 提出一个创新框架可以学习节点内和节点间的依赖性通过其解耦的时空注意力块。
  • 结果表明了自注意力概念对于长短期预测都是非常有效的
  • 同样也表明了注意力机制可以用于获取模型的行为。
  • 最后消融实验正面其模型可以用于长序列的数据集,例如AMASS。

A Spatio-temporal Transformer for 3D Human Motion Prediction相关推荐

  1. 3D Human Motion Estimation via Motion Compression and Refinement

    3D Human Motion Estimation via Motion Compression and Refinement[1] 一个两阶段的基于视频的3d人体motion estimation ...

  2. 3D human pose 重要论文分类(持续更新)

    3D human pose 重要论文整理(持续更新) 内容较多,提供目录便于查找 目录 3D human pose 重要论文整理(持续更新) 传统方法 深度学习方法 3D Pose 从单幅图像直接出3 ...

  3. HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimatio

    CVPR 2021 [paper] [code] 摘要 (1)基于模型的三维姿态和形状估计方法通过估计人体的几个参数来重建完整的三维网格.然而,抽象参数的学习是一个高度非线性的过程,且图像与模型存在偏 ...

  4. 3D Human相关研究总结:人体、姿态估计、人体重建等

    ©PaperWeekly 原创 · 作者|张莹 单位|腾讯 本文简要介绍与 3D 数字人相关的研究,包括常用 3D 表示.常用 3D 人体模型.3D 人体姿态估计,带衣服 3D 人体重建,3D 衣服建 ...

  5. 3D Human Body Reconstruction

    本文简要介绍与 3D 数字人相关的研究,包括常用 3D 表示.常用 3D 人体模型.3D 人体姿态估计,带衣服 3D 人体重建,3D 衣服建模,以及人体动作驱动等. 常用3D表示 目前 3D 学习中, ...

  6. Social LSTM: Human Trajectory Prediction in Crowded Spaces 论文翻译

    摘要 行人可沿不同的轨道行走,以避开障碍物及方便其他行人.在这样的场景中行驶的任何自动驾驶车辆都应该能够预见行人未来的位置,并相应地调整其路径以避免碰撞.轨迹预测问题可以看作是一个序列生成任务,我们感 ...

  7. 【论文笔记】3D Human Pose Estimation with Spatial and Temporal Transformers

    论文链接:https://arxiv.org/pdf/2103.10455.pdf github地址:https://github.com/zczcwh/PoseFormer 1. 方法归类 3d h ...

  8. 论文笔记--3D human pose estimation in video with temporal convolutions and semi-supervised training

    3D human pose estimation in video with temporal convolutions and semi-supervised training(利用时间卷积和半监督 ...

  9. 3D Human Pose Estimation with Spatial and Temporal Transformers论文笔记

    一.概述 3D人体姿态估计的方法主要分为两类:直接估计(Direct estimation)和 2D 到 3D (2D to 3D lifting) . 其中 2D 到 3D 的方法先利用 SOTA ...

最新文章

  1. 中国万网域名注册量动态:12月上旬净增8424个
  2. hive提供oracle接口嘛,Hive是个什么东东
  3. python长格式_python中宽格式数据帧到长格式数据帧的转换
  4. python string转int_我用Python搞资源 [ 02 ]
  5. MTKI 驱动(57)---音频参数含义
  6. tomcat 无法关闭 :8005端口未启动
  7. centos 更新源_centos6 更换yum源
  8. LightweightCTI开发实录(5)板卡适配器概述
  9. python SMTP attachment
  10. django之视图view小知识
  11. java访问网络接口_Java网络访问 java调用http java调用其他接口
  12. 凸优化第四章凸优化问题 4.4二次优化问题
  13. Windows10桌面美化——打造简洁高效美观桌面
  14. 对话西蒙斯:解密金融模型和量化投资帝国
  15. 温故而知新:IIR滤波器设计的方法,幅频计算和参数理解
  16. 第45章 DCMI—OV2640摄像头—零死角玩转STM32-F429系列
  17. 2_PY基本数据类型
  18. CTF逆向-[GWCTF 2019]babyvm-WP-虚机模拟流程反向编码和z3约束求解器解方程工具的使用
  19. 文本框获取焦点后出现的边框,怎么去掉
  20. css样式被覆盖解决方案

热门文章

  1. markdown文件的基本常用编写
  2. 不同方式读入图片与HWC与RGB
  3. pogoplug文件服务器,简易NAS:Pogoplug Pogoplug Series 4家庭数据备份中心
  4. 【爬虫】爬取简书某ID所有文章并保存为pdf
  5. 第一章节 QNX 的虚拟环境变量
  6. 2017上海国际清洁技术与设备博览会会刊(参展商名录)
  7. 为什么从此电脑访问不了ftp_电脑打开FTP文件夹出错提示Windows无法访问的解决方法...
  8. H.264视频编码标准在网络视频监控系统中的应用
  9. 计算机硬件结构中负责识别,2011年计算机一级MSoffice试题及答案解析(33)
  10. 检测SIM卡 sim1 或sim2 是有效卡