论文学习01:Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

  • 论文主要工作
    • 技术亮点
    • 核心任务:Task
    • AIST++数据集
    • 核心网络:Transformer-based learning framework
      • Deep cross-modal transformer部分
      • Full-attention with future-N supervision mechanism部分
    • Evaluation Metrics
  • 相关工作:Baseline Method
    • 3D Human Motion Synthesis
    • Cross-Modal Sequence-to-Sequence Generation
    • Audio To Human Motion Generation
      • 2D pose
      • 3D pose

论文主要工作

该论文的主要贡献有两点:一是提出了一个基于Transformer的交叉模式的架构模型;二是建立了一个新的3D舞蹈数据集AIST++。

技术亮点

  • 使用3个Transformer同时对于音频和3Dmotion进行transform并计算二者相关程度。
  • 将平时多用于NLP的Attention Mechanism用于音频到舞蹈动作的语义转换,并使用future_N监督方式,使得动作更加连贯。
  • 建立了一个新的数据集。

核心任务:Task


输入:AIST++ 3D 舞蹈数据集(用于训练)
网络:Cross-Modal Transformer-based Network
输出:不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果:给出一段音乐和一个短的seed motion,通过网络可以产生较长时间的3D舞蹈动作

AIST++数据集

AIST++是一个大规模的3D人体舞蹈动作数据集,包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上,作为动作生成和预测两个任务的benchmark,其也可以潜在作为2D/3D人体姿势预测的数据集。

AIST++是目前最大的人体舞蹈数据集,共有1.1M帧3D有音乐的舞蹈动作,包括基础和高级舞蹈艺术的1408个序列,涵盖了30个人物和10个流派,视频时长约为5小时。

补充:其他舞蹈数据集

  • AMASS:17.8 mins
  • Dance with Melody:94 mins
  • GrooveNet:23 mins
  • DanceNet:1h

核心网络:Transformer-based learning framework

本文的核心网络是基于Transformer的交互模式的架构,按照功能分为两个部分:

  • Deep cross-modal transformer:学习音乐和舞蹈动作之间的相关性。
  • Full-attention with future-N supervision mechanism:产生长时间的流畅动作。

Deep cross-modal transformer部分

按照不同的Transformer,我们可以把网络看作以下结构:

如图有三个Transformer:

  • Audio Transformer
  • Motion Transformer
  • Cross-Modal Transformer

Full-attention with future-N supervision mechanism部分

本文的所有Transformer都采用了这种Attention结构,具体的context vector C的计算如下。


此处网络结构以及参数含义可以参考此处的
Self Attention部分,本文中没有具体阐明。

Evaluation Metrics

  • Motion Quality:衡量动作质量。
  • Motion Diversity:衡量模型学到的一系列动作之间的多样性。
  • Motion-Music Correlation Metric:衡量模型学习到的音乐和动作的相关性。

相关工作:Baseline Method

3D Human Motion Synthesis

  • kernel-based 概率分布模拟:只能提取动作细节。
  • Motion Graph:姿势作为图节点、姿势之间的转换作为边,缺点是不能参数化。
  • RNN:动作会僵住(freeze),并且不自然。
  • Phase-functional neural networks:认为网络的weight是周期的,适用范围小。

Cross-Modal Sequence-to-Sequence Generation

交互感知多用于自然语言处理,端对端的处理不同种类的sequence,本文则是将audio到3D motion, 在该处理的过程中我们最初使用的是CNN、RNN,最近则开始使用attention mechanism。具体介绍可以戳一戳左侧链接。

Audio To Human Motion Generation

2D pose

  • optimization based
  • learning based

3D pose

  • motion graph
  • LSTMs, GANs
  • RNNs or convolutional sequence-to-sequence models
  • Li et al :网络架构相似、但只实现audio到motion的产生,会产生不真实的动作。

[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation相关推荐

  1. 推荐 | Transformer最新成果!Learn to Dance with AIST++: Music Conditioned 3D Dance Generation!

    论文:Learn to Dance with AIST++: Music Conditioned 3D Dance Generation 数据集:https://google.github.io/ai ...

  2. High Performance Visual Tracking with Siamese Region Proposal Network 论文学习

    文章目录 论文阅读总结 Translation Abstract 1 Introduction 2 Related Works 2.1 Trackers based on Siamese networ ...

  3. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  4. 动态环境下的SLAM:DynaSLAM 论文学习笔记

    动态环境下的SLAM:DynaSLAM 论文学习笔记 这篇文章 论文摘要 系统流程 相关环节的实现方法 神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...

  5. 单目相机 svd 从图像恢复3维位置_论文学习——VINSMono:一种鲁棒且通用的单目视觉惯性系统...

    点击上方"视觉部落",选择"星标"公众号 精选作品,第一时间送达 文章同步首发于知乎用户yikang专栏 Part 1. 基本信息 本文提出了一种基于紧耦合滑动 ...

  6. 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...

  7. [论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs

    [论文学习以及翻译]TDN: An Integrated Representation Learning Model of Knowledge Graphs 文章主要内容 摘要 前言 相关工作 基于T ...

  8. 论文学习-Stochastic Sparse Subspace Clustering

    论文学习-Stochastic Sparse Subspace Clustering Note Stochastic Sparse Subspace Clustering,随机稀疏子空间聚类论文精读. ...

  9. 论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning

    论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning NDSS 2021录用文章 目录 论文学习笔记 POSEID ...

  10. ## 论文学习—用一个可接受的的剪枝策略来加速动态时间规整聚类的算法

    论文学习-用一个可接受的的剪枝策略来加速动态时间规整聚类的算法 "Accelerating Dynamic Time Warping Clustering with a Novel Admi ...

最新文章

  1. C:内存中供用户使用的存储空间
  2. HTML5语音输入方法
  3. 计算机的发展英语600词,急求一份有关计算机“存储器”的英语作文,600词左右可以多加分!...
  4. 解决异方差问题--加权最小二乘法
  5. linux 内核日志等级,Linux系统中日志级别详情
  6. LeetCode 01. 两数之和
  7. 命令行给php脚本传参,如何在CLI命令行下运行PHP脚本,同时向PHP脚本传递参数?...
  8. IOS 传值方法总结
  9. c swap方法在哪个库里面_覆膜条件下土壤水热动态与玉米种子生长的SWAP修正模型...
  10. linux配置内存buffer,调整Linux的网络栈(Buffer Size)来提升网络性能
  11. 在数据中心里SDN技术发展现状
  12. ModuleNotFoundError: No module named 'tornado'解决办法
  13. 解析json对象出现$ref: $.list[0]的解决办法
  14. pygame之key模块
  15. 【C语言】 ASCII码
  16. picgo+onedrive+Typora用onedrive当图床
  17. linux rarp命令,通过源码理解Rarp协议(基于linux1.2.13)
  18. mac book air 装win7
  19. 具有硬件依赖性的计算机语言,具有硬件依赖性的计算机语言,被称为低级语言。下列哪些是低级语言?...
  20. 【Linux】定时任务crontab和at命令详解

热门文章

  1. 不同版本的centos默认的ks.cfg
  2. jdbc mysql url写法_详解数据库连接的URL的写法及总结
  3. html5 苹果 风格,[网页设计]8个超炫酷仿苹果应用的HTML5动画
  4. Skyscrapers (hard version)
  5. 暨南大学计算机系录取分数线,暨南大学2017年在广东省各专业录取分数线
  6. 搜狐老矣,尚能饭否?
  7. 支付宝登录java和android
  8. 曲苑杂坛--收缩数据库日志
  9. 用计算机拜年祝福语,适合拜年发的朋友圈祝福语
  10. Qt 之转盘实现C++语言