[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation
论文学习01:Learn to Dance with AIST++: Music Conditioned 3D Dance Generation
- 论文主要工作
- 技术亮点
- 核心任务:Task
- AIST++数据集
- 核心网络:Transformer-based learning framework
- Deep cross-modal transformer部分
- Full-attention with future-N supervision mechanism部分
- Evaluation Metrics
- 相关工作:Baseline Method
- 3D Human Motion Synthesis
- Cross-Modal Sequence-to-Sequence Generation
- Audio To Human Motion Generation
- 2D pose
- 3D pose
论文主要工作
该论文的主要贡献有两点:一是提出了一个基于Transformer的交叉模式的架构模型;二是建立了一个新的3D舞蹈数据集AIST++。
技术亮点
- 使用3个Transformer同时对于音频和3Dmotion进行transform并计算二者相关程度。
- 将平时多用于NLP的Attention Mechanism用于音频到舞蹈动作的语义转换,并使用future_N监督方式,使得动作更加连贯。
- 建立了一个新的数据集。
核心任务:Task
输入:AIST++ 3D 舞蹈数据集(用于训练)
网络:Cross-Modal Transformer-based Network
输出:不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果:给出一段音乐和一个短的seed motion,通过网络可以产生较长时间的3D舞蹈动作
AIST++数据集
AIST++是一个大规模的3D人体舞蹈动作数据集,包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上,作为动作生成和预测两个任务的benchmark,其也可以潜在作为2D/3D人体姿势预测的数据集。
AIST++是目前最大的人体舞蹈数据集,共有1.1M帧3D有音乐的舞蹈动作,包括基础和高级舞蹈艺术的1408个序列,涵盖了30个人物和10个流派,视频时长约为5小时。
补充:其他舞蹈数据集
- AMASS:17.8 mins
- Dance with Melody:94 mins
- GrooveNet:23 mins
- DanceNet:1h
核心网络:Transformer-based learning framework
本文的核心网络是基于Transformer的交互模式的架构,按照功能分为两个部分:
- Deep cross-modal transformer:学习音乐和舞蹈动作之间的相关性。
- Full-attention with future-N supervision mechanism:产生长时间的流畅动作。
Deep cross-modal transformer部分
按照不同的Transformer,我们可以把网络看作以下结构:
如图有三个Transformer:
- Audio Transformer
- Motion Transformer
- Cross-Modal Transformer
Full-attention with future-N supervision mechanism部分
本文的所有Transformer都采用了这种Attention结构,具体的context vector C的计算如下。
此处网络结构以及参数含义可以参考此处的
Self Attention部分,本文中没有具体阐明。
Evaluation Metrics
- Motion Quality:衡量动作质量。
- Motion Diversity:衡量模型学到的一系列动作之间的多样性。
- Motion-Music Correlation Metric:衡量模型学习到的音乐和动作的相关性。
相关工作:Baseline Method
3D Human Motion Synthesis
- kernel-based 概率分布模拟:只能提取动作细节。
- Motion Graph:姿势作为图节点、姿势之间的转换作为边,缺点是不能参数化。
- RNN:动作会僵住(freeze),并且不自然。
- Phase-functional neural networks:认为网络的weight是周期的,适用范围小。
Cross-Modal Sequence-to-Sequence Generation
交互感知多用于自然语言处理,端对端的处理不同种类的sequence,本文则是将audio到3D motion, 在该处理的过程中我们最初使用的是CNN、RNN,最近则开始使用attention mechanism。具体介绍可以戳一戳左侧链接。
Audio To Human Motion Generation
2D pose
- optimization based
- learning based
3D pose
- motion graph
- LSTMs, GANs
- RNNs or convolutional sequence-to-sequence models
- Li et al :网络架构相似、但只实现audio到motion的产生,会产生不真实的动作。
[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation相关推荐
- 推荐 | Transformer最新成果!Learn to Dance with AIST++: Music Conditioned 3D Dance Generation!
论文:Learn to Dance with AIST++: Music Conditioned 3D Dance Generation 数据集:https://google.github.io/ai ...
- High Performance Visual Tracking with Siamese Region Proposal Network 论文学习
文章目录 论文阅读总结 Translation Abstract 1 Introduction 2 Related Works 2.1 Trackers based on Siamese networ ...
- 【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
- 动态环境下的SLAM:DynaSLAM 论文学习笔记
动态环境下的SLAM:DynaSLAM 论文学习笔记 这篇文章 论文摘要 系统流程 相关环节的实现方法 神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...
- 单目相机 svd 从图像恢复3维位置_论文学习——VINSMono:一种鲁棒且通用的单目视觉惯性系统...
点击上方"视觉部落",选择"星标"公众号 精选作品,第一时间送达 文章同步首发于知乎用户yikang专栏 Part 1. 基本信息 本文提出了一种基于紧耦合滑动 ...
- 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...
- [论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs
[论文学习以及翻译]TDN: An Integrated Representation Learning Model of Knowledge Graphs 文章主要内容 摘要 前言 相关工作 基于T ...
- 论文学习-Stochastic Sparse Subspace Clustering
论文学习-Stochastic Sparse Subspace Clustering Note Stochastic Sparse Subspace Clustering,随机稀疏子空间聚类论文精读. ...
- 论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning
论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning NDSS 2021录用文章 目录 论文学习笔记 POSEID ...
- ## 论文学习—用一个可接受的的剪枝策略来加速动态时间规整聚类的算法
论文学习-用一个可接受的的剪枝策略来加速动态时间规整聚类的算法 "Accelerating Dynamic Time Warping Clustering with a Novel Admi ...
最新文章
- C:内存中供用户使用的存储空间
- HTML5语音输入方法
- 计算机的发展英语600词,急求一份有关计算机“存储器”的英语作文,600词左右可以多加分!...
- 解决异方差问题--加权最小二乘法
- linux 内核日志等级,Linux系统中日志级别详情
- LeetCode 01. 两数之和
- 命令行给php脚本传参,如何在CLI命令行下运行PHP脚本,同时向PHP脚本传递参数?...
- IOS 传值方法总结
- c swap方法在哪个库里面_覆膜条件下土壤水热动态与玉米种子生长的SWAP修正模型...
- linux配置内存buffer,调整Linux的网络栈(Buffer Size)来提升网络性能
- 在数据中心里SDN技术发展现状
- ModuleNotFoundError: No module named 'tornado'解决办法
- 解析json对象出现$ref: $.list[0]的解决办法
- pygame之key模块
- 【C语言】 ASCII码
- picgo+onedrive+Typora用onedrive当图床
- linux rarp命令,通过源码理解Rarp协议(基于linux1.2.13)
- mac book air 装win7
- 具有硬件依赖性的计算机语言,具有硬件依赖性的计算机语言,被称为低级语言。下列哪些是低级语言?...
- 【Linux】定时任务crontab和at命令详解