TEMPO ESTIMATION近几年文章总结

Tempo estimation

论文题目	发表年限
Audio Tempo Estimation Method Improved by Rhythm Pattern and Data Augmentation	CoDIT 2019
Deep-Rhythm for Global Tempo Estimation in Music	ISMIR 2019
A Single-Step Approach to Musical Tempo Estimation Using a Convolutional Neural Network	ISMIR 2018
A Crowdsourced Experiment for Tempo Estimation of Electronic Dance Music	ISMIR 2018
Music Tempo Estimation Using Sub-Band Synchrony	INTERSPEECH 2017
Online generation of tango choreography using tempo estimation.	SIU 2017
Towards Multi-Purpose Spectral Rhythm Features: An Application to Dance Style, Meter and Tempo Estimation	IEEE ACM Trans. Audio Speech Lang. Process(2016)
Tempo Estimation for Music Loops and a Simple Confidence Measure	ISMIR 2016

解释一下tempo的重要性？
跟BPM有什么不同？
4/4拍跟BPM的关系？

Audio Tempo Estimation Method Improved by Rhythm Pattern and Data Augmentation.

CoDIT 2019: 779-784

妹康

Hadrien Foroughmand Aarabi, Geoffroy Peeters:

Deep-Rhythm for Global Tempo Estimation in Music.

ISMIR 2019: 636-643
看摘要看得一头雾水的是我没错了，求助谷歌翻译。
已经表明，在音频信号的1.开始强度函数的速度频率处的谐波序列准确地描述了其节奏模式，并且可以用于执行节奏或节奏模式估计。近来，在2.多音高估计的情况下，卷积网络的输入层的深度已被用来表示音高候选的谐波序列。我们在这里使用类似的想法来表示节奏候选的谐波序列。我们提出了Harmonic-Constant-Q-Modulation，它使用4D张量表示随时间变化的3a.多个声频带中调制频率的谐波序列（被视为速度频率），该表示形式用作3b卷积网络的输入经过训练可以估计节奏或节奏模式类。
大概看出三个关键点：
1，节奏模式rhythm pattern是怎么描述的？
2，出现了一个类似的命题，用CNN表示谐波序列
3，论文提出的方法：用卷积网络处理能够描述节奏模式的谐波序列

因为要带入最开始的几个问题，所以每个introduction都会好好总结：
tempo是可感知的音乐特征里面最重要之一，可以用来推荐，播放列表生成，同步，打碟，音频或音频/视频编辑，节拍同步分析。
节拍估计是一个老话题了，但是一直没有得到有效的解决，除了少数pop和techno上的例子（really？）并且引入了深度学习。

节拍估计的相关工作：
【传统方法】Scheirer将带通滤波器与谐振梳状滤波器和峰值选取结合使用，传统方法大多基于“多频带分离+起始点强度函数”
【深度方法】Böck将bi-LSTM用于节拍点的预测，然后也用谐振梳状滤波器组检测节拍周期，即拍速；
Schreiber and Müller的“一步到位”法，CNN的第一层模仿起始点强度函数（onset-strength-function）的功能，输入mel频谱图输出tempo类（30 到285 BPM共256个类）
librosa里也有onset和tempo相关的方法，并且把tempo=BPM，至少BPM是tempo的量化。

节奏模式（rhythm pattern）识别的相关工作：
跟节拍估计很多工作都重叠了，所以发展的不太好；还有一个原因是数据集比较难得（需要定义节奏模式之间的相似性）。或许节奏模式的表示也是一个问题？是动次打次还是biubiubiu？定义就有点不明确。但从研究层次上来说，节奏模式听起来更抽象，似乎是要比onset detect和tempo estimation属于更高层的特征。比如，trance和house的节奏模式就有很明显的不同，至少drop的时候trance听起来又高又急，house就更有平缓一些。
现有的方法就是利用不同的数据（特征）进行比较，用beat spectrum，beat histogram，harmonic analysis等等

然后文章提出了一种新的音频表示Harmonic-Constant-Q-Modulation (HCQM)和深度方法Deep Rhythm。
前有傅里叶系可视为多个正弦波的叠加；后有谐波系做音高的估计。
这里有一点先验，f0和它的谐波系所代表的频谱包络可以用来表示一个音高，乐器的音色也可以这么表示。进而可以做乐器分类。
所以，就有用谐波系的方法（也是作者之一的文章）用在起始点上来表示节奏。tempo和它的谐波族用来表示一种节奏模式，进而可以通过分析节奏模式得到tempo。具体把谐波族的DFT值连起来作为一个向量，是不是就可以根据频谱值分布得到这是哪个tempo（道理和之前音高估计方法一样我都懂，之前要找的f0是音高，现在要找的f0是tempo）
收手叭

Hendrik Schreiber, Meinard Müller:

A Single-Step Approach to Musical Tempo Estimation Using a Convolutional Neural Network.

ISMIR 2018: 98-105

intro港了tempo是一种人类感知的东西，跟beat tracking的给拍子定位不一样。
全局global的tempo往往出现在Rock，Pop和Dance music中，
本文提出的方法虽然只需要11.9s就能判断，但是适用于全局。

motivation港了现有的方法通常是分步的：
频域分解 ==> 取起始点强度信息 ==> 检测周期候选 ==> 选择最优值

所以文章的方法，基于mel频谱，没有中间商 OSS或beat activation function赚差价，最后通过平均能把tempo局部转为全局。

mf_mod的用意1）频域上的池化压缩mel频带，2）用多个不同的filter能够检测到长的时间依赖。不同深度的并行卷积核可视为一组梳状滤波器.

一些实验结果：

Hendrik Schreiber, Meinard Müller:

A Crowdsourced Experiment for Tempo Estimation of Electronic Dance Music.

ISMIR 2018: 409-415

作者同上一篇，既然上篇指出dance music的tempo是稳定的。那么为什么现有的方法在GiantSteps Tempo
dataset上表现不佳呢？
作者通过传统comb filter的方法和深度oss的方法得出，是GS的标签有问题。用了新的标签后，在GS上的结果明显好看了很多。
文章还指出，有的edm（特别是D&B，electronica和dubstep）用一个全局tempo是不科学的，以及，有的歌很难人工标注tap。

Shreyan Chowdhury, Tanaya Guha, Rajesh M. Hegde:

Music Tempo Estimation Using Sub-Band Synchrony.

INTERSPEECH 2017: 3093-3096
暂时飞出Müller宇宙，听听咖喱味儿的tempo是什么亚子
创新点在检测起始点的方法上，论文题目里的子带同步Sub-Band Synchrony可以用于检测并量化多个子带（sub-bands）之间的相干幅度变化（coherent amplitude changes），后者可以用来标定一个onset。
论文提出的方法是按照上面的方法得到onset的曲线之后，再用自相关函数（autocorrelation function）预测tempo值。

音乐元素广泛地包含旋律，和声，节奏和音色。节奏是指音乐作品的所有时间方面，包括周期性，节奏，连音和音乐作品随时间的重复感。

1，Sub-band Decomposition-Gammatone filters；compute the envelopes for sub-band signals. 图1b
2，Onset Detection using Sub-band Synchrony；take the derivative of all the envelopes图1c
发现在起始点附近，子带都会反射相干干扰，从而导致其局部能量发生相干变化。自带能量的相干变化=Sub-Band Synchrony就是本文判断起始点的方法，没有onset的时候，所有子带包络的导数都趋近0（黑的），onset附近具有更大的幅度和变异性。

Anil Ozen, Umut Yazgan, Sanem Sariel, Gökhan Ince:

Online generation of tango choreography using tempo estimation.

SIU 2017: 1-4
机翻怪出现了！
应用还挺有趣的，在线探戈编舞。
本文旨在从探戈舞中综合探戈编舞。该系统将人类舞者表演的探戈舞蹈图案作为输入，并生成在3D虚拟环境中表示的编舞。
1，通过运动捕捉系统获得的舞蹈人物被自动分割，并针对重心进行分析，以形成舞蹈数据库。
2，然后，通过组合兼容的原语并将它们相互适应，同时将它们转换为与歌曲速度相匹配的方式来创建编排。
该系统的效率通过使用一系列节奏变化的歌曲以及节奏恒定的合成歌曲进行测试来验证。
应该至少学到探戈的tempo和歌曲的tempo然后对应，或者直接学两者的对应。

Aggelos Gkiokas, Vassilis Katsouros, George Carayannis:

Towards Multi-Purpose Spectral Rhythm Features: An Application to Dance Style, Meter and Tempo Estimation.

IEEE ACM Trans. Audio Speech Lang. Process. 24(11): 1885-1896 (2016)
spectral rhythm features源于periodicity function (PF)，同样是节奏频率的显着性的频谱表示。
文章的方法是先从PF中用两种降维的方法PCA和受限玻尔兹曼机提取一个expressive and compact features也就是这个spectral rhythm features了，然后喂给SVM可以做Multi-Purpose的工作，比如舞蹈风格分类，仪表估计和速度估计。并在tempo estimation当作a combination of multiple binary classification sub-problems。

Frederic Font, Xavier Serra:

Tempo Estimation for Music Loops and a Simple Confidence Measure.

ISMIR 2016: 269-275
应用领域是music loops（可以理解为音频库，被重复使用的，被当作特定场景下的bgm的音乐