Tempo estimation

论文题目 发表年限
Audio Tempo Estimation Method Improved by Rhythm Pattern and Data Augmentation CoDIT 2019
Deep-Rhythm for Global Tempo Estimation in Music ISMIR 2019
A Single-Step Approach to Musical Tempo Estimation Using a Convolutional Neural Network ISMIR 2018
A Crowdsourced Experiment for Tempo Estimation of Electronic Dance Music ISMIR 2018
Music Tempo Estimation Using Sub-Band Synchrony INTERSPEECH 2017
Online generation of tango choreography using tempo estimation. SIU 2017
Towards Multi-Purpose Spectral Rhythm Features: An Application to Dance Style, Meter and Tempo Estimation IEEE ACM Trans. Audio Speech Lang. Process(2016)
Tempo Estimation for Music Loops and a Simple Confidence Measure ISMIR 2016

解释一下tempo的重要性?
跟BPM有什么不同?
4/4拍跟BPM的关系?

Audio Tempo Estimation Method Improved by Rhythm Pattern and Data Augmentation.

CoDIT 2019: 779-784

妹康

Hadrien Foroughmand Aarabi, Geoffroy Peeters:

Deep-Rhythm for Global Tempo Estimation in Music.

ISMIR 2019: 636-643
看摘要看得一头雾水的是我没错了,求助谷歌翻译。
已经表明,在音频信号的1.开始强度函数的速度频率处的谐波序列准确地描述了其节奏模式,并且可以用于执行节奏或节奏模式估计。 近来,在2.多音高估计的情况下,卷积网络的输入层的深度已被用来表示音高候选的谐波序列。 我们在这里使用类似的想法来表示节奏候选的谐波序列。 我们提出了Harmonic-Constant-Q-Modulation,它使用4D张量表示随时间变化的3a.多个声频带中调制频率的谐波序列(被视为速度频率),该表示形式用作3b卷积网络的输入 经过训练可以估计节奏或节奏模式类。
大概看出三个关键点:
1,节奏模式rhythm pattern是怎么描述的?
2,出现了一个类似的命题,用CNN表示谐波序列
3,论文提出的方法:用卷积网络处理能够描述节奏模式的谐波序列

因为要带入最开始的几个问题,所以每个introduction都会好好总结:
tempo是可感知的音乐特征里面最重要之一,可以用来推荐,播放列表生成,同步,打碟,音频或音频/视频编辑,节拍同步分析。
节拍估计是一个老话题了,但是一直没有得到有效的解决,除了少数pop和techno上的例子(really?)并且引入了深度学习。

节拍估计的相关工作:
【传统方法】Scheirer将带通滤波器谐振梳状滤波器峰值选取结合使用,传统方法大多基于“多频带分离+起始点强度函数”
【深度方法】Böck将bi-LSTM用于节拍点的预测,然后也用谐振梳状滤波器组检测节拍周期,即拍速;
Schreiber and Müller的“一步到位”法,CNN的第一层模仿起始点强度函数(onset-strength-function)的功能,输入mel频谱图输出tempo类(30 到285 BPM共256个类)
librosa里也有onset和tempo相关的方法,并且把tempo=BPM,至少BPM是tempo的量化。

节奏模式(rhythm pattern)识别的相关工作:
跟节拍估计很多工作都重叠了,所以发展的不太好;还有一个原因是数据集比较难得(需要定义节奏模式之间的相似性)。或许节奏模式的表示也是一个问题?是动次打次还是biubiubiu?定义就有点不明确。但从研究层次上来说,节奏模式听起来更抽象,似乎是要比onset detect和tempo estimation属于更高层的特征。比如,trance和house的节奏模式就有很明显的不同,至少drop的时候trance听起来又高又急,house就更有平缓一些。
现有的方法就是利用不同的数据(特征)进行比较,用beat spectrum,beat histogram,harmonic analysis等等

然后文章提出了一种新的音频表示Harmonic-Constant-Q-Modulation (HCQM)和深度方法Deep Rhythm。
前有傅里叶系可视为多个正弦波的叠加;后有谐波系做音高的估计。
这里有一点先验,f0和它的谐波系所代表的频谱包络可以用来表示一个音高,乐器的音色也可以这么表示。进而可以做乐器分类。
所以,就有用谐波系的方法(也是作者之一的文章)用在起始点上来表示节奏。tempo和它的谐波族用来表示一种节奏模式,进而可以通过分析节奏模式得到tempo。具体把谐波族的DFT值连起来作为一个向量,是不是就可以根据频谱值分布得到这是哪个tempo(道理和之前音高估计方法一样我都懂,之前要找的f0是音高,现在要找的f0是tempo)
收手叭

Hendrik Schreiber, Meinard Müller:

A Single-Step Approach to Musical Tempo Estimation Using a Convolutional Neural Network.

ISMIR 2018: 98-105

intro港了tempo是一种人类感知的东西,跟beat tracking的给拍子定位不一样。
全局global的tempo往往出现在Rock,Pop和Dance music中,
本文提出的方法虽然只需要11.9s就能判断,但是适用于全局。

motivation港了现有的方法通常是分步的:
频域分解 ==> 取起始点强度信息 ==> 检测周期候选 ==> 选择最优值

所以文章的方法,基于mel频谱,没有中间商 OSS或beat activation function赚差价,最后通过平均能把tempo局部转为全局。

mf_mod的用意1)频域上的池化压缩mel频带,2) 用多个不同的filter能够检测到长的时间依赖。不同深度的并行卷积核可视为一组梳状滤波器.

一些实验结果:

Hendrik Schreiber, Meinard Müller:

A Crowdsourced Experiment for Tempo Estimation of Electronic Dance Music.

ISMIR 2018: 409-415

作者同上一篇,既然上篇指出dance music的tempo是稳定的。那么为什么现有的方法在GiantSteps Tempo
dataset上表现不佳呢?
作者通过传统comb filter的方法和深度oss的方法得出,是GS的标签有问题。用了新的标签后,在GS上的结果明显好看了很多。
文章还指出,有的edm(特别是D&B,electronica和dubstep)用一个全局tempo是不科学的,以及,有的歌很难人工标注tap。

Shreyan Chowdhury, Tanaya Guha, Rajesh M. Hegde:

Music Tempo Estimation Using Sub-Band Synchrony.

INTERSPEECH 2017: 3093-3096
暂时飞出Müller宇宙,听听咖喱味儿的tempo是什么亚子
创新点在检测起始点的方法上,论文题目里的子带同步Sub-Band Synchrony可以用于检测并量化多个子带(sub-bands)之间的相干幅度变化(coherent amplitude changes),后者可以用来标定一个onset。
论文提出的方法是按照上面的方法得到onset的曲线之后,再用自相关函数(autocorrelation function)预测tempo值。

音乐元素广泛地包含旋律,和声,节奏和音色。节奏是指音乐作品的所有时间方面,包括周期性,节奏,连音和音乐作品随时间的重复感。

1,Sub-band Decomposition-Gammatone filters;compute the envelopes for sub-band signals. 图1b
2,Onset Detection using Sub-band Synchrony;take the derivative of all the envelopes图1c
发现在起始点附近,子带都会反射相干干扰,从而导致其局部能量发生相干变化。自带能量的相干变化=Sub-Band Synchrony就是本文判断起始点的方法,没有onset的时候,所有子带包络的导数都趋近0(黑的),onset附近具有更大的幅度和变异性。


Anil Ozen, Umut Yazgan, Sanem Sariel, Gökhan Ince:

Online generation of tango choreography using tempo estimation.

SIU 2017: 1-4
机翻怪出现了!
应用还挺有趣的,在线探戈编舞。
本文旨在从探戈舞中综合探戈编舞。 该系统将人类舞者表演的探戈舞蹈图案作为输入,并生成在3D虚拟环境中表示的编舞。
1,通过运动捕捉系统获得的舞蹈人物被自动分割,并针对重心进行分析,以形成舞蹈数据库。
2,然后,通过组合兼容的原语并将它们相互适应,同时将它们转换为与歌曲速度相匹配的方式来创建编排。
该系统的效率通过使用一系列节奏变化的歌曲以及节奏恒定的合成歌曲进行测试来验证。
应该至少学到探戈的tempo和歌曲的tempo然后对应,或者直接学两者的对应。

Aggelos Gkiokas, Vassilis Katsouros, George Carayannis:

Towards Multi-Purpose Spectral Rhythm Features: An Application to Dance Style, Meter and Tempo Estimation.

IEEE ACM Trans. Audio Speech Lang. Process. 24(11): 1885-1896 (2016)
spectral rhythm features源于periodicity function (PF),同样是节奏频率的显着性的频谱表示。
文章的方法是先从PF中用两种降维的方法PCA和受限玻尔兹曼机提取一个expressive and compact features也就是这个spectral rhythm features了,然后喂给SVM可以做Multi-Purpose的工作,比如舞蹈风格分类,仪表估计和速度估计。并在tempo estimation当作a combination of multiple binary classification sub-problems。

Frederic Font, Xavier Serra:

Tempo Estimation for Music Loops and a Simple Confidence Measure.

ISMIR 2016: 269-275
应用领域是music loops(可以理解为音频库,被重复使用的,被当作特定场景下的bgm的音乐

TEMPO ESTIMATION近几年文章总结相关推荐

  1. 2023最新车道线综述!近五年文章全面盘点(几何建模/机器学习/深度学习)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[车道线检测]技术交流群 后台回复[车道线综述]获取基于检测.分割.分类.曲线拟合等近几 ...

  2. 物体6-Dof pose estimation主流方法汇总

    作者丨孙文@知乎 来源丨https://www.zhihu.com/question/63159179/answer/257832184 编辑丨3D视觉工坊 主流的方法有下面几种: 基于模板匹配的方法 ...

  3. 总结机器学习优质学习文章Top50!

    整理 | Jane 出品 | AI科技大本营(公众号id:rgznai100) 在过去一年里,我们每个月都会给大家推荐一些优质的.最新的机器学习研究成果或机器学习技术文章,很多文章是从近千篇文章中评选 ...

  4. 2018谷歌学术指数发布——看看综合、生物、生信、微生物领域高引文章和杂志

    谷歌学术指数简介 2018年8月2号,谷歌发布了2018年度的学术指数(Google Scholar Metrics),用来评价各个领域杂志的影响力.该系统主要包括H指数(h-index或Hirsch ...

  5. 写下今年1024的一篇文章

    在不知不觉中,注册csdn已经有五个年头了,在上面写了近百篇文章,截止到现在 被访问量 原创文章 作者排名 粉丝数量 447,511 87 7,104 17,882 感谢大家对我的支持.从文章上可以看 ...

  6. 还在为阅读量苦恼么?文章提升10倍曝光的写作技巧

    各位原力计划的优质博主们,大家好!很多小伙伴抱怨用了很长时间写的一篇原创博文阅读量却很少,很多时候不是文章写的不好,而是没有掌握推荐展示的技巧.本文是原力菌研究了近万篇文章总结的一些共性问题,随后又请 ...

  7. 论文笔记(三):PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括 摘要 1. ...

  8. 开源一文多发平台ArtiPub,让文章随处可阅

    背景 很多优秀的程序员和技术人员喜欢写技术文章和技术博客,通过这样的方式分享传播知识和经验,扩大自己的知名度和影响力,吸引粉丝关注,甚至有些技术博主还通过写文章来获取广告收入,很多优秀的博主还通过这种 ...

  9. 超鸿蒙是什么意思,帝垣的组词_拼音_意思_近反义词(造句)

    下面为大家详细介绍帝垣的拼音_组词_造句_意思_反义词(近义词),内容主要包含垣的组词, 帝垣是什么意思, 帝垣的拼音_怎么读, 帝垣的造句_造句大全, 帝的组词, 开头是帝的词语_成语, 结尾是垣的 ...

  10. python爬取pubmed的文献_利用selenium爬取pubmed,获得搜索的关键字最近五年发表文章数量...

    PubMed 是一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库.是一个做生物方面经常要用到的一个查找文献的网站.最近刚学了爬虫相关的知识包括urllib库,requests库,xpath ...

最新文章

  1. Linux/ubuntu server 18.04 安装远程桌面--vnc server
  2. 利用watch在小程序中实现全局状态共享
  3. WinCvs里登录出现C:/cvs: no such repository解决方案
  4. 在Linux上使用AFL对Stagefright进行模糊测试
  5. session与cookie的简单使用
  6. i++与++i的区别
  7. springboot + vue项目跨域请求解决方案
  8. 点阵字体显示系列补记2:关于24点阵汉字显示程序及其修改版本
  9. tensorflow对应的numpy版本_版本更新 | TensorFlow 2.4.0 候选版本发布
  10. 采矿协议_采矿电信产品推荐
  11. MyBatis源码阅读(四) --- SqlSession的创建过程
  12. 网上商城——详细流程
  13. python电影爬取并下载_python爬取电影并下载
  14. C语言基础-#include<stdio.h>
  15. html引导蒙层,web开发中实现图标点击态蒙层
  16. 模型实践| CLIP 模型
  17. 亚马逊云科技 Build On 第二季物联网(AIoT)专场实验心得(附踩坑大全)
  18. 《批处理BAT从入门到精通》总目录_培训教程持续更新中...
  19. MDPI的bib参考文献不显示会议地址
  20. proteus VSM常见问题

热门文章

  1. Qt-命令行更新翻译.ts文件
  2. 古诗词与代码之间不得不说的二三事。
  3. 苹果笔记本macbook pro如何安装python_Mac OS系统下的安装
  4. [转]Selenium html之于ul标志代码分析与使用
  5. 2020年春节抢票神器
  6. 基于RabbitMQ实现的订单超时功能-记录备查
  7. 个人作业--数组之首尾相连
  8. MATLAB将多个点首尾相连形成封闭图形
  9. 宏碁VN7-592G声卡问题解决方案
  10. 实验8人机交互页面的创新设计