[MOVE]-音频翻唱检索论文笔记

论文名称：ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS（2020ICASSP）

论文地址：https://arxiv.org/abs/1910.12551

论文代码：https://github.com/furkanyesiler/move

背景

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出MOVE网络来检索相同的音乐。

模型流程

模型输入：采用的crema-PCP特征（实验不采用该特征，所以没仔细看）。
模型结构：
- Expanding the receptive field：max-pool层之后的conv用于抽取高层音频特征，无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征；有dilation的conv层=>增加感受野，20、13是在人类能接受范围内（挺牵强）
- Summarizing temporal content：提出multi-channel adaptive attention mechanism，将channel分成两部分，一部分采用类attention机制，用auto-pool（介于max、averag pool，是一个非线性、可学习的pool层）让模型学会时序上每个step的重要性，结果经过softmax与另外一部分对位乘得到最终的音频特征。
- Standardizing embedding components：采用triplet loss训练，需要注意音频特征所在高维空间的体积，如向量distance的大小跟margin不成比例，会极大影响模型性能，因此在模型的输出特征上增加一层非参数的bn层，从而得到一个零均值、单位方差的音频特征。
模型训练方法：采用triplet loss训练，在线hard triplet mining，例如batch=64，则分配16个类别的音频，每个类别4首歌，每首歌作为anchor 挑选最大distance为pos，挑选最小distance为neg。（尽管挑选hard会让模型陷于局部最小值，但是在batch里面挑选hard，可视为"moderate"，不是全局性的hard选择）

模型效果

消融实验

模型效果

[MOVE]-音频翻唱检索论文笔记相关推荐

论文笔记（二十二）：Soft Tracking Using Contacts for Cluttered Objects to Perform Blind Object Retrieval
Soft Tracking Using Contacts for Cluttered Objects to Perform Blind Object Retrieval 文章概括摘要 1. 介绍 2 ...
音乐翻唱软件测试初学者,音乐APP听歌识曲大评测，QQ音乐独家“翻唱识别”领跑...
原标题:音乐APP听歌识曲大评测,QQ音乐独家"翻唱识别"领跑不知道大家有没有遇到这样一种情况,看综艺时,突然听到一首很好听的歌曲,但是就是不知道歌名,在心里急得呀. 每每遇到这 ...
论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
【歌曲识别】CQTNet：利用卷积神经网络学习翻唱歌曲识别的表示方法
翻唱歌曲识别在音乐信息检索(MIR)领域是一项具有挑战性的任务,因为查询曲目和翻唱版本之间存在复杂的音乐差异.以前的工作通常使用手工特征和对齐算法,最近利用神经网络方法取得了进一步的突破. 本文基于翻 ...
【计算机毕业设计】544音乐翻唱网站与分享平台
摘要本论文主要论述了如何使用JAVA语言开发一个音乐网站与分享平台 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目 ...
论文笔记：Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features
论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...
论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记
Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记引言多输入模态有望提高模型性能,但我们实际上发现即使多模态模型 ...

[MOVE]-音频翻唱检索论文笔记

背景

模型流程

模型效果

[MOVE]-音频翻唱检索论文笔记相关推荐

最新文章

热门文章