[MOVE]-音频翻唱检索论文笔记
论文名称:ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS(2020ICASSP)
论文地址:https://arxiv.org/abs/1910.12551
论文代码:https://github.com/furkanyesiler/move
背景
研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出MOVE网络来检索相同的音乐。
模型流程
- 模型输入:采用的crema-PCP特征(实验不采用该特征,所以没仔细看)。
- 模型结构:
- Expanding the receptive field:max-pool层之后的conv用于抽取高层音频特征,无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征;有dilation的conv层=>增加感受野,20、13是在人类能接受范围内(挺牵强)
- Summarizing temporal content:提出multi-channel adaptive attention mechanism,将channel分成两部分,一部分采用类attention机制,用auto-pool(介于max、averag pool,是一个非线性、可学习的pool层)让模型学会时序上每个step的重要性,结果经过softmax与另外一部分对位乘得到最终的音频特征。
- Standardizing embedding components:采用triplet loss训练,需要注意音频特征所在高维空间的体积,如向量distance的大小跟margin不成比例,会极大影响模型性能,因此在模型的输出特征上增加一层非参数的bn层,从而得到一个零均值、单位方差的音频特征。
- 模型训练方法:采用triplet loss训练,在线hard triplet mining,例如batch=64,则分配16个类别的音频,每个类别4首歌,每首歌作为anchor 挑选最大distance为pos,挑选最小distance为neg。(尽管挑选hard会让模型陷于局部最小值,但是在batch里面挑选hard,可视为"moderate",不是全局性的hard选择)
模型效果
消融实验
模型效果
[MOVE]-音频翻唱检索论文笔记相关推荐
- 论文笔记(二十二):Soft Tracking Using Contacts for Cluttered Objects to Perform Blind Object Retrieval
Soft Tracking Using Contacts for Cluttered Objects to Perform Blind Object Retrieval 文章概括 摘要 1. 介绍 2 ...
- 音乐翻唱软件测试初学者,音乐APP听歌识曲大评测,QQ音乐独家“翻唱识别”领跑...
原标题:音乐APP听歌识曲大评测,QQ音乐独家"翻唱识别"领跑 不知道大家有没有遇到这样一种情况,看综艺时,突然听到一首很好听的歌曲,但是就是不知道歌名,在心里急得呀. 每每遇到这 ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- 【歌曲识别】CQTNet:利用卷积神经网络学习翻唱歌曲识别的表示方法
翻唱歌曲识别在音乐信息检索(MIR)领域是一项具有挑战性的任务,因为查询曲目和翻唱版本之间存在复杂的音乐差异.以前的工作通常使用手工特征和对齐算法,最近利用神经网络方法取得了进一步的突破. 本文基于翻 ...
- 【计算机毕业设计】544音乐翻唱网站与分享平台
摘 要 本论文主要论述了如何使用JAVA语言开发一个音乐网站与分享平台 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目 ...
- 论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features
论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...
- 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
- Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
- Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记
Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记 引言 多输入模态有望提高模型性能,但我们实际上发现即使多模态模型 ...
最新文章
- 程序员javascript写乒乓球,和机器人练技术!没赢过!
- 2019山东夏令营摸鱼记
- MongoDB replSet
- Lucene.net常见功能实现知识汇总
- SQL Server 移动数据库
- ubuntu中clion更换cmake版本以及文本背景颜色
- C语言用递归求斐波那契数,让你发现递归的缺陷和效率瓶颈
- vue 组件属性监听_详解vuex 中的 state 在组件中如何监听
- 【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...
- vscode打开一个文件就会关闭一个文件
- Linux Shell编程笔记8 进程
- 「1s」即可!用 VS Code 一键玩转 GitHub 代码!
- [渝粤教育] 中国地质大学 测量学 复习题
- 关于Delphi7中日期函数StrtoDate的正确用法 win7报错
- led背光源工作的条件及结构
- Docker service命令详解
- springboot+校园招聘管理 毕业设计-附源码161815
- Java抽象类方法和抽象类
- 网易严选java工资_网易严选的文案,值得月薪三万!
- GPU和video transcoder
热门文章
- AWK----awk与shell交互
- matlab核算烟气量,基于Matlab 的烟气黑度值测量
- Django SVG 名字空间
- 以太网,令牌网,FDDI,ATM到底是什么?有什么区别?
- forEach()与each()方法的区别
- 【asm基础】nasm和masm的一些区别
- 微软自带dns服务器,微软改进Windows 10加密DNS服务器配置(DoH) 现在设置起来更方便...
- 【p2p】p2p streaming capturer based on flv
- 计算机cast函数是什么意思,CAST()函数
- 最简单的迁徙图实现demo