论文名称:ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS(2020ICASSP)

论文地址:https://arxiv.org/abs/1910.12551

论文代码:https://github.com/furkanyesiler/move

背景

研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出MOVE网络来检索相同的音乐。

模型流程

  • 模型输入:采用的crema-PCP特征(实验不采用该特征,所以没仔细看)。
  • 模型结构:
    • Expanding the receptive field:max-pool层之后的conv用于抽取高层音频特征,无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征;有dilation的conv层=>增加感受野,20、13是在人类能接受范围内(挺牵强)
    • Summarizing temporal content:提出multi-channel adaptive attention mechanism,将channel分成两部分,一部分采用类attention机制,用auto-pool(介于max、averag pool,是一个非线性、可学习的pool层)让模型学会时序上每个step的重要性,结果经过softmax与另外一部分对位乘得到最终的音频特征。
    • Standardizing embedding components:采用triplet loss训练,需要注意音频特征所在高维空间的体积,如向量distance的大小跟margin不成比例,会极大影响模型性能,因此在模型的输出特征上增加一层非参数的bn层,从而得到一个零均值、单位方差的音频特征。
  • 模型训练方法:采用triplet loss训练,在线hard triplet mining,例如batch=64,则分配16个类别的音频,每个类别4首歌,每首歌作为anchor 挑选最大distance为pos,挑选最小distance为neg。(尽管挑选hard会让模型陷于局部最小值,但是在batch里面挑选hard,可视为"moderate",不是全局性的hard选择)

模型效果

消融实验

模型效果

[MOVE]-音频翻唱检索论文笔记相关推荐

  1. 论文笔记(二十二):Soft Tracking Using Contacts for Cluttered Objects to Perform Blind Object Retrieval

    Soft Tracking Using Contacts for Cluttered Objects to Perform Blind Object Retrieval 文章概括 摘要 1. 介绍 2 ...

  2. 音乐翻唱软件测试初学者,音乐APP听歌识曲大评测,QQ音乐独家“翻唱识别”领跑...

    原标题:音乐APP听歌识曲大评测,QQ音乐独家"翻唱识别"领跑 不知道大家有没有遇到这样一种情况,看综艺时,突然听到一首很好听的歌曲,但是就是不知道歌名,在心里急得呀. 每每遇到这 ...

  3. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  4. 【歌曲识别】CQTNet:利用卷积神经网络学习翻唱歌曲识别的表示方法

    翻唱歌曲识别在音乐信息检索(MIR)领域是一项具有挑战性的任务,因为查询曲目和翻唱版本之间存在复杂的音乐差异.以前的工作通常使用手工特征和对齐算法,最近利用神经网络方法取得了进一步的突破. 本文基于翻 ...

  5. 【计算机毕业设计】544音乐翻唱网站与分享平台

                       摘 要 本论文主要论述了如何使用JAVA语言开发一个音乐网站与分享平台 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目 ...

  6. 论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features

    论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...

  7. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

  8. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  9. Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记

    Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记 引言 多输入模态有望提高模型性能,但我们实际上发现即使多模态模型 ...

最新文章

  1. 程序员javascript写乒乓球,和机器人练技术!没赢过!
  2. 2019山东夏令营摸鱼记
  3. MongoDB replSet
  4. Lucene.net常见功能实现知识汇总
  5. SQL Server 移动数据库
  6. ubuntu中clion更换cmake版本以及文本背景颜色
  7. C语言用递归求斐波那契数,让你发现递归的缺陷和效率瓶颈
  8. vue 组件属性监听_详解vuex 中的 state 在组件中如何监听
  9. 【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...
  10. vscode打开一个文件就会关闭一个文件
  11. Linux Shell编程笔记8 进程
  12. 「1s」即可!用 VS Code 一键玩转 GitHub 代码!
  13. [渝粤教育] 中国地质大学 测量学 复习题
  14. 关于Delphi7中日期函数StrtoDate的正确用法 win7报错
  15. led背光源工作的条件及结构
  16. Docker service命令详解
  17. springboot+校园招聘管理 毕业设计-附源码161815
  18. Java抽象类方法和抽象类
  19. 网易严选java工资_网易严选的文案,值得月薪三万!
  20. GPU和video transcoder

热门文章

  1. AWK----awk与shell交互
  2. matlab核算烟气量,基于Matlab 的烟气黑度值测量
  3. Django SVG 名字空间
  4. 以太网,令牌网,FDDI,ATM到底是什么?有什么区别?
  5. forEach()与each()方法的区别
  6. 【asm基础】nasm和masm的一些区别
  7. 微软自带dns服务器,微软改进Windows 10加密DNS服务器配置(DoH) 现在设置起来更方便...
  8. 【p2p】p2p streaming capturer based on flv
  9. 计算机cast函数是什么意思,CAST()函数
  10. 最简单的迁徙图实现demo