论文题目:Beyond Statistical Relations: Integrating Knowledge Relations into Style Correlations for Multi-Label Music Style Classification

论文来源:WSDM 2020

论文链接:https://dl.acm.org/doi/10.1145/3336191.3371838

代码链接:https://github.com/Makwen1995/MusicGenre

关键词:音乐风格分类;标签关联;GCN;多标签分类;知识图谱应用

失踪人口(短暂)回归哈哈哈,假期第一更~


文章目录

  • 1 摘要
  • 2 引言
  • 3 相关工作
    • 3.1 音乐风格分类
    • 3.2 多标签分类
  • 4 问题陈述和准备工作
    • 4.1 问题陈述
    • 4.2 知识图谱的构建
  • 5 模型
    • 5.1 评论表示的学习
    • 5.2 风格表示的学习
      • 5.2.1 统计关联矩阵
      • 5.2.2 知识关联矩阵
      • 5.2.3 整合的关联矩阵
      • 5.2.4 GCN
    • 5.3 音乐风格分类
  • 6 实验
  • 7 总结
  • 参考文献

1 摘要

本文要解决的是音乐风格多标签分类问题。

现有方法的不足:

现有的方法利用音乐评论信息进行多标签的音乐风格分类,同时利用不同风格之间的关联信息。

(1)但是,这些方法聚焦于不同音乐风格间的统计关联,并且仅考虑了浅层的风格关联。

(2)此外,由于音乐风格的分布不均衡问题,有一些音乐风格拥有非常少的训练数据,基于统计关联的方法在这类音乐风格上会面临欠拟合问题。


本文提出:

本文提出KRF(knowledge relations integrated framework )框架以捕获完整的风格关联信息。

(1)本文将关系分为两类:一是音乐风格间的统计关联;二是根据外部知识得到的音乐风格间的内在关联。

(2)基于以上两种关联,本文使用GCN学习音乐风格间的深层关联

(3)实验结果显示本文方法超越了SOTA,还证明了本文方法缓解欠拟合问题的有效性,以及本文方法可以学习到有意义的风格关联。

2 引言

现有研究的不足

(1)单标签分类

大多数已有研究将音乐风格分类建模成单个标签的分类问题。然而一首音乐可能同时属于多个不同的风格,单个标签分类不能建模这种复杂的问题。

(2)忽略风格间的关联信息

大多数已有研究假定音乐风格标签是相互独立的,并采用多类/二类分类器标注音乐,忽略了风格之间的关联信息。

[1]中首次利用音乐风格之间的统计关联(共现信息),以实现多标签的音乐风格分类,证明了考虑不同音乐风格之间关联信息的有效性。

(3)风格间统计关联的局限性

基于统计信息的风格间关联是受限且不完全的。

1)共现信息不能反映音乐风格间的发展关系

2)只有少部分的音乐风格(常见类别)具有很多样本,大多数音乐风格(罕见类别)的样本数量非常少,因此在构建统计共现矩阵时就会形成长尾分布。这就会导致模型在常见类别上过拟合,而在罕见类别欠拟合


作者提出

整合外部知识,从外部知识中学习到音乐风格间的隐含关联。

(1)引入知识的必要性

图1所示,图中节点均为风格标签,作者使用3种风格间关联,建模不同风格间的依赖关系。该音乐的真实标签一共有三个:Electronic、PostPunk、Synthpop,只有Synthpop和其他不正确的风格标签出现在了该音乐的评论中,如果评论中出现的其他风格和Electronic、PostPunk没有统计上的共现关系,则很难推断出正确的类别。

因此,根据知识挖掘风格间的内在联系是十分必要的。例如,PostFunk是Funk演变而来的,两者间有从属关系;Electronic rock包括Rock和Electronic,两者间有融合关系

根据这些知识关联,可以从评论中出现的Punk和Rock中推断出正确的标签。

(2)捕获音乐风格间的复杂关联

音乐风格间具有复杂的关联,比如多跳关联。[1]只考虑了风格标签间的一阶相似度,不能捕获音乐风格间的深层次关联。


本文研究问题及解决方法

(1)如何克服音乐风格间统计关联的局限性

同时考虑和音乐风格有关的外部知识以及音乐风格间的统计信息,以得到完整的风格间依赖关系,从而缓解过拟合和欠拟合问题。

(2)如何根据音乐风格间的依赖捕获风格间的深层次关联

根据外部知识建图,然后使用GCN学习到风格标签的表示。最后将HAN(hierarchical attention network)学到的评论表示和GCN学习到的风格表示相融合,以用于音乐风格分类。


贡献点

(1)整合外部音乐知识以及风格标签间的统计关联作为风格间的关联;

(2)设计风格关联矩阵,使用GCN学习到风格表示,从而捕获到风格间的深层关联

(3)融合评论表示和风格表示用于音乐风格分类。

3 相关工作

3.1 音乐风格分类

现有的音乐风格分类方法可分为三类:(1)基于声音信号;(2)基于文本;(3)基于深度学习的方法。

(1)基于声音信号

依赖于从声音信息中抽取人工设计的特征,通常为基于机器学习的方法,例如SVM、HMM和DT(决策树)。

(2)基于文本的方法

1)利用音乐评论

[2]使用朴素贝叶斯分类器预测音乐风格;[3]使用命名实体消歧丰富评论文本语义,抽取语言、情感和语义特征,使用SVM进行风格分类。

2)利用歌词

[4]提出基于歌词的模型,使用13种风格和语言特征进行音乐分类;[5]使用分层注意力网络进行歌词分类。

(3)基于神经网络的方法

  • CNN:将声谱图作为输入,得到视觉表示,以用于音乐风格分类;
  • LSTM:分层LSTM模型,以用于音乐风格分类。

3.2 多标签分类

传统的多标签分类方法可分为两类:

(1)Problem transformation methods:将多标签问题转化为多个单独标签的问题;

(2)Algorithm adaptation methods:对现有的机器学习算法进行适应、扩展和定制,以用于多标签学习任务。


音乐风格的多标签分类方法:

(1)未考虑标签间关系

[6]使用集成方法,优于单一分类器;[7]提出超图集成的SVM方法,将音乐内容和标签相结合;[8]学习并结合多模态的数据表示以用于音乐风格分类。

(2)考虑标签间关系

[1]第一个利用了风格间关联,但是仅考虑到了基于统计的浅层关联,因此有欠拟合问题。

4 问题陈述和准备工作

4.1 问题陈述

任务:给定一首音乐的多条评论,预测该音乐的多个风格标签。

  • 输入:X=x1,x2,...,xKX={x_1, x_2, ..., x_K}X=x1​,x2​,...,xK​表示KKK个评论,每个评论xix_ixi​包含JJJ个单词,xi=xi1,xi2,...,xiJx_i = x_{i1}, x_{i2},..., x_{iJ}xi​=xi1​,xi2​,...,xiJ​
  • 风格类别:C=c1,c2,...,c∣C∣C={c_1, c_2, ..., c_{|C|}}C=c1​,c2​,...,c∣C∣​
  • 每个样本XXX有MMM个风格标签,MMM不固定。

4.2 知识图谱的构建

(1)知识来源

WikipediaAllMusic作为知识源,以构建知识图谱。

原因:可信度高;包含不同音乐风格的层级分类关系

Wikipedia:https://en.wikipedia.org/wiki/List_of_popular_music_genres
AllMusic:https://www.allmusic.com/genres

(2)风格关系定义

  • 从属关系:表示一个类型是另一个类型的子类;
  • 并列关系:表示两个风格很相似,是紧密相关的;
  • 融合关系:表示两个风格可以互相融合形成一个风格。

具体例子如图2所示:

5 模型

本文提出的框架如图3所示,主要分为评论表示的学习风格的表示学习两部分。

  • 评论表示的学习:将评论序列从词向量映射到语义空间;
  • 风格表示的学习:整合从数据中或得到风格关联以及外部知识,将它们编码到风格标签的表示中。

5.1 评论表示的学习

使用HAN建模评论序列,以从不同的语义层次得到评论的表示。该模块有两个级别的注意力机制:单词级别评论级别

(1)单词级别

1)序列信息建模

给定有JJJ个单词的评论,首先得到每个单词的词向量xij∈Rdx_{ij}\in \mathbb{R}^dxij​∈Rd。然后使用BiGRU建模单词序列,捕获上下文信息,将前后隐层状态拼接起来以得到最终的状态:

2)注意力机制

使用注意力机制衡量每个单词的重要程度,得到增强的评论表示


(2)评论级别

得到评论的向量表示xi\mathbf{x}_ixi​后,使用BiGRU和注意力机制编码评论序列x1,x2,...,xK{x_1, x_2, ..., x_K}x1​,x2​,...,xK​。最终得到评论序列的向量表示X∈Rd\mathbf{X}\in \mathbb{R}^dX∈Rd

5.2 风格表示的学习

将风格关联定义为两类:1)利用数据集中的共现信息得到的统计关联;2)利用音乐风格相关的外部知识得到的知识关联

首先,融合统计关联和知识关联,以构建一个关联矩阵。然后,使用GCN学习风格间的深层关联。对于GCN来说,邻接矩阵在指导消息传递的过程中起到关键作用。受[9]启发,本文将统计关联矩阵和知识关联矩阵整合,代替邻接矩阵作为GCN的输入。

5.2.1 统计关联矩阵

在训练集中计数风格对的共现次数,得到矩阵A∈R∣C∣×∣C∣\mathbf{A}\in \mathbb{R}^{|C|\times |C|}A∈R∣C∣×∣C∣,其中∣C∣|C|∣C∣是风格类别数,AijA_{ij}Aij​表示cic_ici​和cjc_jcj​的共现次数。

缺点:

  • 风格对之间的共现关系可能会形成长尾分布,其中一些稀有的共现关系可能是噪声
  • 数据集中得到的共现次数不能真实地反映风格间的共现关系。

作者提出:

使用阈值τ\tauτ过滤掉噪声边,过滤后的关联矩阵Astatistic\mathbf{A}^{statistic}Astatistic表示风格间的统计关联:

5.2.2 知识关联矩阵

共现矩阵不能捕获风格标签间的内在关联,因此作者引入捕获到标签间结构关联的知识图谱G=(E,R)\mathcal{G} = (\mathcal{E}, \mathcal{R})G=(E,R),其中E\mathcal{E}E和R\mathcal{R}R分别表示实体集合和关系集合。

标签c∈Cc\in Cc∈C对应于实体e∈Ee\in \mathcal{E}e∈E,标签间的关联对应于关系r∈Rr\in \mathcal{R}r∈R。关系一共有三种:1)从属关系 rsuper−subordinater_{super-subordinate}rsuper−subordinate​;2)并列关系 rcoordinater_{coordinate}rcoordinate​;3)融合关系 rfusionr_{fusion}rfusion​

使用打分函数srs_rsr​计算在关系rrr的条件下,两个标签之间的分数。知识关联矩阵的定义如下所示:

其中Aijknowledge∈R∣C∣×∣C∣\mathbf{A}^{knowledge}_{ij}\in \mathbb{R}^{|C|\times |C|}Aijknowledge​∈R∣C∣×∣C∣。

为了简化,作者将打分函数设为常数函数:当r∈rfusionr\in r_{fusion}r∈rfusion​时值为1;当r∈rsuper−subordinater\in r_{super-subordinate}r∈rsuper−subordinate​时值为2;当r∈rcoordinater\in r_{coordinate}r∈rcoordinate​时值为3。

5.2.3 整合的关联矩阵

(1)对两个关联矩阵Astatistic\mathbf{A}^{statistic}Astatistic和Aknowledge\mathbf{A}^{knowledge}Aknowledge分别进行归一化。其中D\mathbf{D}D是对角度矩阵,Dij=∑jAijD_{ij} = \sum_j A_{ij}Dij​=∑j​Aij​

(2)合并归一化后的两个关联矩阵,最终得到关联矩阵Aintergated∈R2×∣C∣×∣C∣\mathbf{A}^{intergated}\in \mathbb{R}^{2\times |C|\times |C|}Aintergated∈R2×∣C∣×∣C∣。

5.2.4 GCN

使用GCN,通过聚合邻居信息生成节点表示。多层GCN可形式化为:

  • σ(⋅)\sigma(\cdot)σ(⋅)表示激活函数LeakyRELU;
  • Hl∈R∣C∣×D\mathbf{H}^l\in \mathbb{R}^{|C|\times D}Hl∈R∣C∣×D表示第lll层的矩阵;
  • Hl+1\mathbf{H}^{l+1}Hl+1是更新后的节点特征;
  • Wl∈RD×D′\mathbf{W}^l\in \mathbb{R}^{D\times D^{'}}Wl∈RD×D′是需要学习的转换矩阵。

本文使用2层GCN,第一层将随机初始化的标签嵌入H0∈R∣C∣×D\mathbf{H}^0\in \mathbb{R}^{|C|\times D}H0∈R∣C∣×D作为输入,最后一层输出H2∈R∣C∣×D′\mathbf{H}^2\in \mathbb{R}^{|C|\times D^{'}}H2∈R∣C∣×D′作为最终的节点表示。

5.3 音乐风格分类

评论表示X\mathbf{X}X和标签表示H2\mathbf{H}^2H2对于预测音乐风格都很重要,因此作者使用矩阵乘法操作以融合二者。

融合前先将评论表示过ReLU,使用以下操作得到最终的预测分值y^\hat{y}y^​:

损失函数如下所示,其中y∈R∣C∣y\in \mathcal{R}^{|C|}y∈R∣C∣表示音乐的真实标签,yi=0,1y_i=0,1yi​=0,1表示该音乐是否有标签iii;σ\sigmaσ是sigmoid函数:

6 实验

1. 数据集

Douban Music,Amazon Music


2. 对比方法

  • ML-KNN:基于KNN的多标签学习算法;
  • Binary Relevance:将多标签分类问题转换成多个独立的二分类问题,未考虑标签间的依赖关系;
  • Classifier Chains:将多标签分类问题转换成一系列的二分类问题,考虑了标签间依赖;
  • Label Powerset:将多标签分类问题转换成多类别的单个标签学习问题;
  • MLP
  • CNN
  • LSTM
  • HAN-LCM[1]:多标签音乐风格分类的SOTA方法

3. 评价指标

  • F1 socre:nacro F1和micro F1
  • One-error:top-ranked的标签不在真实标签集合中的样本所占的比例
  • Hamming Loss:被错分的实例-标签对所占的比例

4. 实验结果

(1)忽视了标签间关联的algorithm adaptation methods(ML-KNN)明显比problem transformation methods(Binary Relevance, Classifier Chains和Label Powerset)差。

(2)CNN和LSTM比传统的多标签分类方法好,表明神经网络模型可以从评论中学习到深层次的隐含信息。

(3)HAN-LCM在所有baselines中表现最好,因为它利用了风格间的关联并且使用注意力机制捕获了有辨别性的特征。

(4)本文的KRF方法表现最好,表明了使用整合后的统计关联和知识关联学习风格间关联的有效性,和HAN-LCM相比可以捕获到更深层次的风格间关联。


5. 消融实验

  • w/o SRelation:不使用标签间的统计关联
  • w/o KRelation:不使用标签间的知识关联
  • Only HAN:去掉风格表示学习模块

6. 可视化分析


7. Case Study

top-5常见音乐风格和罕见音乐风格上做实验,以证明KRF可以有效缓解标签分布不均衡问题。


8. 参数敏感性分析

τ\tauτ表示统计关联矩阵中有多少共现边应被过滤掉。

  • τ\tauτ过小:统计关联矩阵中将会有较多的罕见共现信息,这些噪声不能反映标签的实际共现模式;
  • τ\tauτ过大:过滤掉了较多有用的共现信息。

7 总结

本文解决的是音乐风格的多标签分类问题,提出基于GCN的KRF框架以捕获风格间的关联信息,利用知识图谱共现模式以得到恰当并且完全的不同风格标签间的依赖关系

(1)首先,通过整合统计关联和知识关联,设计了有效的风格关联矩阵;

(2)接着,使用GCN学习得到标签表示;

(3)最终,将标签表示和HAN学习得到的评论表示相融合,以用于音乐风格分类。

未来工作:

将其他类型的信息,例如用户偏好艺术家信息,整合到风格关联中。


文章的亮点在于基于知识图谱,引入音乐风格相关的外部知识,以得到不同音乐风格间内在的隐式关联,打破了以往仅仅基于风格间共现统计关联方法的局限性,缓解了这一任务中的过拟合和欠拟合的问题。

模型分为评论表示学习(HAN)和风格表示学习(GCN)两大部分。

(1)风格间关联的定义

作者开创性地将音乐风格间的关联定义为两类:1)根据训练集,对不同风格两两间的共现次数进行计数,得到统计关联;2)利用知识图谱,根据不同风格的层次分类关系(从属关系, 并列关系, 融合关系),得到知识关联

(2)统计关联矩阵的噪声过滤

考虑到从数据集中得到的共现信息与真实世界中不同风格间共现信息存在差异,以及统计关联矩阵中噪声的存在,作者设置阈值过滤掉了统计关联矩阵中的噪声边,并且通过实验证明了该方法的有效性。

(3)两个关联矩阵的整合

传统的基于GCN的方法直接在构建好的图上进行消息聚合。本文和传统的基于GCN的方法不同,没有直接在仅考虑了标签间深层关联的外部知识构建的标签关联图上进行消息聚合操作,因为这样就忽视了标签间浅层的统计关联信息。然而,已有工作[1]表明,标签间浅层的统计关联信息对于多标签音乐风格分类任务是有效的。

因此,作者分别将统计关联矩阵知识关联矩阵归一化,然后拼接起来作为输入给GCN的最终的“邻接矩阵”。消融实验证明了该方法的有效性。

参考文献

[1] Guangxiang Zhao, Jingjing Xu, Qi Zeng, Xuancheng Ren, and Xu Sun. 2019. Review-Driven Multi-Label Music Style Classification by Exploiting Style Correlations. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2884–2891.

[2] Xiao Hu, J Stephen Downie, Kris West, and Andreas F Ehmann. 2005. Mining
Music Reviews: Promising Preliminary Results… In ISMIR. 536–539.

[3] Sergio Oramas, Luis Espinosa-Anke, Aonghus Lawlor, et al. 2016. Exploring customer reviews for music genre classification and evolutionary studies. In The 17th International Society for Music Information Retrieval Conference (ISMIR 2016), New York City, United States of America, 7-11 August 2016.

[4] Michael Fell and Caroline Sporleder. 2014. Lyrics-based analysis and classification of music. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. 620–631.

[5] Alexandros Tsaptsinos. 2017. Lyrics-based music genre classification using a
hierarchical attention network. arXiv preprint arXiv:1707.04678 (2017).

[6] Chris Sanden and John Z. Zhang. 2011. Enhancing multi-label music genre classification through ensemble techniques. Proceedings of the 34th international ACM SIGIR conference on Research and development in Information - SIGIR âĂŹ11 (2011). https://doi.org/10.1145/2009916.2010011

[7] Fei Wang, Xin Wang, Bo Shao, Tao Li, and Mitsunori Ogihara. 2009. Tag Integrated Multi-Label Music Style Classification with Hypergraph… In ISMIR. 363–368.

[8] Sergio Oramas, Francesco Barbieri, Oriol Nieto, and Xavier Serra. 2018. Multimodal deep learning for music genre classification. Transactions of the International Society for Music Information Retrieval. 2018; 1 (1): 4-21. (2018).

[9] Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, and Yanwen Guo. 2019. Multi Label Image Recognition With Graph Convolutional Networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

【论文解读 WSDM 2020 | KRF】Integrating Knowledge Relations into Style Correlations for 多标签音乐风格分类相关推荐

  1. 论文解读:(TransH)Knowledge Graph Embedding by Translating on Hyperplanes

    转自: https://blog.csdn.net/qq_36426650/article/details/103336589?utm_medium=distribute.pc_relevant.no ...

  2. 论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning

    论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning (2018 ACL) 简要信息: ...

  3. 论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...

    论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Informa ...

  4. 【论文解读 ICLR 2020 | Jure Leskovec组】Query2box: Reasoning over KGs in Vector Space using Box Embedding

    论文题目:Query2box: Reasoning over Knowledge Graphs in Vector Space using Box Embeddings 论文来源:ICLR 2020 ...

  5. 【论文解读 AAAI 2020 | GNTP】Differentiable Reasoning on Large Knowledge Bases and Natural Language

    论文题目:Differentiable Reasoning on Large Knowledge Bases and Natural Language 论文来源:AAAI 2020 伦敦大学, Fac ...

  6. 【论文解读 WSDM 2018 | SHINE】Signed HIN Embedding for Sentiment Link Prediction

    论文链接:https://arxiv.org/abs/1712.00732 代码链接:https://github.com/boom85423/hello_SHINE 会议:WSDM 2018 这位大 ...

  7. 【论文解读 AAAI 2020 | Bi-GCN】Rumor Detection on Social Media with Bi-Directional GCN

    论文题目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks 论文来源:AAAI 2020 ...

  8. 【论文解读 ICLR 2020 | DropEdge】TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION

    论文题目:DROPEDGE: TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION 论文来源:ICLR 2020 论文链接 ...

  9. 【论文解读 ACL 2020 | MixText】Linguistically-Informed Interpolation of Hidden Space for 半监督文本分类

    论文题目:Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification 论 ...

  10. 论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering

    论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering   本文解决KBQA中的子问题--Relat ...

最新文章

  1. 04. Mybatis的resultMap基本应用
  2. LeetCode 7 反转整数
  3. PyCharm的配置与安装
  4. 23种设计模式C++源码与UML实现--原型模式
  5. PHP XAMPP配置PHP环境和Apache80端口被占用解决方案
  6. 本地线程分配缓冲_线程本地分配缓冲区
  7. C# 的Delegate(委托)
  8. stringreader_Java StringReader markSupported()方法与示例
  9. httrack 拷贝网站到本地(好东西,但是发现考的不全)
  10. Python高能小技巧:不要在for与while循环后面写else块
  11. 被曝大裁员,涉及30%员工!公司内斗、高管之间拉帮结派 喜茶回应了...
  12. redis db0 到 db15_深入剖析Redis系列: Redis集群模式搭建与原理详解
  13. 全网首发:WINDOWS主机与MAC虚拟机文件访问的解决办法
  14. window一键清理垃圾代码
  15. 认知盈余时代-知乎如何运营
  16. windows server 2008R2下安装nginx
  17. ubuntu php代码编辑器,Linux_ubuntu16.04编辑器vi该怎么使用?,vi编辑器,ubuntu中最基本的文 - phpStudy...
  18. android6.0在状态栏添加一键截屏
  19. 手机号正则判断最新版 包含199、198、166开头的号码
  20. 以太坊编程-Geth

热门文章

  1. php post 漏洞_帝国CMS(EmpireCMS)v7.5漏洞分析 - LEOGG
  2. SAS编程|ADAM阶段性小结
  3. 开课吧 python与人工智能 下载_开课吧app|开课吧手机版下载v2.3.6安卓版 - 欧普软件下载...
  4. 卫星导航系统的发展历史
  5. CCI: Representing N cents
  6. Android源码开发之蓝牙通知振动
  7. 《Spring实战》学习笔记-第五章:构建Spring web应用
  8. clustalw序列比对_你还在用ClustalW做多序列比对?OUT了
  9. linux输入文件后clustalw,ClustalW----多序列比对分析(一)
  10. 如何配置 Cilium 和 BGP 协同工作?