论文阅读笔记(十)——Acoustic Scene Classification Using Reduced MobileNet Architecture

前言

早不忙,夜心慌,半夜起来补裤裆

PS:有一说一这游戏真养生

1 论文简介

1.1 关于文章

论文名称:**Acoustic Scene Classification Using Reduced MobileNet Architecture **

1.2 关于模型

使用简化的MobileNet体系结构进行声场景分类,应该是一个应用型文章

2 文章正文

2.1 摘要

声音在我们的日常生活中无处不在,比如车辆的声音,人与人之间的对话。因此,很容易收集所有这些音轨并将它们分类为不同的组。通过这样做,我们可以使用这些资产来识别场景。声学场景分类允许我们通过训练我们的机器来做到这一点,我们的机器可以进一步安装在智能手机等设备上。这给人们提供了便利,改善了我们的生活。我们的目标是最大化我们的机器学习结果的验证率,同时优化我们对硬件的使用。我们利用从IEEE检测和分类声学场景和事件(DCASE)的数据集来训练我们的机器。DCASE 2017的数据包含了15种不同的户外音频记录,包括海滩、巴士、餐厅等。在这项工作中,我们使用两种不同类型的信号处理技术,即Log Mel和HPSS(谐波撞击声分离)。接下来我们修改和减少MobileNet结构来训练我们的数据集。我们还利用微调和后期融合使我们的结果更准确,并提高我们的性能。通过上述结构,我们成功地达到了75.99%的验证率,这大约是2017声学场景和事件(DCASE)挑战的第七高表现组,与其他具有更高精度的算法相比,计算复杂度更少。我们认为这是值得的。

2.2 Motivation&Contributions

PS: 这一段主要是方便我们以后写Introduction与Related Work

2.2.1 Motivation

声学场景分类近年来引起了人们的关注。除了传统的图像识别,音轨比图片提供了更多的细节信息。我们的动机是,即使已经有很多种模型,我们仍然可以尝试整合不同的组合来优化我们的性能。通过尝试各种特征提取技术和结构,如VGG或ResNet,我们最终确定了MobileNet模型来实现我们的工作。
声学场景分类有许多可能或已经存在的应用,如安全系统和监控应用。与人类产生的语言不同,环境声音的范围更广,比以前的声音更具挑战性。原因在于,在我们的日常生活环境中,有更多意想不到的、无法识别的琐碎声音。在这项工作中,我们使用之前训练数据中存在的标签来提高我们对环境声音分类的性能。此外,我们还引用了比赛中最常用的算法集合的概念作为成功的关键,它可以帮助我们通过计算从所有的实验结果中得出最佳的结论。

2.2.2 Contributions

我们使用两种不同类型的信号处理技术,即Log Mel和HPSS(谐波撞击声分离)。接下来我们修改和减少MobileNet结构来训练我们的数据集。我们还利用微调和后期融合使我们的结果更准确,并提高我们的性能。通过上述结构,我们成功地达到了75.99%的验证率,这大约是2017声学场景和事件(DCASE)挑战的第七高表现组,与其他具有更高精度的算法相比,计算复杂度更少。我们认为这是值得的。

相关工作

根据DCASE 2017排名第三的论文,整体结构是连接两个不同的架构。首先,在背景相减过程后输入一个模型的mel谱图。另一方面,另一种用于成对输入,如左-右(LR)、中间(MS)和谐波冲击声分离(HPSS)。两个独立的通道用相同的卷积块进行处理,卷积块包含传统的CNN结构。最后,作者在最后一个全连接层之前将两个相似的模型结合起来。然后,本文采用以寻找最优权值为目标的集成迭代法。因此,我们被上面提到的策略和架构所激励。因此,我们提出了自己的模型,采用了带有Log Mel和HPSS特征提取的MobileNet。

Data Augmentation

首先,深度学习的数据增强技术(具体到图像)被广泛用于通过转换来增加数据集大小。但是在本文中,与传统的训练过程相比,本文提出的方法获得了更显著的结果。通过应用每一种增强,不同类的精度分别得到了提高。声道的数据增强不同于图像的数据增强,图像的数据增强包括时间拉伸、音高变化和添加随机噪声。通过使用这些技术,我们可以有效地提高我们的训练验证率,使我们的模型运行更稳定。

MobileNet

在我们的论文中,我们利用了MobileNet的优势,它是基于一个流线型的架构,使用深度可分离的卷积[3]。近年来,深度可分卷积在DNN模型中越来越流行,原因有二。首先,它们的参数比常规卷积层少,因此不容易发生过拟合。其次,由于参数更少,它们也需要更少的运算,使得它更便宜和更快。根据论文[4],移动网络能够有效运行在广泛的应用中,通过权衡合理的准确性来减少尺寸和延迟,因此,在我们的工作中,我们有动力在声音场景分类上尝试MobileNet模型。

Late Fusion 后期融合

后期融合解决了用特定特征训练的分类器产生不同预测结果的问题。后期融合的基本方法是为每个分类器估计一个固定的权重,然后使用预测得分的加权和作为融合结果。假设分类器对不同样本具有相同的预测能力是不恰当的。因此,为了减少预测误差,有必要对每个样本的融合权值进行估计,而不是使用固定的权值。集成方法在后期融合中扮演着重要的角色,包括构建一组分类器,然后通过自己的预测[6]投票对新数据进行分类。集成方法有很多,包括原始贝叶斯平均法、装袋法和boosting法等。

THE PROPOSED ARCHITECTURE 体系结构

特征提取 Feature Extraction

在我们的工作中,为了提高性能,我们采用了两种不同的特征提取技术。

Log Mel

Mel尺度是一种基于人耳频率分辨率的频率分类方法。梅尔音阶倾向于模仿人类的耳朵,以何种方式来感知和分辨频率,而人类对低频的不同频率更敏感。通过将原始音频数据转换为以mel尺度为Y轴的声谱图,我们可以利用声谱图所提供的细节信息随时间变化的优势。接下来,我们可以把我们的光谱图发送到我们的移动网络结构中。

HPSS (Harmonic-Percussive Sound Seperation)

通过分解声音,我们可以得到两个不同的组成部分:和声和打击音[2]。HPSS算法旨在将鼓声从混合音乐中分离出来。从论文[8]中,我们认识到,基于谱图上的谐波/撞击分离的各向异性,可以使用一种简单而快速的算法。在我们的工作中,我们使用Librosa提供的Python代码来分解我们的数据集,并将它们转换为光谱图。

Data augmentation

在论文中,我们认识到实现声音数据增强的方法有很多种。以下是我们在工作中采用的一些技巧。这些是在我们将数据集转换为光谱图之前完成的。

  • Random Noise 随机噪声

    • 为了扩大我们的数据集,我们在原始音轨中添加了随机高斯分布信息。
  • Time Stretching 时长拉伸
    • 有两种方式:减速或加速。我们将音频文件的速度提高了1.2倍,同时保持了相同的音高
  • Pitch Shifting
    • 我们降低音调,保持持续时间不变。因此,音频样本的音高移动{-1,-2}(以半音为单位)
  • Time Shifting 时间变换
    • 我们延迟原声,然后剪切并放置在声音开始时超出时间间隔的片段

MobileNet

我们提出了基于MobileNet结构的体系结构,该体系结构包含了一个包含Log Mel和HPSS两种不同特征提取结果的并行结构。

Fine-Tuning 微调

通过替换和重新训练ConvNet之上的分类器,并通过反向传播对预训练网络的权值进行微调,我们能够利用其他人所做的预训练权值。我们最初冻结了上层,但后来发现它并没有带来更好的性能。因此,我们在原始的MobileNet模型中切掉9层,并使用随机梯度下降(SGD)优化器训练它们,我们降低了学习速率来提高我们的性能。

Late Fusion 后期融合

由于Log Mel和HPSS两种不同的结果,我们将每一个分类结果转换成一个15维数组,然后采用平均集成策略,平均两个模型预测概率,得到更可靠的结果。我们之所以没有使用后期融合的动态分数,是因为我们发现它与算术平均法的差异很小,甚至没有可比性。因此,我们决定分别设置相等的概率。通过这样做,我们结构的结果将均匀分布,而不会过度依赖特定的结果。

Overall Structure 总体结构

整体架构如图1所示,由两种不同的特征提取技术组成。采用不同的预处理方法分别对三种MobileNet模型进行训练。接下来,在计算每个检测到的场景的概率之前,这些预测分数被集成。图2显示了MobileNet块,中间的块表示每个MobileNet层内部的结构。左图和右图展示了两种具有不同预处理策略的模型。可以看到使用了batch normalization (BN) ,relu等

在引入了我们的MobileNet模型之后,我们继续在图2中的左边和右边的区块。在右边的区块,我们提出了两个9层移动网络与HPSS。在训练之后,这两个结果连在一起并被重塑变成1024维的向量。然后,我们添加了一个参数为0.5的dropout函数,可以有效地避免过拟合。然后我们应用一个卷积层作为我们的分类器,结果再次被重塑成一个15维数组,它代表了我们数据集中场景的15种不同概率。图2的左块也是一个并行模型,但特征提取Log Mel代替。接下来,根据图1,我们将两种结果进行集成。一个集合是一个模型的组合,它的预测是通过不同的机制集成的。因此,通过结合每个结构的两个结果(在3.5中提到),我们可以获得更准确和可信的预测结果。

EXPERIMENTS 实验

在我们的实验中,我们决定批量大小的参数为8,因为我们发现它比这个任务中的数字16或32更合适。这是因为更大的批处理规模并不能通过随机梯度下降(SGD)优化器获得更好的精度。我们从0.01逐渐降低了我们的学习率,并发现当我们所提议的结构的准确率为0.001时,其结果令人满意。原因是高学习率会很容易破坏训练前的重量。虽然训练时的历元数会增加,但低学习率的表现明显更好。
图3和图4分别显示了HPSS和Log Mel特征各场景验证的准确率。可以看出,除了住宅声和有轨电车声,在大多数场景中,采用Log Mel的模型都比采用HPSS的模型有更高的性能。每种预处理方法的总回收率分别为68.6%和72.59%。值得注意的是,在一些地方,尽管我们使用了不同的特征提取技术,但准确率还是相对较低。例如,每个数字中,场景库的验证准确率最低。这是可以解释的,因为库中没有明显的特征可以被机器识别,一些不同的噪音使我们的模型有问题。因此,很难准确地做出正确的预测。此外,公园中人类和生物发出的声音的结合也影响了提取的特征,导致预测不准确。从上述因素来看,我们希望利用生成式对抗网络使我们的模型更加健壮,即使训练数据的特征不能有效地解决,也能保持良好的性能。此外,我们试图检验晚期融合的有效性。我们发现Fig.5中后期融合的准确率和融合率在各个场景中都有明显的提高,整体融合结果也达到了75.99%。


即使我们在完成数据增强后得到了更高的速率,但准确性仍然低于我们的满意度。这种现象是由于模型中的层越多并不总能带来更好的性能。这是因为当深度学习网络中有很多层时,无法有效更新与输入层相邻的梯度,这被称为消失梯度。尽管采用ReLU激活函数可以解决这一问题,但结果并不总是令人满意的。因此,我们随后试图从原始的MobileNet模型中减少层数,并在我们提出的结构中还有9个层时提出了最佳准确率。

CONCLUSION

根据我们的实验结果,我们最终提出了一个并行的MobileNet模型,当它们在每个特征提取结构(HPSS和Log Mel)中都减少到9层时,效果最好。同时,我们努力逐步改变我们的参数,并找到了它们的优化。因此,根据上面阐述的细节,我们最终成功地提高了我们的验证准确率。在展望中,我们希望figure GAN生成更多的训练数据,以稳定我们的模型,获得更好的成绩。

收获

应用型文章蛮好发的

论文阅读笔记(十)——Acoustic Scene Classification Using Reduced MobileNet Architecture相关推荐

  1. 【论文阅读笔记】Pyramid Scene Paring Networks

    [论文阅读笔记]Pyramid Scene Paring Networks 阅读第一遍(2021.1.18) 提出的问题:当前基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景类别线索 提出:金 ...

  2. 论文阅读笔记5-An Asynchronous Energy-Efficient CNN Accelerator with Reconfigurable Architecture

    一.Title An Asynchronous Energy-Efficient CNN Accelerator with Reconfigurable Architecture 二.Abstract ...

  3. Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记

    Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...

  4. 论文阅读笔记:Multi-view adaptive graph convolutions for graph classification

    论文阅读笔记:Multi-view adaptive graph convolutions for graph classification 文章目录 论文阅读笔记:Multi-view adapti ...

  5. 论文阅读笔记:《Hyperspectral image classification via a random patches network》(ISPRSjprs2018)

    论文阅读笔记:<Hyperspectral image classification via a random patches network>(ISPRSjprs2018) 论文下载地址 ...

  6. 《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》论文阅读笔记

    论文阅读笔记 去年在ECCV上发表的<Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spott ...

  7. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  8. 对抗训练-smart 论文阅读笔记

    对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

  9. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  10. 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning

    论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...

最新文章

  1. linux 下根据cpp文件快速书写头文件
  2. CTFshow php特性 web95
  3. SAP Web IDE本地环境搭建
  4. java word添加图片_Java 替换word文档文字并指定位置插入图片
  5. 光流 | MATLAB实现 Brox Optical Flow(代码类)
  6. MySQL创建和操纵数据库和表(DDL)最全总结(小白都能能懂哦)
  7. angular_ui-router ——依赖注入
  8. python urllib dns 缓存_新手用Python做一个网页爬虫
  9. 将Java应用程序作为Windows服务安装
  10. SVN更新数据和提交数据的几个疑问
  11. pytorch 训练过程acc_Pytorch之Softmax多分类任务
  12. linux为已有磁盘扩容 kvm,KVM虚拟磁盘扩容
  13. 警告: Can't find the request for http://localhost:8080/ibatisSpringDemo/ws/testWS's Observer
  14. 实际生产中,微服务用 Spring Cloud 多还是 Dubbo 多?
  15. vant:修改van-nav-bar__title颜色——vant中nav-bar组件标题颜色
  16. 接口自动化测试框架搭建(10、运行特定测试case,生成报告发送邮件)--python+HTMLTestRunnerCN+request+unittest+mock+db
  17. 【wordpress】wordpress自己制作主题看这一篇就够了/常用函数/注意事项
  18. 【“到此一游”系列】(菜鸡参加“美亚杯” 电子取证大赛感受)
  19. 计算机开机发出长滴,为何我的电脑开机出现一声长滴声三声短滴声
  20. 现代基准测试程序种类以及使用方法

热门文章

  1. img 图片加载出错时 显示默认图片
  2. MySQL学习之一数据库简介
  3. python 运行出现flask运行时提示出错了或者报服务器出错,ValueError: View function did not return a response...
  4. linux下Vim的使用
  5. Linux基础精华(转)
  6. CodeForces615A-Bulbs-模拟
  7. 如何切换DNN编辑器
  8. [软件更新]迅雷(Thunder)5.9.2.927版本发布
  9. AquaFold.Data.Studio.v6.5
  10. VS中使用码云gitee建立源代码管理