论文阅读笔记(十)——Acoustic Scene Classification Using Reduced MobileNet Architecture

前言

早不忙，夜心慌，半夜起来补裤裆

PS：有一说一这游戏真养生

1 论文简介

1.1 关于文章

论文名称:**Acoustic Scene Classification Using Reduced MobileNet Architecture **

1.2 关于模型

使用简化的MobileNet体系结构进行声场景分类，应该是一个应用型文章

2 文章正文

2.1 摘要

声音在我们的日常生活中无处不在，比如车辆的声音，人与人之间的对话。因此，很容易收集所有这些音轨并将它们分类为不同的组。通过这样做，我们可以使用这些资产来识别场景。声学场景分类允许我们通过训练我们的机器来做到这一点，我们的机器可以进一步安装在智能手机等设备上。这给人们提供了便利，改善了我们的生活。我们的目标是最大化我们的机器学习结果的验证率，同时优化我们对硬件的使用。我们利用从IEEE检测和分类声学场景和事件(DCASE)的数据集来训练我们的机器。DCASE 2017的数据包含了15种不同的户外音频记录，包括海滩、巴士、餐厅等。在这项工作中，我们使用两种不同类型的信号处理技术，即Log Mel和HPSS(谐波撞击声分离)。接下来我们修改和减少MobileNet结构来训练我们的数据集。我们还利用微调和后期融合使我们的结果更准确，并提高我们的性能。通过上述结构，我们成功地达到了75.99%的验证率，这大约是2017声学场景和事件(DCASE)挑战的第七高表现组，与其他具有更高精度的算法相比，计算复杂度更少。我们认为这是值得的。

2.2 Motivation&Contributions

PS: 这一段主要是方便我们以后写Introduction与Related Work

2.2.1 Motivation

声学场景分类近年来引起了人们的关注。除了传统的图像识别，音轨比图片提供了更多的细节信息。我们的动机是，即使已经有很多种模型，我们仍然可以尝试整合不同的组合来优化我们的性能。通过尝试各种特征提取技术和结构，如VGG或ResNet，我们最终确定了MobileNet模型来实现我们的工作。
声学场景分类有许多可能或已经存在的应用，如安全系统和监控应用。与人类产生的语言不同，环境声音的范围更广，比以前的声音更具挑战性。原因在于，在我们的日常生活环境中，有更多意想不到的、无法识别的琐碎声音。在这项工作中，我们使用之前训练数据中存在的标签来提高我们对环境声音分类的性能。此外，我们还引用了比赛中最常用的算法集合的概念作为成功的关键，它可以帮助我们通过计算从所有的实验结果中得出最佳的结论。

2.2.2 Contributions

我们使用两种不同类型的信号处理技术，即Log Mel和HPSS(谐波撞击声分离)。接下来我们修改和减少MobileNet结构来训练我们的数据集。我们还利用微调和后期融合使我们的结果更准确，并提高我们的性能。通过上述结构，我们成功地达到了75.99%的验证率，这大约是2017声学场景和事件(DCASE)挑战的第七高表现组，与其他具有更高精度的算法相比，计算复杂度更少。我们认为这是值得的。

THE PROPOSED ARCHITECTURE 体系结构

特征提取 Feature Extraction

在我们的工作中，为了提高性能，我们采用了两种不同的特征提取技术。

Log Mel

Mel尺度是一种基于人耳频率分辨率的频率分类方法。梅尔音阶倾向于模仿人类的耳朵，以何种方式来感知和分辨频率，而人类对低频的不同频率更敏感。通过将原始音频数据转换为以mel尺度为Y轴的声谱图，我们可以利用声谱图所提供的细节信息随时间变化的优势。接下来，我们可以把我们的光谱图发送到我们的移动网络结构中。

HPSS (Harmonic-Percussive Sound Seperation)

通过分解声音，我们可以得到两个不同的组成部分:和声和打击音[2]。HPSS算法旨在将鼓声从混合音乐中分离出来。从论文[8]中，我们认识到，基于谱图上的谐波/撞击分离的各向异性，可以使用一种简单而快速的算法。在我们的工作中，我们使用Librosa提供的Python代码来分解我们的数据集，并将它们转换为光谱图。

Data augmentation

在论文中，我们认识到实现声音数据增强的方法有很多种。以下是我们在工作中采用的一些技巧。这些是在我们将数据集转换为光谱图之前完成的。

Random Noise 随机噪声
- 为了扩大我们的数据集，我们在原始音轨中添加了随机高斯分布信息。
Time Stretching 时长拉伸
- 有两种方式:减速或加速。我们将音频文件的速度提高了1.2倍，同时保持了相同的音高
Pitch Shifting
- 我们降低音调，保持持续时间不变。因此，音频样本的音高移动{-1，-2}(以半音为单位)
Time Shifting 时间变换
- 我们延迟原声，然后剪切并放置在声音开始时超出时间间隔的片段

MobileNet

我们提出了基于MobileNet结构的体系结构，该体系结构包含了一个包含Log Mel和HPSS两种不同特征提取结果的并行结构。

Fine-Tuning 微调

通过替换和重新训练ConvNet之上的分类器，并通过反向传播对预训练网络的权值进行微调，我们能够利用其他人所做的预训练权值。我们最初冻结了上层，但后来发现它并没有带来更好的性能。因此，我们在原始的MobileNet模型中切掉9层，并使用随机梯度下降(SGD)优化器训练它们，我们降低了学习速率来提高我们的性能。

Late Fusion 后期融合

由于Log Mel和HPSS两种不同的结果，我们将每一个分类结果转换成一个15维数组，然后采用平均集成策略，平均两个模型预测概率，得到更可靠的结果。我们之所以没有使用后期融合的动态分数，是因为我们发现它与算术平均法的差异很小，甚至没有可比性。因此，我们决定分别设置相等的概率。通过这样做，我们结构的结果将均匀分布，而不会过度依赖特定的结果。

Overall Structure 总体结构

整体架构如图1所示，由两种不同的特征提取技术组成。采用不同的预处理方法分别对三种MobileNet模型进行训练。接下来，在计算每个检测到的场景的概率之前，这些预测分数被集成。图2显示了MobileNet块，中间的块表示每个MobileNet层内部的结构。左图和右图展示了两种具有不同预处理策略的模型。可以看到使用了batch normalization (BN) ，relu等

在引入了我们的MobileNet模型之后，我们继续在图2中的左边和右边的区块。在右边的区块，我们提出了两个9层移动网络与HPSS。在训练之后，这两个结果连在一起并被重塑变成1024维的向量。然后，我们添加了一个参数为0.5的dropout函数，可以有效地避免过拟合。然后我们应用一个卷积层作为我们的分类器，结果再次被重塑成一个15维数组，它代表了我们数据集中场景的15种不同概率。图2的左块也是一个并行模型，但特征提取Log Mel代替。接下来，根据图1，我们将两种结果进行集成。一个集合是一个模型的组合，它的预测是通过不同的机制集成的。因此，通过结合每个结构的两个结果(在3.5中提到)，我们可以获得更准确和可信的预测结果。

EXPERIMENTS 实验

在我们的实验中，我们决定批量大小的参数为8，因为我们发现它比这个任务中的数字16或32更合适。这是因为更大的批处理规模并不能通过随机梯度下降(SGD)优化器获得更好的精度。我们从0.01逐渐降低了我们的学习率，并发现当我们所提议的结构的准确率为0.001时，其结果令人满意。原因是高学习率会很容易破坏训练前的重量。虽然训练时的历元数会增加，但低学习率的表现明显更好。
图3和图4分别显示了HPSS和Log Mel特征各场景验证的准确率。可以看出，除了住宅声和有轨电车声，在大多数场景中，采用Log Mel的模型都比采用HPSS的模型有更高的性能。每种预处理方法的总回收率分别为68.6%和72.59%。值得注意的是，在一些地方，尽管我们使用了不同的特征提取技术，但准确率还是相对较低。例如,每个数字中，场景库的验证准确率最低。这是可以解释的，因为库中没有明显的特征可以被机器识别，一些不同的噪音使我们的模型有问题。因此，很难准确地做出正确的预测。此外，公园中人类和生物发出的声音的结合也影响了提取的特征，导致预测不准确。从上述因素来看，我们希望利用生成式对抗网络使我们的模型更加健壮，即使训练数据的特征不能有效地解决，也能保持良好的性能。此外，我们试图检验晚期融合的有效性。我们发现Fig.5中后期融合的准确率和融合率在各个场景中都有明显的提高，整体融合结果也达到了75.99%。

即使我们在完成数据增强后得到了更高的速率，但准确性仍然低于我们的满意度。这种现象是由于模型中的层越多并不总能带来更好的性能。这是因为当深度学习网络中有很多层时，无法有效更新与输入层相邻的梯度，这被称为消失梯度。尽管采用ReLU激活函数可以解决这一问题，但结果并不总是令人满意的。因此，我们随后试图从原始的MobileNet模型中减少层数，并在我们提出的结构中还有9个层时提出了最佳准确率。

CONCLUSION

根据我们的实验结果，我们最终提出了一个并行的MobileNet模型，当它们在每个特征提取结构(HPSS和Log Mel)中都减少到9层时，效果最好。同时，我们努力逐步改变我们的参数，并找到了它们的优化。因此，根据上面阐述的细节，我们最终成功地提高了我们的验证准确率。在展望中，我们希望figure GAN生成更多的训练数据，以稳定我们的模型，获得更好的成绩。

收获

应用型文章蛮好发的