22. Asteroid: the PyTorch-based audio source separation toolkit for researchers

本文介绍了用于研究人员的基于pytorch的音频源分离工具包Asteroid。受到最成功的神经源分离系统的启发，它提供了建立这样一个系统所需的所有神经构建模块。为了提高再现性，还提供了常见音频源分离数据集的 Asteroid’s recipes。本文介绍了Asteroid的软件体系结构及其主要功能。通过展示实验结果获得的Asteroid’s recipes，可以看见我们的实验结果取得了比较好的效果。

代码提供在github.com/mpariente/asteroid.

1.介绍

2.框架

3. 数据集

4.pipeline

4.结论

1.介绍

声源分离旨在将混合信号分离成单个的声源信号，是在真实声学环境中实现鲁棒语音处理的关键。经典的开源工具包，如fast、HARK、ManyEars和openBliSSART，它们基于概率建模、非负矩阵分解、声源局部化和/或波束形成，在过去的十年中已经取得了成功。然而，它们现在在很大程度上被基于深度学习的方法超越，至少在单通道信源分离的任务上是这样。

其他还有一些开源的包，用于声源的分离。比如有nussl，onssen，open-unmix。但是存在一系列的问题，比较明显的是，他们并不会全部提供数据集，或者没有提供完整的pipeline。

Asteroid用户友好的，容易扩展，促进可复制的研究，并使易于实验。因此，它支持广泛的数据集和架构，并提供重现一些重要论文的配方。Asteroid是建立在以下原则:

1.尽可能使用自然地pytorch代码

2.允许较小的第三方改动

3.按照需要可配置

2.框架

Asteroid 不是单框架任务short-time Fourier trans- form (STFT)-like representation。遵循编码器-掩码-解码器的方法，并提供各种选择的filterbanks，masker networks, and loss functions。它还为几个数据集training and evaluation tools and recipes。

这里的masker网络，Asteroid主要使用的是TasNet's 的LSTM网络。以及DPRNN（多路径循环神经网络）。

3. 数据集

wsj0-2mix和wsj0-3mix、WHAM、WHAMR、LibriMix FUSS、微软深层噪声抑制挑战数据集(DNS)、SMS-WSJ、Kinect- WSJ、MUSDB18。wsj0-2mix和MUSDB18分别是目前用于语音和音乐分离的参考数据集。WHAM、WHAMR、LibriMix、SMS-WSJ和Kinect-WSJ是最近发布的数据集，它们解决了wsj0-2mix的一些缺点。FUSS是第一个处理任意声音分离的开源数据集。注意，wsj0-2mix是WHAM的一个子集，WHAM是WHAMR的一个子集。

使用pb bss eval4执行评估，这是pb bss5的一个子工具包，专门为评估而编写。它原生支持用于源分离的大多数指标:SDR、信噪比(SIR)、信伪比(SAR)、SI-SDR、PESQ和短时目标可解性(STOI)。

4.pipeline

4.结论

在本文中，我们介绍了一个新的开源音频源分离工具包Asteroid，它专为研究人员和实践者设计。对比实验表明，在不同的数据集和不同的体系结构下，使用Asteroid获得的结果是有竞争力的。该工具包被设计成可以快速扩展为新的网络架构或新的基准数据集。在不久的将来，预训练模型将可用，我们打算与ESPNet接口，以实现端到端多说话人语音识别。