文章链接：WAVE-U-NET

一种用于端到端音频分离的多尺度神经网络

声源分离模型通常在幅度谱上工作，忽略了相位信息，使得分离性能依赖于光谱前端的超参数。因此，我们在时域内研究端到端信源分离，这使得相位信息建模成为可能，并且避免了固定的频谱转换。由于音频的高采样率，在采样级别使用长时间输入上下文是困难的，但由于长时间相关性，需要高质量的分离结果。在这种情况下，我们提出了一种基于一维时域的u - u网络，它可以重复地重新构造特征图来计算和组合不同时间尺度的特征。我们引入了进一步的架构改进，包括一个输出层，它加强了源的可加性，一个上采样技术和一个上下文感知的预测框架来减少输出工件。唱歌声音分离的实验表明，在相同的数据下，我们的体系结构的性能可与最先进的基于声谱图的U-Net体系结构相媲美。最后，我们揭示了目前使用的SDR评估指标存在的一个异常值问题，并建议报告基于排名的统计数据来缓解这个问题。

目前的声源分离方法几乎都是基于声频信号的谱图表示[6,7]，因为它们允许直接访问时间和频率上的组件。特别是对输入的混合信号进行短时傅里叶变换(STFT)后，复值谱图被分解为幅值和相位分量。然后，仅将震级输入参数模型，该模型将返回单个声源的估计谱图震级。为了产生相应的音频信号，这些幅度与混合相位相结合，然后用反STFT转换到时域。可选地，可以使用Griffin-Lim算法[5]为每个源分别恢复相位

这种方法有几个局限性。首先，STFT输出依赖于许多参数，如音频帧的大小和重叠，这些参数会影响时间和频率分辨率。理想情况下，应该结合分离模型的参数对这些参数进行优化，以最大化特定分离任务的性能。然而，在实践中，转换参数被固定为特定的值。其次，由于分离模型没有对源相进行估计，因此常常假设它等于混合相，这对于重叠部分是不正确的。或者，Griffin- Lim算法可以用来找到一个信号的近似值，它的大小等于估计的大小，但是速度很慢，而且通常不存在这样的信号[8]。最后，在估计源时忽略了混合阶段，这可能会限制性能。因此，分离模型需要学习直接估计源信号及其相位。

为了解决上述问题，最近提出了几种直接作用于时域音频信号的音频处理模型，包括语音去噪作为一项与一般音频源分离相关的任务[1,16,18]。受这些初步结果的启发，我们在本文中研究了在未解决的挑战下全端到端时域分离系统的潜力。特别是，目前还不清楚这样的系统是否能够有效地处理音频中存在的非常长期的时间依赖关系，因为它的采样率很高。此外，额外的阶段信息是否确实对任务有益，或者嘈杂的阶段是否可能对这样一个系统中的学习动态有害，这一点在前面并不明显。总之，我们在本文中的贡献可以总结如下。

我们提出了Wave-U-Net，这是一种对U-Net体系结构的一维调整[7,19]，它可以在时域中直接分离源，并且可以考虑大的时间上下文。
与之前的工作相比，我们展示了一种为模型提供额外输入上下文以避免输出窗口边界的工件的方法[7,16]。
我们将之前工作中对特征图进行向上采样时使用的横纹置换卷积替换为线性插值，然后再进行正常卷积，以避免伪影。[7,16]

WAVE-U-NET

Wavenet[1]被用来对[18]进行语音去噪，每个预测都有一个非因果条件输入和一个并行的样本输出，它的基础是在上下文信息中重复应用扩展卷积，并使用指数增长的扩展因子。虽然这种架构具有很高的参数效率，但是内存消耗很高，因为由扩展卷积产生的每个特征映射仍然以原始音频的采样率作为分辨率。

Wave-U-Net体系结构的示意图如图1所示。它使用向下采样(DS)块在较粗的时间尺度上计算越来越多的高级特性。这些特征与早期使用upsampling (US)块计算出的局部高分辨率特征相结合，产生了用于进行预测的多尺度特征。该网络共有L个级别，每个连续级别的运行时间分辨率是前一个级别的一半。对于要估计的K个源，该模型在区间(−1,1)内返回预测，每个源音频样本一个。
具体架构如表1所示。Conv1D(x,y)表示与大小为y的x个过滤器的一维卷积。它包括基本架构的填充0，然后是一个LeakyReLU激活(除了最后一个使用tanh的激活)。每隔一个时间步抽取丢弃特征，将时间分辨率减半。Upsample在时间方向上以两倍的倍数执行上采样，为此我们使用线性插值(详见3.1.1节)。Concat(x)将当前的高级功能与更多的本地功能x连接起来。在基本架构的扩展中(见下文)，Conv1D不涉及零填充，x首先被中心裁剪，因此它具有与当前层相同的时间步长。

定量结果评价指标

信号失真(SDR)指标通常用于评估源分离性能[25]。一个音轨通常被分割成长度为几秒的不重叠的音轨，然后在每个音轨或整个数据集上对节段度量求平均值以评估模型性能。按照SiSec 2018年[17]分离运动的步骤，这些片段有一秒长。

总结

本文提出了一种不需要预处理或后处理的端到端声源分离的Wave-U-Net，并将其应用于声乐和多乐器分离。对长时间背景进行重复下采样和特征图卷积处理，将不同时间尺度下的高、低阶特征结合起来。

我们强调了在最近的分离和增强模型中缺乏适当的时间输入上下文，这可能会影响性能和创建工件，并提出了对卷积填充的简单更改作为解决方案。类似地，作为跨行移位卷积的一部分，零填充的上采样产生的伪影可以用固定或习得权值的线性上采样来处理，以避免高频伪影。

最后，我们确定了当前基于sdr的评估框架中的一个问题，该框架为源的安静部分生成异常值，并建议将基于排名的度量作为一个简单的解决方案。然而，利用SDR指标对声分离结果进行感性评价的深层次问题仍然存在，需要在未来从根本上加以解决。

对于未来的工作,我们可以调查到什么程度我们的模型进行光谱分析,以及如何将计算在多尺度filterbank类似,或显式计算输入信号分解成一组分层的基础上执行分离信号和权重,类似于TasNet [12]。此外，应该研究更好的原始音频预测损失函数，如生成式对抗网络提供的损失函数[3,21]，因为MSE可能不能很好地反映感知到的质量损失。

论文+翻译版
提取码 :fdog

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION相关推荐

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION-----论文翻译
WAVE-U-NET: 一个用于端到端音源分离的多尺度神经网络作者:Daniel Stoller.Sebastian Ewert.Simon Dixon 摘要: 音频源分离模型通常在幅度频谱上操 ...
Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network（省略）---论文翻译
基于注意力的卷积递归神经网络的复杂频谱映射,用于语音增强 Liming Zhou1, Yongyu Gao1,Ziluo Wang1,Jiwei Li1,Wenbin Zhang11CloudWalk ...
Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读
<Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...
Bayesian Neural Network for regression (PRML)
Bayesian Neural Network : PRML 5.7章节参考代码:https://nbviewer.jupyter.org/github/ctgk/PRML/blob/master ...
【面向代码】学习 Deep Learning Convolution Neural Network(CNN)
转载自: [面向代码]学习 Deep Learning(三)Convolution Neural Network(CNN) - DarkScope从这里开始 - 博客频道 - CSDN.NET htt ...
5.深度学习练习：Deep Neural Network for Image Classification: Application
本文节选自吴恩达老师<深度学习专项课程>编程作业,在此表示感谢. 课程链接:https://www.deeplearning.ai/deep-learning-specialization ...
(zhuan) LSTM Neural Network for Time Series Prediction
LSTM Neural Network for Time Series Prediction Wed 21st Dec 2016 Neural Networks these days are the ...
论文阅读-2022.1.2-A Neural Network Approach for_2016_一种用于知识驱动响应生成的神经网络方法
摘要 We present a novel response generation system.我们提出了一种新颖的响应生成系统. The system assumes the hypothesis ...
【论文研读】Similarity of Neural Network Representations Revisited (ICML2019)
Title: Similarity of Neural Network Representations Revisited (ICML2019) Author:Simon Kornblith ...( ...

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION

一种用于端到端音频分离的多尺度神经网络

WAVE-U-NET

定量结果评价指标

总结

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION相关推荐

最新文章

热门文章

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION

一种用于端到端音频分离的多尺度神经网络

WAVE-U-NET

定量结果 评价指标

总结

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION相关推荐

最新文章

热门文章

定量结果评价指标